tìm kiếm văn bản theo nội dung và ứng dụng

66 470 0
tìm kiếm văn bản theo nội dung và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀ THÔNG HÀ THANH THỦY TÌM KIẾM VĂN BẢN THEO NỘI DUNG VÀ ỨNG DỤNG Luận văn thạc sĩ khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Thái nguyên – 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CẢM ƠN Để hoàn thành chương trình cao học, tôi đã nhận được sự hướng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trường Đại học Công nghệ thông tin - Truyền thông, Đại học Thái Nguyên. Trước hết, tôi xin chân thành cảm ơn quí thầy cô trường Đại học Công nghệ thông tin - Truyền thông, đặc biệt là những thầy cô đã tận tình dạy bảo cho tôi suốt thời gian học tập tại trường. Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Đặng Văn Đức người thầy đã dành rất nhiều thời gian, tâm huyết và sự tận tình giúp đỡ, hướng dẫn tôi trong suốt quá trình nghiên cứu để hoàn thành luận văn này. Đồng thời, tôi xin chân thành cảm ơn Sở Giáo dục và đào tạo tỉnh Thái Nguyên, Ban Giám hiệu trường THPT Lương Ngọc Quyến đã tạo điều kiện giúp đỡ tôi về mọi mặt để tôi học tập và hoàn thành tốt khóa học. Cuối cùng tôi xin chân thành cảm ơn gia đình và bạn bè, những người đã động viên, khuyến khích tôi trong suốt quá trình học tập và nghiên cứu. Mặc dù đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng lực của mình, tuy nhiên vẫn không thể tránh khỏi những thiếu sót, tôi rất mong nhận được những đóng góp quí báu của quí thầy cô và các bạn. Thái Nguyên, ngày 20 tháng 6 năm 2012 Học viên Hà Thanh Thủy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Thái Nguyên, ngày 20 tháng 6 năm 2012 Học viên Hà Thanh Thủy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT Từ gốc Giải nghĩa CSDL Cơ sở dữ liệu DBMS (DataBase Management System) Hệ quản trị Cơ sở dữ liệu IR (Information Retrieval) Truy tìm thông tin IDF(Inverse Document Frequency) Tần số xuất hiện tài liệu phù hợp LSI(Latent Semantic Indexing) Chỉ số hóa ngữ nghĩa ẩn MMDBMS (Multimedia Database Management System) Hệ quản trị cơ sở dữ liệu đa phương tiện SVD(Singular Value Decomposition) Kỹ thuật tách giá trị đơn TF (Term Frequency) Tần số xuất hiện thuật ngữ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC HÌNH VẼ Hình 1.1 Mô hình dữ liệu đa phương tiện Hình 1.2 Hệ thống IR tiêu biểu Hình 1.3 Tiến trình truy vấn tài liệu Hình 1.4 Đồ thị so sánh hiệu năng Hình 2.1 Mô tả các sự kết hợp của Boolean Hình 2.2 Sử dụng các khái niệm cho truy vấn Hình 2.3 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ-tài liệu Hình 2.4 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu Hình 2.5 Đồ thị Recall – Precision của thuật toán LSI Hình 2.6 Mô hình khái niệm cơ bản Hình 3.1 Sơ đồ các chức năng thành phần của dtSearch Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v MỤC LỤC MỞ ĐẦU 1 CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM 4 THÔNG TIN THEO NỘI DUNG 4 1.1. Khái quát về cơ sở dữ liệu đa phương tiện 4 1.1.1 Giới thiệu 4 1.1.2 Mục tiêu chính 6 1.1.3 Mô hình dữ liệu đa phương tiện 6 1.2. Hệ thống truy tìm thông tin 8 1.2.1 Khái quát 8 1.2.2 Vấn đề truy tìm tài liệu văn bản 10 1.2.3 Phân biệt các hệ thống IR và DBMS 12 1.3. Trích chọn đặc trưng, chỉ mục và đo tính tương tự 14 1.3.1 Trích chọn đặc trưng 14 1.3.2 Chỉ số hoá cấu trúc 16 1.3.3 Đo tính tương tự 17 1.4. Xếp hạng tài liệu 17 CHƢƠNG II: MỘT SỐ KỸ THUẬT TÌM KIẾM THÔNG TIN VĂN 23 BẢN THEO NỘI DUNG 23 2.1. Mô hình tìm kiếm thông tin Bool 23 2.1.1 Truy vấn Boolean 23 2.1.2 Cấu trúc tệp chỉ mục 25 2.1.3 Chỉ mục tự động 28 2.1.4 Tổng kết về chỉ mục tự động tài liệu 31 2.2. Tìm kiếm văn bản trên cơ sở mô hình không gian vector 32 2.3. Tìm kiếm văn bản trên cơ sở kỹ thuật LSI 34 2.3.1 Ý tưởng cơ bản của LSI 34 2.3.2 Một số khái niệm cơ bản 36 2.3.3 Kỹ thuật SVD (singular value decomposition) 38 2.4. Mô hình tìm kiếm theo xác suất 41 2.4.1 Lịch sử của mô hình xác suất trong IR 41 2.4.2 Không gian biến cố 42 2.4.3 Một mô hình khái niệm 43 2.4.4 Về các khái niệm “liên quan” và “xác suất liên quan” 45 2.4.5 Nguyên tắc xếp hạng xác suất 45 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi 2.4.6 Mô hình nhị phân độc lập (BIM) 46 CHƢƠNG III: NGHIÊN CỨU THỬ NGHIỆM THƢ VIỆN TÌM 48 KIẾM VĂN BẢN DTSEARCH 48 3.1 Bài toán 48 3.2 Thư viện tìm kiếm văn bản DTSearch 49 3.2.1 Giới thiệu chung 49 3.2.2 Yêu cầu phần cứng 50 3.2.3 Cấu trúc các chức năng và thành phần của dtSearch 50 3.2.4 Sử dụng dtSearch trong môi trường lập trình Java 52 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 59 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Công nghệ thông tin trên thế giới đang phát triển rất nhanh trong giai đoạn hiện nay. Những tiến bộ của khoa học công nghệ thông tin được áp dụng phục vụ công tác nghiên cứu khoa học, công tác quản lý, sản xuất và phục vụ đời sống con người hàng ngày. Càng ngày, người ta càng nhận thấy tính hiệu quả, tiện ích của khoa học trí tuệ đã từng bước thay thế lao động thủ công, giảm bớt thời gian lao động, tiết kiệm chi phí và tạo nên rất nhiều tiện ích khác. Có thể khẳng định rằng: công nghệ thông tin đã mở ra một kỉ nguyên mới, kỉ nguyên của tự động hoá và đã tạo ra một bước nhảy vọt của nền khoa học thế giới cũng như nền văn minh nhân loại Trong xu thế phát triển chung của xã hội cũng như định hướng của Đảng và Nhà nước ta trong việc áp dụng công nghệ thông tin trong tất cả các lĩnh vực đời sống, với sự phát triển mạnh mẽ của công nghệ thông tin, tất cả các lĩnh vực đời sống trong xã hội đã tạo ra một khối lượng dữ liệu khổng lồ. Trong rất nhiều tình huống, chúng ta phải tìm ra những thông tin cần thiết từ kho dữ liệu khổng lồ đã có ấy. Tuy nhiên, vì khối lượng dữ liệu lớn, vì thời gian hạn hẹp cho nên nhiều khi việc tìm kiếm dữ liệu gặp rất nhiều khó khăn. Do đó, cần có các hệ thống tìm kiếm thông tin để hỗ trợ người dùng tìm kiếm nhanh và hiệu quả những thông tin mà họ quan tâm. Việc tìm tòi nghiên cứu ứng dụng những thuật toán giúp cho việc tìm kiếm dữ liệu được nhanh chóng, tiết kiệm thời gian, có hệ thống và khoa học là một việc làm hết sức cần thiết trong giai đoạn hiện nay. Văn bản là một trong số các dạng của dữ liệu đa phương tiện, nó được quan tâm từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ. Tài liệu văn bản chiếm đa số trong mọi cơ quan tổ chức, đặc biệt là trong thư viện Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 và còn được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video, audio, hình ảnh. Số lượng tài liệu văn bản ngày càng lớn và có vai trò vô cùng quan trọng, vì thế việc lưu trữ, xử lý và truy tìm thủ công trước đây không thể hoặc khó có thể thực hiện được. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ thuật tìm kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng được những nhu cầu cấp thiết của thời đại bùng nổ thông tin điện tử. Trên thực tế, đã có nhiều công trình nghiên cứu về vấn đề này được công bố ở cả trong và ngoài nước. Mục tiêu luận văn với đề tài”Tìm kiếm văn bản theo nội dung và ứng dụng” mà tôi hướng tới là nghiên cứu một số kỹ thuật/phương pháp mới, thử đánh giá so sánh và ứng dụng vào môi trường cụ thể. Đối tƣợng và phạm vi nghiên cứu Hệ thống đa phương tiện là một vấn đề phức tạp và rộng lớn, do vậy phạm vi nghiên cứu của luận văn chỉ giới hạn trong việc sử dụng một số kỹ thuật tìm kiếm văn bản theo nội dung, sau đó phát triển chương trình demo ứng dụng tìm kiếm văn bản theo nội dung. Hƣớng nghiên cứu của đề tài - Nắm vững qui trình thiết kế CSDL đa phương tiện, trong đó CSDL văn bản là thành phần quan trọng. - Nghiên cứu một số kỹ thuật tìm kiếm văn bản theo nội dung như: mô hình tìm kiếm Bool, mô hình tìm kiếm không gian vector, mô hình tìm kiếm theo xác suất, kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (Latent Sematic Indexing-LSI). - Nghiên cứu các độ đo phù hợp để đánh giá hiệu năng hệ thống Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 - Xây dựng thử nghiệm chương trình demo tìm kiếm văn bản theo nội dung trên cơ sở bộ thư viện dtSearch. Phƣơng pháp nghiên cứu - Tổng hợp tài liệu từ nhiều nguồn khác nhau. - Phân tích, liệt kê, so sánh, đối chiếu, trực quan, thực nghiệm,… Cấu trúc luận văn Ngoài phần mở đầu giới thiệu ý nghĩa của chủ đề nghiên cứu và phần kết luận nêu lên các kết quả chính đã đạt được, luận văn gồm các chương sau đây: Chƣơng I: Giới thiệu tổng quan về hệ thống tìm kiếm thông tin theo nội dung. Chƣơng II: Một số kỹ thuật tìm kiếm thông tin văn bản theo nội dung. Chƣơng III: Nghiên cứu thử nghiệm thư viện tìm kiếm văn bản dtSearch. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn [...]... bằng văn bản: Mô tả nội dung đối tượng bằng văn bản Mô tả dưới hình thức nhiều từ khóa hay văn bản thông thường Chỉ mục và tìm kiếm trên cơ sở mô tả bằng văn bản được quản lý bằng kỹ thuật IR Mặc dù mô tả bằng văn bản có hạn chế là còn tính chủ quan và chưa đầy đủ, nhưng đây vẫn là phương pháp hay được sử dụng và hiệu quả Nên sử dụng mô tả bằng văn bản kết hợp với các đặc trưng khác trong ứng dụng. .. cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội dung văn bản Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ khóa, chỉ mục Tóm lại, các tài liệu... hai hệ thống truy tìm văn bản (IR) và DBMS giúp ta hiểu rõ các kỹ thuật truy tìm văn bản - DBMS: Chứa các bản ghi có cấu trúc đồng nhất Mỗi bản ghi được đặc trưng bởi tập các thuộc tính Các giá trị thuộc tính được gán cho bản ghi để mô tả bản ghi này một cách rõ ràng và đầy đủ Truy vấn ở đây dựa trên cơ sở đối sánh chính xác giữa câu truy vấn và các giá trị thuộc tính trong bản ghi Mỗi bản ghi truy vấn... THÔNG TIN VĂN BẢN THEO NỘI DUNG Mục tiêu của các hệ thống tìm kiếm thông tin là trả về các tài liệu càng liên quan đến câu hỏi càng tốt Vì lý do đó mà có nhiều mô hình tìm kiếm thông tin ra đời để tính toán chính xác độ tương quan này Sau đây là một số mô hình tìm kiếm cơ bản: 2.1 Mô hình tìm kiếm thông tin Bool 2.1.1 Truy vấn Boolean Mô hình Boolean hình thành trên cơ sở lý thuyết tập hợp và đại số... tính toán sẽ cho thấy điều này Truy tìm dựa trên cơ sở nội dung (Content- based retrieval): Người sử dụng có thể chỉ rõ các điều kiện lựa chọn dựa trên những nội dung của các đối tượng đa phương tiện Ví dụ, người sử dụng tìm kiếm ảnh, sử dụng truy vấn như: Tìm tất cả các ảnh giống với ảnh này” và Tìm tất cả các ảnh chứa ít nhất 3 máy bay” Các hình ảnh được thêm vào cơ sở dữ liệu, DBMS Số hóa bởi Trung... giải và truy tìm Có một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác, ta có thể sử dụng sự hiểu biết về một hay vài kiểu giúp hiểu và trích chọn đặc trưng cho các kiểu khác Ví dụ, nếu đối tượng đa phương tiện bao gồm rãnh hình (video) và rãnh tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri thức về đối tượng và sử dụng tri thức này để phân đoạn, trích chọn các đặc trưng và đối... liệu văn bản trong các thư viện Văn bản là tài nguyên rất quan trọng đối với các cơ quan tổ chức Cần có IR đủ tốt để sử dụng có hiệu quả các thông tin lưu trữ trong các tài liệu - Văn bản được sử dụng để mô tả các phương tiện khác như video, audio, ảnh để có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông tin đa phương tiện Mục đích của người sử dụng hệ truy tìm: - Độ chính xác: Truy tìm. .. thuật ngữ chỉ mục i Recordi (i = 1, 2, 3, 4) là số ID của bản ghi i hay tài liệu i Dòng 1 có nghĩa rằng Record1 và Record3 chứa Term1 Các dòng khác có ý nghĩa tương tự Sử dụng tệp mục lục, việc tìm kiếm sẽ được thực hiện nhanh chóng Không cần phải tìm kiếm mọi bản ghi trong CSDL mà chỉ truy tìm các hàng có chứa thuật ngữ tìm kiếm Quy tắc tìm kiếm bằng mô hình Bool trên cơ sở các tệp mục lục như sau:... lý để trích chọn đặc trưng và thuộc tính.Trong tiến trình tìm kiếm, các đặc trưng và thuộc tính này được tìm kiếm và so sánh thay cho chính các mục thông tin Do vậy, chất lượng của trích chọn đặc trưng xác định hiệu quả tìm kiếm Nếu đặc trưng không được tách ra từ item nào thì không thể tìm thấy chúng từ CSDL theo đặc trưng đó Đó là một trong sự khác biệt lớn nhất giữa MIRS và Số hóa bởi Trung tâm Học... thực sự rõ ràng là làm thế nào để truy tìm các miền cụ thể đó và các kỹ thuật tìm kiếm có thể được kết hợp hiệu quả với các truy vấn DBMS truyền thống 1.2.2 Vấn đề truy tìm tài liệu văn bản Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm thông tin (IR) Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text) và kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì . quan về hệ thống tìm kiếm thông tin theo nội dung. Chƣơng II: Một số kỹ thuật tìm kiếm thông tin văn bản theo nội dung. Chƣơng III: Nghiên cứu thử nghiệm thư viện tìm kiếm văn bản dtSearch. . nước. Mục tiêu luận văn với đề tài Tìm kiếm văn bản theo nội dung và ứng dụng mà tôi hướng tới là nghiên cứu một số kỹ thuật/phương pháp mới, thử đánh giá so sánh và ứng dụng vào môi trường cụ. quan trọng. - Nghiên cứu một số kỹ thuật tìm kiếm văn bản theo nội dung như: mô hình tìm kiếm Bool, mô hình tìm kiếm không gian vector, mô hình tìm kiếm theo xác suất, kỹ thuật chỉ mục ngữ nghĩa

Ngày đăng: 03/10/2014, 23:10

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan