Luận án tiến sĩ Truy hồi thông tin dựa trên ontology

138 319 1
Luận án tiến sĩ Truy hồi thông tin dựa trên ontology

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2013 ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2013 ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62.48.01.01 Phản biện độc lập 1: PGS. TS. Đồng Thị Bích Thủy, ĐH KHTN, ĐHQG TPHCM Phản biện độc lập 2: PGS. TS. Lê Thanh Hƣơng, Viện CNTT&TT, ĐH BKHN Phản biện 1: PGS. TS. Đỗ Phúc, ĐH CNTT, ĐHQG TPHCM Phản biện 2: TS. Nguyễn Thị Minh Huyền, ĐH KHTN, ĐHQG HN Phản biện 3: PGS. TS. Dƣơng Tuấn Anh, ĐH BKTPHCM, ĐHQG TPHCM NGƢỜI HƢỚNG DẪN KHOA HỌC PGS. TS. Cao Hoàng Trụ, ĐH BKTPHCM, ĐHQG TPHCM i LỜI CAM ĐOAN Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất cả những tham khảo từ các nghiên cứu liên quan điều đƣợc nêu rõ nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo đƣợc đề cập ở phần sau của luận án. Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã đƣợc công bố trong các bài báo của tác giả ở phần sau của luận án và chƣa đƣợc công bố trong bất kỳ công trình khoa học nào khác. Tác giả luận án Ngô Minh Vƣơng ii LỜI CẢM ƠN Trong quá trình hoàn thành luận án này, tôi đã đƣợc các thầy cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia đình thƣờng xuyên động viên khích lệ. Luận án này không thể hoàn thành tốt nếu không có sự tận tình hƣớng dẫn và sự giúp đỡ quí báu của PGS.TS. Cao Hoàng Trụ, Thầy hƣớng dẫn mà tôi tôn vinh và muốn đƣợc bày tỏ lòng biết ơn sâu sắc nhất. Tôi cũng muốn đƣợc bày tỏ lòng biết ơn đối với tập thể các thầy cô Khoa KH&KT Máy Tính - Đại học Bách Khoa Tp.HCM đã giúp đỡ và tạo điều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở Khoa. Cảm ơn Phòng Quản lý Sau Đại học về sự hỗ trợ các thủ tục trong quá trình hoàn thành luận án. Cảm ơn Ban Giám hiệu Trƣờng Đại học Bách Khoa Tp.HCM, Phòng Khoa học Công nghệ & Dự án, và Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện đề tài nghiên cứu cấp trƣờng năm 2010. Cảm ơn Tập đoàn TOSHIBA đã cấp học bổng Chƣơng trình nghiên cứu khoa học và công nghệ cho học viên sau đại học xuất sắc trong 3 năm 2008, 2009 và 2010. Cảm ơn Ban Giám đốc ĐHQGTpHCM, Ban Quan hệ và Đối ngoại đã tạo điều kiện thuận lợi cho tôi tiếp cận đƣợc học bổng TOSHIBA ở trên. Cảm ơn Tập đoàn VNG đã tài trợ một phần kinh phí để tôi có thể công bố và thuyết trình công trình của mình tại hội nghị IJCNLP-2011 ở Chiang Mai, Thailand. Những tài trợ này đã hỗ trợ tôi rất nhiều về mặt tài chính để trang trải một phần kinh phí học tập và nghiên cứu của tôi trong thời gian qua. Tôi chân thành cảm ơn Trung tâm CNTT - Ngân hàng Phát Triển Nhà ĐBSCL, Trung tâm R&D - Tập đoàn VNG và Khoa CNTT - Đại học Tôn Đức Thắng đã tạo mọi điều kiện thuận lợi cho tôi từ năm 2008 đến nay để hoàn thành luận án này. Cuối cùng tôi cảm ơn tất cả bạn bè và ngƣời thân đã góp nhiều ý kiến và những lời động viên khích lệ quí báu giúp tôi vƣợt qua khó khăn để hoàn thành tốt luận án. Tác giả luận án Ngô Minh Vƣơng iii TÓM TẮT Các hệ thống truy hồi tài liệu dạng văn bản hiện nay gặp nhiều thách thức trong việc khám phá và biểu diễn ngữ nghĩa của truy vấn và tài liệu. Truy hồi tài liệu dựa trên việc so trùng các từ khóa có nhiều nhƣợc điểm bởi vì nó chỉ xem xét đến hình thức bề mặt của các từ xuất hiện trong văn bản hơn là ý nghĩa của các từ này. Trong khi đó, nội dung của văn bản phần lớn đƣợc xác định bởi các khái niệm nhƣ thực thể có tên và từ WordNet. Mặc khác, truy vấn đã có thể hiện rõ hơn mong muốn của ngƣời đặt truy vấn nếu đƣợc bổ sung các khái niệm tiềm ẩn phù hợp. Mục tiêu của luận án này là nghiên cứu và khai thác các ontology về thực thể có tên, từ WordNet và sự kiện về quan hệ thực thể để nâng cao hiệu quả truy hồi tài liệu về độ chính xác và độ đầy đủ. Trong văn bản, các khái niệm đƣợc diễn đạt dƣới các dạng nhƣ tên của thực thể hoặc nhãn của từ. Các khái niệm này ẩn chứa các đặc điểm ontology bên dƣới các hình thức bề mặt của chúng nhƣ bí danh/từ đồng nghĩa, lớp cha/nghĩa cha, lớp con/nghĩa con và định danh/nghĩa của từ. Ngoài ra, mỗi truy vấn còn hàm ý các thực thể liên quan đến các thực thể xuất hiện tƣờng minh trong truy vấn. Luận án này có ba nội dung chính. Thứ nhất, luận án khảo sát tất cả các đặc điểm ontology của thực thể có tên, các cách kết hợp chúng với từ khóa thông thƣờng, và nghiên cứu ảnh hƣởng của chúng đến hiệu quả truy hồi tài liệu, trong đó có cặp tên-lớp và định danh của thực thể có tên mà các công trình trƣớc đây chƣa khai thác. Thứ hai, luận án đề xuất sử dụng thêm cặp nhãn-nghĩa của từ WordNet bên cạnh các đặc điểm ontology cơ bản khác đã đƣợc sử dụng trƣớc đây. Thứ ba, luận án khai thác ontology về sự kiện để mở rộng truy vấn bằng các thực thể tiềm ẩn theo các quan hệ tƣờng minh với các thực thể trong truy vấn. Các mô hình đề xuất đƣợc hiện thực bằng cách mở rộng mô hình không gian vectơ cơ bản và đƣợc đánh giá bằng thực nghiệm trên các tập dữ liệu và độ đo hiệu quả chuẩn. Kết quả thí nghiệm cho thấy các mô hình đề xuất cho hiệu quả truy hồi tài liệu cao hơn so với các mô hình ở các công trình liên quan quan và mô hình truy hồi tài liệu theo từ khoá thông thƣờng. Đặc biệt luận án đã sử dụng phƣơng pháp kiểm định ý nghĩa thống kê để xác nhận lại sự tăng hiệu quả thật sự của các mô hình đề xuất. iv ABSTRACT Current text document retrieval systems are facing to many challenges in discovering and representing the semantics of queries and documents. Document retrieval based on lexical matching of keywords has many drawbacks because it only considers the surface forms of words appearing in a text rather than the meaning of the words. Meanwhile, the content of a text is mostly determined by concepts such as named entities and WordNet words. On the other hand, the meaning of a query could express more clearly user intention if it is expanded with suitable latent concepts. The objective of this thesis is to exploit ontologies of named entities, WordNet words and entity relationship facts to improve the performance of document retrieval in terms of the precision and recall measures. In a text, concepts are expressed by their surface forms like entity names or word labels. Those concepts contain hidden ontological features under their surface forms, such as aliases/synonyms, super-classes/hypernyms, sub-classes/hyponyms and identifiers/senses. Besides, each query also implies those entities that are related to entities explicitly appearing in the query. This thesis consists of three main parts. First, the thesis explores ontological features of named entities, different combinations of them and keywords, and evaluates their impact to document retrieval performance, in which name-class pairs and identifies of named entities have not been exploited in previous works. Second, the thesis proposes usage of form-sense pairs of WordNet words in addition to other basic ontological features that have been used previously. Third, the thesis exploits an ontology of facts to expand a query by latent entities that have explicit relations with other entities in the query. The proposed models are implemented by extending the basic vector space model and experimented on benchmark datasets and standard performance measures. Experiment results show that the proposed models give better retrieval performance than the models of related works and the traditional keyword-based document retrieval model. Especially, this thesis uses statistical significance tests to confirm the actual improvement in performance of the proposed models. v MỤC LỤC 1 Chƣơng 1 - GIỚI THIỆU 1 1.1 Động cơ nghiên cứu 1 1.2 Mục tiêu và phạm vi của luận án 2 1.3 Những đóng góp chính của luận án 3 1.4 Cấu trúc của luận án 4 2 Chƣơng 2 - CƠ SỞ KIẾN THỨC 6 2.1 Mô hình không gian vectơ 6 2.2 Giới thiệu về Lucene 7 2.3 Ontology 7 2.4 Nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ 11 2.5 Tập dữ liệu kiểm tra 12 2.6 Độ đo hiệu quả truy hồi 13 2.7 Kiểm định ý nghĩa thống kê 15 3 Chƣơng 3 - KHAI THÁC THỰC THỂ CÓ TÊN 17 3.1 Giới thiệu 17 3.2 Các công trình liên quan 19 3.3 Mô hình đa không gian vectơ cho thực thể có tên 22 3.4 Kết hợp thực thể có tên và từ khóa 31 3.5 Đánh giá thực nghiệm 38 3.6 Kết luận 56 4 Chƣơng 4 - KHAI THÁC TỪ WORDNET 58 4.1 Giới thiệu 58 4.2 Các công trình liên quan 59 4.3 Mô hình không gian vectơ dựa trên từ WordNet 61 4.4 Đánh giá thực nghiệm 66 4.5 Kết luận 72 5 Chƣơng 5 - KHAI THÁC THÔNG TIN TIỀM ẨN 73 5.1 Giới thiệu 73 5.2 Các công trình liên quan 74 vi 5.3 Phƣơng pháp kích hoạt lan truyền 76 5.4 Mở rộng truy vấn 78 5.5 Đánh giá thực nghiệm 80 5.6 Kết luận 86 6 Chƣơng 6 – KẾT HỢP CÁC MÔ HÌNH 88 6.1 Giới thiệu 88 6.2 Mô hình hợp nhất 88 6.3 Đánh giá thực nghiệm 90 6.4 Kết luận 95 7 Chƣơng 7 - TỔNG KẾT 96 7.1 Tóm tắt 96 7.2 Hƣớng phát triển 98 CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 100 TÀI LIỆU THAM KHẢO 102 vii DANH MỤC CÁC BẢNG Bảng 2.1. Thống kê về việc sử dụng tập kiểm tra trong các công trình mà luận án khảo sát ở SIGIR-2007 và SIGIR-2008 13 Bảng 3.1. Khảo sát việc khai thác các đặc điểm ontology của thực thể có tên cho truy hồi tài liệu 21 Bảng 3.2. Các ví dụ về việc chuyển đổi từ để hỏi sang lớp của thực thể 37 Bảng 3.3. Các độ chính xác trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, NEo, NEn và NE-KW 39 Bảng 3.4. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, NEo, NEn và NE-KW 39 Bảng 3.5. Các độ chính xác trung bình nhóm của các mô hình Lexical, NEo, NEn và NE-KW 40 Bảng 3.6. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher của mô hình NE+KW so với các mô hình khác 41 Bảng 3.7. Việc sử dụng các đặc điểm ontology của thực thể có tên để biểu diễn truy vấn và tài liệu 44 Bảng 3.8. Các độ chính xác trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW 46 Bảng 3.9. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW 46 Bảng 3.10. Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW 46 Bảng 3.11. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher của mô hình NE+KW so với các mô hình Lexical, Group_1, Group_2, Group_3 và NE+KW+notID 47 Bảng 3.12. Các độ chính xác trung bình của hai mô hình Lexical và NE+KW trên các truy vấn điển hình 50 [...]... thác và sử dụng thông tin trên WWW một cách hiệu quả là rất lớn Theo [1], truy hồi thông tin là thu thập các nguồn thông tin liên quan đến một yêu cầu về thông tin, còn máy tìm kiếm là một ứng dụng thực tế của truy hồi thông tin Các vấn đề chính của truy hồi thông tin là mô hình biểu diễn truy vấn và tài liệu, và phƣơng pháp so khớp và xếp hạng mức độ liên quan giữa các tài liệu và truy vấn Trong khi... và truy xuất thông tin, hiệu suất tìm kiếm, và các vấn đề ứng dụng cụ thể khác Nhằm khắc phục nhƣợc điểm của các mô hình truy n thống và nâng cao hiệu quả truy hồi thông tin, các mô hình truy hồi thông tin theo ngữ nghĩa đã đƣợc nghiên cứu và phát triển ([2]) Dựa vào sự phân loại ở [3], [4] và [5], các công trình về truy hồi thông tin theo ngữ nghĩa có thể đƣợc phân vào các lĩnh vực chính là: (1) truy. .. chính là: (1) truy hồi thông tin dựa trên giao diện ngƣời dùng nhƣ ở [6], [7] và [8]; (2) truy hồi thực thể nhƣ ở [9], [10], [11] và [12]; (3) truy hồi thông tin xuyên ngôn ngữ nhƣ ở [13], [14], [15] và [16]; (4) truy hồi tài liệu viết bằng ngôn ngữ có cấu trúc nhƣ ở [17], [18] và [19]; và (5) truy hồi văn bản, là tài liệu viết bằng ngôn ngữ tự nhiên, nhƣ ở [20], [21], và [22] Trong luận án này, khi không... quả truy hồi Các độ đo thƣờng dùng cho việc đánh giá hiệu quả truy hồi của một mô hình truy hồi tài liệu là độ chính xác và độ đầy đủ ([57]) Trong đó: 1 Độ chính xác (precision - P): là tỉ lệ số tài liệu liên quan đƣợc truy hồi trên tổng số tài liệu đƣợc truy hồi Độ đo này cho biết phần trăm đúng của các tài liệu đƣợc truy hồi 2 Độ đầy đủ (recall - R): là tỉ lệ số tài liệu liên quan đƣợc truy hồi trên. .. xử lý và truy hồi tài liệu, mà là về độ chính xác và độ đầy đủ của các mô hình và phƣơng pháp đề xuất Thêm vào đó, luận án chỉ xử lý văn bản tiếng Anh để các đóng góp của luận án có thể công bố trong cộng đồng nghiên cứu trên thế giới về các vấn đề này, nơi mà các công trình và tập kiểm tra trên tiếng Anh là phổ biến 1.3 Những đóng góp chính của luận án Luận án đã đề xuất các mô hình truy hồi tài liệu... điểm ontology về thực thể có tên, về từ WordNet, và về sự kiện 1.2 Mục tiêu và phạm vi của luận án Mục tiêu của luận án là nghiên cứu khai thác các ontology về thực thể có tên, từ WordNet và sự kiện để nâng cao hiệu quả truy hồi tài liệu Thứ nhất, luận án khảo sát tất cả các đặc điểm ontology của thực thể có tên và nghiên cứu ảnh hƣởng của chúng đến hiệu quả truy hồi tài liệu Đồng thời, luận án nghiên... đƣợc xếp hạng dựa trên độ tƣơng tự với truy vấn Lucene sử dụng mô hình tƣơng tự nhƣ mô hình không gian vectơ truy n thống để biểu diễn truy vấn và tài liệu, tính trọng số của các từ khóa xuất hiện trong chúng, cũng nhƣ tính độ tƣơng tự giữa một truy vấn và một tài liệu Luận án mở rộng Lucene để hiện thực và làm thực nghiệm các mô hình truy hồi tài liệu dựa trên ontology 2.3 Ontology Ontology bắt nguồn... nghiệm trong luận án chịu ảnh hƣởng của chất lƣợng của các ontology và công cụ xử lý đƣợc sử dụng Tuy nhiên, ý nghĩa của luận án là nghiên cứu sự khác biệt về hiệu quả truy hồi tài liệu của các mô hình khác nhau trên cùng một nền tảng ontology và công cụ tiền xử lý Việc xây dựng một hệ thống truy hồi tài liệu để dùng ngay trong thực tiễn nằm ngoài phạm vi của luận án Vì vậy, trọng tâm của luận án không... đây, luận án sử dụng thêm cặp nhãn-nghĩa để biểu diễn từ WordNet trong trƣờng hợp từ này có nhiều hơn một nghĩa trong ngữ cảnh xem xét Thứ ba, luận án khai thác ontology về sự kiện để thêm vào truy vấn các thực thể tiềm ẩn liên quan với các thực thể theo các quan hệ tƣờng minh trong truy vấn Hiệu quả truy hồi của các mô hình truy hồi tài liệu phụ thuộc vào ba mô đun chính là xử lý và biểu diễn truy. .. đề xuất đƣợc so sánh về hiệu quả truy hồi tài liệu với nhau, với mô hình dựa trên từ khóa truy n thống, và với các mô hình dựa trên thực thể có tên trƣớc đây Kết quả nghiên cứu liên quan đến chƣơng này đƣợc phát triển từ [42], và đã đƣợc công bố trong [43], [44], [45] và [46] 4 Chƣơng 4 – Khai thác WordNet Trong chƣơng này, luận án nghiên cứu, phân tích và đề xuất một mô hình truy hồi tài liệu khai . lĩnh vực chính là: (1) truy hồi thông tin dựa trên giao diện ngƣời dùng nhƣ ở [6], [7] và [8]; (2) truy hồi thực thể nhƣ ở [9], [10], [11] và [12]; (3) truy hồi thông tin xuyên ngôn ngữ nhƣ. tế của truy hồi thông tin. Các vấn đề chính của truy hồi thông tin là mô hình biểu diễn truy vấn và tài liệu, và phƣơng pháp so khớp và xếp hạng mức độ liên quan giữa các tài liệu và truy vấn khai thác và sử dụng thông tin trên WWW một cách hiệu quả là rất lớn. Theo [1], truy hồi thông tin là thu thập các nguồn thông tin liên quan đến một yêu cầu về thông tin, còn máy tìm kiếm là

Ngày đăng: 09/07/2015, 08:03

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan