Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

29 213 0
Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH NGUYỄN CHÁNH THÀNH XÂY DỰNG HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THƠNG TIN VĂN BẢN Chuyên ngành: Khoa học Máy tính Mã số: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH – 2010 -1- Chương 1- MỞ ĐẦU 1.1 Động nghiên cứu Để phục vụ cho nhu cầu tìm kiếm thơng tin người sử dụng, hệ thống truy xuất thơng tin (IR) nghiên cứu phát triển, thành cơng số động tìm kiếm (search engine) tiếng Google–Yahoo–Alta Vista Bing thời gian gần Tuy nhiên, thơng qua hệ thống đó, việc tìm kiếm thơng tin thường khơng nhận ñầy ñủ kết cần thiết mong muốn hiệu suất chúng có số giới hạn định Từ phân tích trên, nhận thấy ngun nhân hệ thống tìm kiếm thơng tin chưa đủ mạnh nên kết đưa khơng thể hỗ trợ người dùng mong đợi Truy vấn người dùng chưa phản ánh ñầy ñủ ngữ nghĩa ñể hỗ trợ cho trình tìm kiếm truy xuất thơng tin tốt Vì vậy, việc bổ sung ngữ nghĩa vào truy vấn ban ñầu người dùng yêu cầu cần thiết Từ tầm quan trọng tính hiệu trình truy xuất thơng tin tiếng Anh (trên mơi trường Web), với hướng giải ñể hệ thống IR hiểu nhiều thơng minh xử lý truy vấn ban ñầu người dùng, yêu cầu hệ thống truy xuất thơng tin có khả tạo truy vấn ñồng nghĩa mục tiêu toán quan trọng Do đó, vấn đề mở rộng truy vấn toán quan trọng mà luận án nghiên cứu ñề xuất phương pháp giải 1.2 Mục tiêu phạm vi nghiên cứu Từ ñộng nghiên cứu nêu trên, luận án ñề xuất số phương pháp mở rộng truy vấn ban ñầu người dùng Đây vấn ñề cốt lõi ñồng thời mục tiêu nghiên cứu luận án Như ñịnh hướng nêu trên, phạm vi nghiên cứu luận án ñược thể hình 1.1 (trong khung đường gạch đứt nét) -1- (A) (B) Nhập: Xuất: Bộ xử lý mở rộng truy vấn sở kết hợp với ontology Động tìm kiếm thơng tin Câu truy vấn dạng cụm danh từ Các câu truy vấn: dạng cụm danh từ, mở rộng có dạng truy vấn hồn chỉnh Kết trả (tập tài liệu) (C) Hình 1.1 Mối quan hệ hình luận án hệ thống truy xuất (c) thơng tin (A) hình xử lý luận án (phạm vi nghiên cứu luận án) (B) Động tìm kiếm thơng tin (thuộc hệ thống truy xuất thơng tin) (C) Kết tìm kiếm thông tin từ yêu cầu câu truy vấn mở rộng Với hình tả hình 1.1, mục (A), câu truy vấn nhập (dạng cụm danh từ bao gồm thành phần tính từ hay có danh từ đơn) xử lý ñể trả tập câu truy vấn ñã ñược d mở rộng (cụm danh từ có dạng truy vấn hoàn chỉnh ) Trong phạm vi luận án, dựa giải pháp rút trích từ đặc trưng cốt lõi cho câu ([8] [39]), câu truy vấn ban ñầu người dùng ñược tiền xử lý ñể loại bỏ thành phần không quan trọng nhằm giữ lại thành phần thỏa điều kiện truy vấn hồn chỉnh Điều giúp giảm độ phức tạp hay dạng biểu diễn phức hợp truy vấn, ñồng thời giúp đảm bảo tính thành phần truy vấn thỏa ñiều kiện truy vấn hồn chỉnh Mục (B) hình gồm động tìm kiếm thơng tin (search engine) Đây phận quan trọng hệ thống Truy xuất Thông tin (Information Retrieval) Động tìm kiếm thơng tin giải c Trong tài liệu này, số hình, bảng biểu tài liệu tham khảo ñược giữ ñúng theo luận văn chính, khơng đánh số lại d Tham khảo định nghĩa 3.10-Truy vấn hồn chỉnh, mục 3.2.6, chương -2- ba vấn đề cốt lõi hình biểu diễn văn bản, thuật tốn tìm kiếm so trùng từ khóa - đối sánh ngữ nghĩa tương ứng với truy vấn chế lọc kết truy xuất Hiện giới có động tìm kiếm thơng tin tiếng Google, Yahoo, Microsoft Bing … Tuy nhiên, nghiên cứu luận án sử dụng động cơng cụ hỗ trợ việc tìm kiếm thơng tin cho truy vấn ñã mở rộng phương pháp xử lý luận án khơng đặt mục tiêu nghiên cứu ba vấn đề nêu Vì luận án khơng trình bày ba vấn đề hình xử lý luận án (trong mục (A)) thực việc mở rộng nội dung truy vấn nhập nên hoàn tồn khơng làm ảnh hưởng đến ba khía cạnh nêu q trình vận hành động tìm kiếm mục (B) Điều cho thấy phạm vi nghiên cứu luận án hướng đến tốn mở rộng truy vấn dựa ontology hoàn toàn khác biệt so với ba khía cạnh nêu Từ trình bày trên, tốn cần giải phạm vi luận án bao gồm: Bài toán - Xây dựng ontology OOMP Nghiên cứu phát triển cấu trúc ontology OOMP (Ontology of Object-Member-Property) chế huấn luyện liệu Từ tạo liệu ban ñầu dựa tập tài liệu tiếng Anh từ nguồn TREC khai thác liệu từ WordNet ñể cung cấp ontology OOMP nhằm phục vụ yêu cầu toán Bài toán - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn Dựa ontology toán 1, nghiên cứu xây dựng phương pháp tiếp cận cho việc mở rộng truy vấn nhằm tạo truy vấn kết có dạng truy vấn hoàn chỉnh (biểu diễn dạng cụm danh từ mặt ngôn ngữ học) xây dựng giải thuật hỗ trợ phạm vi toán Conference on Principles and Practice of Knowledge Discovery in Databases Dubrovnik, Croatia 22 September 2003 [35] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar Using Domain Ontologies for Efficient Information Retrieval 13th International Conference on Management of Data (COMAD 2006), IIT, Delhi, India, 2006 [36] Tru H Cao, Khanh C Le, Vuong M Ngo Exploring Combinations of Ontological Features and Keywords for Text Retrieval Lecture Notes In Artificial Intelligence; Vol 5351 The 10th Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial Intelligence, pp.603-613 Hanoi, Vietnam 2008 ISBN: 978-3-540-891963 [37] Tru H Cao, Truong D Cao, Thang L Tran A Robust OntologyBased Method for Translating Natural Language Queries to Conceptual Graphs Lecture Notes In Computer Science; Vol 5367 The 3rd Asian Semantic Web Conference on The Semantic Web, pp.479 - 492 Bangkok, Thailand 2008 ISBN: 978-3-540-89703-3 [38] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong English-Vietnamese Cross-Language Information Retrieval: An Experimental Study IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp.107-113 July 13-17, 2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8 Trang web [39] KEA, http://www.kea.org [40] Lucene, http://apache.lucene.org [41] TREC, http://trec.nist.gov/data.html -3- 40 - - in Computing and Communications Technologies (RIVF'2008), pp.247254 July 13-17, 2008 HCM City, Vietnam [26] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran Indexing with WordNet synsets can improve text retrieval Proceedings of the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal [27] Khanh Tran Dang Ensuring Correctness, Completeness and Freshness for Outsourced Tree-Indexed Data Information Resources Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol 21, Issue 1, pp.59-76 Jan-Mar 2008 [28] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, Eytan Ruppin Placing search in context: the concept revisited ACM Transactions on Information Systems, volume 20, issue (January 2002), pp.116–131 2002 ISSN: 1046-8188 [29] Marti A Hearst Automatic acquisition of hyponyms from large text corpora International Conference On Computational Linguistics Proceedings of the 14th conference on Computational linguistics, Volume 2, pp.539–545.France 1992 [30] Phuc Do, Hung Xuan Mai Using SOM based graph clustering for extracting main ideas from documents IEEE International Conference on Research, Innovation and Vision for the Future, RIVF 2008, pp 209-214 July 13-17, 2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8 [31] Phuc Do, Phung Nguyen Using Naïve Bayes Model and Natural Language Processing for Classifying Messages on Online Forum IEEE International Conference on Research, Innovation and Vision for the Future, pp.247-252 March 5-9, 2007 Hanoi, Vietnam ISBN: 1-42440694-3 [32] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in Bacteriology In Semantic Web Applications and Tools for Life Sciences, SWAT4LS 2008 [33] Robert Krovetz, W Bruce Croft Lexical ambiguity and information retrieval ACM Transactions on Information Systems (TOIS), Volume 10, Issue (April 1992), pp.115–141 1992 ISSN: 1046-8188 [34] Roberto Navigli, Paola Velardi An analysis of ontology-based query expansion strategies Proceedings of the International Workshop on 1.3 Đóng góp luận án Các vấn đề nghiên cứu luận án có số đóng góp mặt khoa học từ phương pháp luận ñến giải pháp thực hiện: * Đóng góp thứ nhất: đề xuất phương pháp xác ñịnh quan hệ khái niệm bao gồm: − Quan hệ xác ñịnh thành phần ñặc trưng (member) R m ñối tượng (object) p − Quan hệ R − m Các quan hệ xác ñịnh tính chất trội R f Rf liên quan tính chất ñặc trưng (property) thành phần p Các phương pháp mà luận án đề xuất khơng áp dụng phạm vi luận án ñể giải Bài toán Bài toán nêu mà áp dụng số lĩnh vực khác ñể tạo ontology cho miền khái niệm (trong lĩnh vực xử lý ngơn ngữ tự nhiên) Ngồi ra, từ góc độ tốn học, việc xây dựng lớp ñồng dạng (liên quan ñến nhóm ñối tượng, nhóm thành phần đặc trưng e nhóm tính chất ñặc trưng ) từ quan hệ nêu giúp cho việc phân loại ñối tượng hiệu Cơng trình [ii], [iv], [v] f [ix] giới thiệu phương pháp xác ñịnh quan hệ ñịnh nghĩa khái niệm Phần ñóng góp khơng thực đầy đủ khơng có ñịnh nghĩa MQ OB IR , MQ OBP IR , MQ , MQ OB P IR khái Adaptive Text Extraction and Mining held in conjunction with the 14th European Conference on Machine Learning and the 7th European -5- 39 - OB IR niệm truy vấn hoàn chỉnh, phân tích dạng đồ thị ngữ nghĩa tác giả đề xuất, liên quan đến việc hình hóa tốn mở rộng truy vấn * Đóng góp thứ hai: đề xuất hình ontology OOMP phương pháp huấn luyện liệu: − Phương pháp huấn luyện dựa kho ngữ liệu sẵn có (Corpus-Based Knowledge Base Training, CB-KBT) e f Tham khảo thêm hình 3.3, trang 64 lớp Tham khảo thêm phần Các cơng trình khoa học - 40 - − Phương pháp huấn luyện dựa ontology WordNet sẵn có (WordNet-Based Knowledge Base Training, WB-KBT) − Phương pháp tự huấn luyện dựa nội dung sẵn có ontology từ hai phương pháp CB-KBT WB-KBT WordNet (Auto Knowledge Base Training, A-KBT) Ontology OOMP khơng dùng để phục vụ tốn mở rộng truy vấn mà ñược sử dụng cho toán khác theo hướng khai thác quan hệ khái niệm Ngoài ra, từ góc độ ngơn ngữ học, thành phần ontology OOMP ñược phân lớp dựa số dạng từ loại (như danh từ, tính từ) nên cấu trúc chúng phụ thuộc vào khác ngơn ngữ tự nhiên Do đó, việc phát triển ontology ngôn ngữ tự nhiên khác (như tiếng Việt hay Pháp …) tương ñối thuận lợi Nội dung liên quan đến đóng góp cơng bố [iv], [v] [ix] * Đóng góp thứ ba: đề xuất hình xử lý truy vấn (truy vấn tiếng Anh, dạng cụm danh từ) ontology OOMP, gồm giải thuật: − Kiểm tra tính hồn chỉnh cụm danh từ (Complete Noun Phrase Verification, CNPV) − Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC) − Mở rộng cụm danh từ tương tự (Similar Noun Phrase Expansion, SNPE) hình phương pháp xử lý truy vấn áp dụng Bài tốn 2, toán khác như: − Kiểm tra tính hồn chỉnh cụm danh từ tiếng Anh theo quan điểm ngơn ngữ học tính tốn (ứng dụng lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thơng tin, rút trích thơng tin, tóm lược nội dung văn bản) − Hoàn chỉnh mở rộng cụm danh từ tương ñương (ứng dụng lĩnh vực xử lý ngơn ngữ tự nhiên: truy xuất thơng tin, rút trích thơng tin, tóm lược nội dung văn bản) … Các phương pháp giải thuật liên quan đến đóng góp ñược giới thiệu [ii], [v] [ix] -5- 37 - Intelligence - ICAI'09, vol 1, pp 137-141, Las Vegas, USA, July 13-16, 2009 ISBN: 1-60132-107-4, 1-60132-108-2 CSREA Press [18] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan Natural Language Interaction-Based Document Retrieval Proceedings of the 2nd IEEE International Conference on Computer Science and Information Technology 2009 (ICCSIT 2009), vol 4, pp 544-548 Beijing, China, August 8-11, 2009 ISBN: 978-1-4244-4520-2 [19] Dang Tuan Nguyen, Chinh Trong Nguyen Cross-lingual Information Retrieval Model for Vietnamese-English Web Sites Accepted paper, The 2nd International Conference on Computer Modeling and Simulation (ICCMS 2010), Sanya, China, January 22-24, 2010 Editions IEEE [20] Dang Tuan Nguyen, Tuan Ngoc Pham, Quoc Tan Phan A Semantic Model for Building the Vietnamese Language Query Processing Framework in e-Library Searching Application Accepted paper, The 2nd International Conference on Machine Learning and Computing (ICMLC 2010), Bangalore, India, February 9-11, 2010 Editions IEEE [21] Dat T Huynh, Tru H Cao, Hung Q Ta, Le H Nguyen VN-KIM KBM: A Distributed and Collective Tool for Managing Semantic Web Knowledge Bases The 1st Workshop on Human Factors and the Semantic Web (SWAHA'2008, December 08, Bangkok, Thailand, in conjunction with ASWC'2008), pp.153-158 Thailand 2008 [22] Ellen M Voorhees Using Wordnet to disambiguate word senses for text retrieval Annual ACM Conference on Research and Development in Information Retrieval Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, pp.171–180 Pennsylvania, United States 1993 ISBN: 0-89791-605-0 [23] Ellen M Voorhees Query expansion using lexical-semantic relations Annual ACM Conference on Research and Development in Information Retrieval Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pp.61 - 69 Dublin, Ireland 1994 ISBN: 0-387-19889-X [24] Franc A Grootjen, Theo P Van Der Weide Conceptual query expansion Data & Knowledge Engineering, Vvolume 56, Iissue (February 2006), pp.174–193 2006 ISSN: 0169-023X [25] Hien T Nguyen, Tru H Cao Named Entity Disambiguation on an Ontology Enriched by Wikipedia In Proceedings of the 6th IEEE International Conference on Research, and Vision for the Future - 7Innovation - [10] Chinh Trong Nguyen, Dang Tuan Nguyen A New Model of EnglishVietnamese Bilingual Information Retrieval System International Conference on Information Technology (ICIT 2009), Venice, Italy, October 28-30, 2009 [11] Dang Tuan Nguyen, Ha Quy-Tinh Luong, Tuyen Thi-Thanh Do Building a Vietnamese language query processing framework for e-library searching systems International Journal of Computer Science and Information Security (IJCSIS), pp 092-096, Vol 6, No 1, October 2009 ISSN: 1947-5500 [12] Dang Tuan Nguyen, Ha Quy-Tinh Luong Document searching System based on natural language query processing for Vietnam Open Courseware library International Journal of Computer Science Issues (IJCSI), pp.7-13,Vol 6, No 2, November 2009 ISSN (online): 1694-0784, ISSN (print): 1694-0814 [13] Dang Tuan Nguyen, Tuyen Thi-Thanh Do e-Document Retrieval by Question Answering System International Conference on Communication Technology, February 25-27, 2009, Penang, Malaysia Proceedings of World Academy of Science, Engineering and Technology, vol 38, 2009, pp.395-398, ISBN: 2070-3740 [14] Dang Tuan Nguyen, Tuyen Thi-Thanh Do Natural Language Question Answering Model Applied To Document Retrieval System International Conference on Computer Science and Technology, Hongkong, March 23-25, 2009 Proceedings of World Academy of Science, Engineering and Technology, vol 39, 2009, pp 36-39, ISBN: 2070-3740 [15] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan A Document Retrieval Model Based-on Natural Language Queries Processing Proceedings of the International Conference on Artificial Intelligence and Pattern Recognition (AIPR), pp 216-220, Orlando, USA, July 13-16, 2009 ISBN: 978-1-60651-007-0 Editions ISRST [16] Dang Tuan Nguyen Interactive Document Retrieval System Basedon Natural Language Query Processing Proceedings of the Eighth International Conference on Machine Learning and Cybernetics, pp 22332237, Baoding, Hebei, China, July 12-15, 2009 ISBN: 978-1-4244-3703-0 Editions IEEE [17] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan Integrating Natural Language Query Processing and Database Search Engine Proceedings of the 2009 International Conference on Artificialal * Đóng góp thứ tư: Phương pháp xây dựng mục hướng ngữ nghĩa (Semantic Index Creation, SIC) thông qua việc mở rộng cấu trúc mục để lưu trữ thêm thơng tin liên quan ngữ nghĩa đến ontology xác định Đây cầu nối giúp triển khai nghiên cứu lý thuyết vào ứng dụng thực tiễn lĩnh vực truy xuất thông tin Kết thu ñược từ phương pháp tạo tiền ñề cho nhiều nghiên cứu ứng dụng liên quan đến truy xuất thơng tin Phương pháp trình cơng trình [iv] phát triển [iii] [viii] Những kết ñạt ñược ñồng thời áp dụng cho cơng trình [xii] dự định áp dụng cho cơng trình [xiii] - 38 - Tóm tắt nội dung luận án: TÀI LIỆU THAM KHẢO Tiếng Việt (LƯỢC TRÍCH TỪ LUẬN ÁN) -7- Hình 1.2 Tóm tắt nội dung vấn đề trình bày luận án - 35 - -8- [1] Nguyễn Chí Hiếu hình khai thác đặc tính ngơn ngữ đích nhằm xác ñịnh cụm danh từ sở tương ứng Anh-Việt Luận án tiến sĩ Đại học Quốc gia Tp.Hồ Chí Minh 2007 [2] Nguyễn Chí Hiếu, Phan Thị Tươi, Nguyễn Xuân Dũng, Nguyễn Quang Châu Sử dụng kỹ thuật Pruning vào tốn xác định từ loại Tạp chí Phát triển Khoa học & Công nghệ, tập 8, số 11, 14-23, 2005 [3] Nguyễn Quang Châu, Phan Thị Tươi Nhận diện cụm từ ñặc trưng ngữ nghĩa tiếng Việt Tạp chí Bưu Viễn thơng Cơng nghệ thông tin, số 19, 2/2008 [4] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hồng Trụ Tự động rút trích cụm danh từ Anh - Việt từ kho ngữ liệu song ngữ Kỹ yếu hội thảo khoa học Quốc gia lần II “Nghiên cứu Ứng dụng công nghệ thông tin”, Đại học Bách khoa Tp.HCM, Việt nam, 23-24/9/2005 Tiếng Anh [5] Abraham Bernstein, Esther Kaufmann, Christian Kaiser, Christoph Kiefer Ginseng, A Guided Input Natural 40, 2010 Springer-Verlag ISSN 1860-949X DOI 10.1007/9783642-12090-9 Hội nghị Khoa học Quốc tế ACM: Association for Computing Machinery ACS: Austrian Computer Society [vii] Thanh C.NGUYEN, Hai M.LE, Tuoi T.PHAN Building Knowledge Base for Vietnamese Information Retrieval The 11th International Conference on Information Integration and Webbased Applications & Services, 2009, Malaysia, ACM & ACS ACM ISBN 978–1–60558–660–1 [viii] Thanh C.NGUYEN, Tuoi T.PHAN The effect of Semantic Index in Information Retrieval development The 10th International Conference on Information Integration and Webbased Applications & Services, 2008, Austria, ACM & ACS, pp.438–441 ACM ISBN 978–1–60558–349–5 [ix] Thanh C.NGUYEN, Tuoi T.PHAN An ontology-based approach of query expansion The 9th International Conference on Information Integration and Web Based Application & Language Search Engine, for Querying Ontologies Jena User Conference Bristol UK 2005 [6] Bao Tu Ho, Thang Truong Nguyen, Chien Phu Nguyen, Mai Chi Luong Towards a practical Framework for Vietnamese Natural Language Processing Proceeding of Second Vietnam-Japan Symposium on Fuzzy Systems and Applications, 12/2001, pp297-304 [7] Baziz Mustapha, Boughanem Mohand,Aussenac-Gilles Nathalie Conceptual indexing based on document content representation information context: nature, impact, and role In 5th International Conference on Conceptions of Library and Information Sciences No5, Glasgow, Volume 3507, pp.171-186, UK (04/06/2005) [8] Chau Q Nguyen, Tuoi T Phan An Ontology-Based Approach for Key Phrase Extraction Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP [9] Chau Q.Nguyen, Tuoi T.Phan, Tru H.Cao Vietnamese Proper Noun Recognition Proceedings of the 4th IEEE International Conference on Computer Science, Research, Innovation & Vision for the Future, February 12-16,2006 Ho Chi Minh City, Vietnam Service, 2007, Indonesia, ACS, pp.113–123 ISBN 978–3– 85403–229–8 [x] Thanh C.NGUYEN, Tuoi T.PHAN A hybrid approach of noun phrase translation in Cross-Language Information Retrieval The 9th International Conference on Information Integration and Web Based Application & Service, 2007, Indonesia, ACS, pp.389–394 ISBN 978–3–85403–229–8 [xi] Thanh C Nguyen, Tuoi T.Phan Applying Key-Phrase in Cross- Language Information Retrieval The Eighth International Conference on Information Integration and Web Based Application & Service, 2006, Indonesia, ACS, pp.451–460 ISSN 3– 85403–214– 5, ISBN 978–3–85403–3–214–4 NGHIÊN CỨU KHOA HỌC [xii] Tham gia ñề tài nghiên cứu khoa học trọng ñiểm cấp Đại học Quốc gia Tp.HCM “Xây dựng chương trình trợ giúp truy xuất thơng tin tiếng Việt” (B2005-20-01-TD), 2005-2007 (đã hồn tất), PGS.TS Phan Thị Tươi chủ nhiệm [xiii] Tham gia ñề tài nghiên cứu khoa học cấp Nhà nước “Nghiên cứu, xây dựng số hệ thống khai thác thơng tin đa - 36 - m lâu dài và thành mà tác giả đạt q trình R (m j , oi ) (Dep(m j , oi ) 0 Mem(m j , oi ) 1) m (Sim(m j , oi ) 0) nghiên cứu Đây kết ñạt ñược thuộc lĩnh vực xử lý R (m , m m (R f j1 ngôn ngữ tự nhiên, truy xuất thơng tin ontology Các đóng góp ñược trình bày phần 7.1 kết ñạt ñược mặt thực nghiệm ñã nhấn mạnh ý nghĩa lý thuyết thực tiễn luận án Những vấn đề trình bày phần 7.2 ñộng lực giúp tác giả hoàn thiện kết ñạt ñược luận án tiếp tục - 15 - m p ) (m j1 , oi ) R (m j2 ,o i )) ((m (m j2 )) j1 ) j2 R (pk ,m j ) (Dep(pk ,m j ) 0 Pr o(pk ,m j ) 1) (Sim(pk ,m j ) 0) p R f k1 ( , ) (R p k2 , m j p p ( pk ) R (mk j )) (( ) ( p k p k1 ,m )) (3.8) (3.9) (3.10) (3.11) Định nghĩa quan hệ ngữ nghĩa nêu áp dụng vào lĩnh vực xử lý ngôn ngữ tự nhiên lĩnh vực khác Trong phạm - 34 - vi xác ñịnh, quan hệ nêu ñược áp dụng ñể tạo ontology cho miền khái niệm lĩnh vực Trí tuệ nhân tạo, Xử lý ngơn ngữ tự nhiên; ngồi dùng để kiểm tra tính hồn chỉnh cụm danh từ hay tạo (mở rộng) cụm danh từ tương ñương… lĩnh vực thuộc Xử lý ngôn ngữ tự nhiên Dịch máy, Truy xuất thông tin, Rút trích thơng tin, Tóm lược văn … Từ góc ñộ toán học, việc xây dựng lớp tương ñương từ quan hệ nêu ñể thực phân loại ñối tượng giải pháp cần ñược quan tâm Định nghĩa 3.9 –Quan hệ ñối tượng, thành phần đặc trưng OMP tính chất đặc trưng R (minh họa Hình 3.1) Định nghĩa 3.10 – Truy vấn hoàn chỉnh Định nghĩa 3.11 – Dạng biểu diễn truy vấn hoàn chỉnh Định nghĩa 3.12 – Cây phân tích truy vấn hồn chỉnh (minh họa Hình 3.1 3.2) Định nghĩa 3.12 – Đồ thị ngữ nghĩa Định nghĩa 3.14 – Tính chất liên quan phân tích Định nghĩa 3.15 – Tập ngữ nghĩa truy vấn object key property 1 (a) memory (2a) Xây dựng kho tài liệu tiếng Việt ñã ñược chuẩn hóa có số lượng chất lượng phù hợp (2b) Hệ thống ISE cần tạo ñược tập mục tài liệu (2c) Cần thực việc tiền xử lý nhằm phân tích truy vấn com puter key property m2 HDD − tiếng Việt (phân ñoạn từ, gán nhãn từ loại) trước trình thực thi … * Vấn ñề 2: Hiệu chỉnh số bước tiền xử lý cho phương pháp để áp dụng cho tiếng Việt ngôn ngữ khác, cụ thể: − key property 12 key property n * Vấn ñề 1: Tối ưu phần cài ñặt giải thuật tận dụng tính ưu việt số phần mềm chuyên dụng tổ chức quản trị sở liệu hướng đối tượng để tiết kiệm nhiều chi phí thời gian thực giải thuật cải tiến hiệu suất phương pháp liên quan Vấn đề có tính thực tiễn cao, nên cần ñược ưu tiên xem xét tiếng Việt đồng thời hỗ trợ tìm kiếm truy vấn tiếng Việt key member … Hướng phát triển Các thực nghiệm chương trước ñã ñã thử nghiệm cho tất giải thuật mà luận án ñề xuất với nguồn liệu liên quan ñược chọn lọc, ñã thu ñược kết khả quan Tuy nhiên, số vấn ñề Tuy nhiên, số vấn ñề cần ñược nghiên cứu giai ñoạn − m :R p :R key member 7.2 giải thuật ñã ñề xuất luận án main-board Đây vấn ñề cần ñược ưu tiên xem xét tương lai processing unit capacity brand size content quality price (b) largest highest well-known smallest strongest lowest Hình 3.1 Ví dụ phân tích (b) xây dựng từ quan hệ OMP R (a) - 31 - * Vấn ñề 3: Tiếp tục phát triển nghiên cứu mục hướng ngữ nghĩa ứng dụng liên quan Như vậy, toán mục hướng ngữ nghĩa phân tích khai thác theo nhiều góc độ khác nhằm hỗ trợ nghiên cứu phát triển hệ thống web ngữ nghĩa Vấn ñề quan tâm xử lý có số kết cơng bố cơng trình [iii] [viii] - 12 - liệu giải thuật CB-KBT Các kết thực nghiệm ñã tạo ổn ñịnh cho thử nghiệm − Nhóm giải thuật xử lý truy vấn có thực nghiệm phức tạp qua nhiều bước ñể xác ñịnh tính khả thi tính hiệu tương ứng Kết thực nghiệm giải thuật NPC, SNPE NPMR cho thấy giá trị độ xác tương ñối cao nguồn liệu N6, N11 N12 liên quan ñến chủ ñề tin học, giá trị ñộ phủ cao mức tổng quát Từ ñây, nhận thấy tính hiệu giải thuật miền có liên quan mật thiết ñến nội dung truy vấn tài liệu nguồn Các so sánh trình bày thực nghiệm phương pháp cho thấy ưu ñiểm phương pháp so với cách tìm kiếm thơ mà người sử dụng thực động tìm kiếm thông tin − Kết từ giải thuật SIC nhóm giải thuật xử lý khai thác mục cho thấy số lượng liên kết mở rộng ñến ontology OOMP ñạt mức ñộ tương ñối cao phụ thuộc vào số lượng ñầu mục tập mục tương ứng mức ñộ tương hợp đầu mục với phần tử ontology OOMP Điều disc HDD memory Object content capacity : Rm processing unit brand price quality largest well-known highest Property notebook main-board size Member laptop computer : Rp strongest smallest lowest : synonymy/hypernymy (trong WordNet) Hình 3.2 Đồ thị ngữ nghĩa G có phân lớp 3.3 Các hình cho tốn mở rộng truy vấn Liên quan đến hệ thống mở rộng hoàn chỉnh truy vấn định nghĩa hình đề xuất sau đây: − Hệ thống mở rộng truy vấn dựa ontology ñộc lập với hệ thống truy xuất thông tin (Query Expansion Model with Ontology- ảnh hưởng ñến kết thực nghiệm giải thuật HS trường hợp tìm kiếm mở rộng phạm vi cục toàn cục Các so sánh thực nghiệm giải thuật cho thấy khả bao phủ kết giải thuật HS tốt so với giải thuật vừa nêu Based without Information Retrieval, QE Nhìn chung, kết bước ñầu thực nghiệm chương thể tính khả thi hướng nghiên cứu luận án đồng thời phản ánh tính hiệu giải thuật Hướng nghiên cứu xử lý truy vấn nâng cao chất lượng thông tin truy xuất dựa ontology mang lại nhiều kết khả quan Những thực nghiệm, nghiên cứu việc cải tiến giải thuật cần thiết tương lai để nâng cao tính hiệu hình mà luận án ñã ñề xuất Retrieval, QE OB IR ) − Hệ thống mở rộng truy vấn dựa ontology kết hợp xác suất ñộc lập với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and Probability without Information OBP IR ) − Hệ thống mở rộng truy vấn dựa ontology kết hợp hệ thống truy xuất thông tin (Query Expansion Model with OntologyBased with Information Retrieval, QE OB IR ) − Hệ thống mở rộng truy vấn dựa ontology kết hợp xác suất tích hợp hệ thống truy xuất thơng tin (Query Expansion Model with Ontology-Based and Probability with Information  OB  P Retrieval, QEM I ) R Các hình tổ chức theo tính kế thừa hình 3.4 - 17 - - 32 - QEM QEM QEM OB IR QEM OB IR OB P IR OB P IR Hình 3.4 Tổ chức phân cấp hình Định nghĩa 3.16 – hình QEM I OB R Định nghĩa 3.17 – hình QEM I  OB  P R (Mơ hình 1) (Mơ hình 2) Định nghĩa 3.18 – hình QEM (Mơ hình 3)  OB  P Định nghĩa 3.19 – hình QEM I (Mơ hình 4) OB I R 3.4 Mẫu nhận dạng cụm danh từ Định nghĩa 3.20 – Mẫu nhận dạng cụm danh từ thành phần Vận dụng phương pháp phân tích cụm danh từ (trong lĩnh vực xử lý ngơn ngữ tự nhiên) để nhận dạng thành phần truy vấn, từ kết hợp ontology OOMP để hỗ trợ việc hồn chỉnh mở rộng truy vấn, góp phần xây dựng hình xử lý truy vấn xử lý luận án hình với giải thuật liên quan góp phần giải Bài tốn luận án, đồng thời mở rộng áp dụng cho tốn khác lĩnh vực xử lý ngơn ngữ tự nhiên (truy xuất thơng tin, rút trích thơng tin, tóm lược nội dung văn bản) Các phương pháp giải thuật liên quan đến đóng góp giới thiệu [ii], [v] [ix] − Xây dựng ñộng tìm kiếm thơng tin cục (Internal Search Engine, ISE) dựa công cụ Lucene [104] cho kho ngữ liệu nêu ñộc lập với phần chương trình luận án − Tổ chức khai thác kho liệu WordNet 3.5 Phương pháp thực nghiệm ñánh giá Trong truy xuất thơng tin, độ đo sử dụng để đánh giá độ xác P (precision), độ bao phủ R (recall) độ trung bình ñiều hòa F Sau ñây ñịnh nghĩa liên quan ñộ ño [103] Định nghĩa 3.21 – Độ xác (P) Định nghĩa 3.22 – Độ bao phủ (R) Định nghĩa 3.23 – Độ trung bình điều hòa F Trong thực nghiệm, giải thuật ñề xuất luận án cài đặt ngơn ngữ T-SQL thực phần mềm quản trị sở liệu Microsoft SQL Server 2005 Cấu hình hệ thống máy chủ sử dụng thực nghiệm gồm xử lý Intel(R) Core(TM) Duo T.7300 2.2GHz, nhớ 2GB, nhớ ngồi có phần dung lượng trống khả dụng 15GB Các công việc hỗ trợ thực nghiệm cần thực bao gồm: − Xây dựng kho ngữ liệu tài liệu tiếng Anh - 29 - - 14 - * Đóng góp thứ tư: phương pháp xây dựng mục hướng ngữ nghĩa: Phương pháp giúp phát triển hệ thống truy xuất thơng tin tìm kiếm thơng tin tốt cho người dùng Nó tạo sở cho nghiên cứu ứng dụng liên quan đến truy xuất thơng tin, qua xác định hướng nghiên cứu chuyên biệt lĩnh vực truy xuất thông tin web ngữ nghĩa Phương pháp ñã ñược trình [iv] phát triển [iii] [viii] Những kết ñạt ñược luận án đóng góp nêu tạo sở cho hướng nghiên cứu tác giả góp phần phát triển ứng dụng cho cơng trình [xii] Error! Reference source not found − R Thứ nhất, ñịnh nghĩa quan hệ ngữ nghĩa p R m R , m p R , khái niệm truy vấn hoàn chỉnh, , f vàf phân tích dạng đồ thị ngữ nghĩa (trình bày chương 3) tạo tiền đề  OB cho việc kiến tạo hình mở rộng truy vấn MQE , O I MQ OB P IR , B MQEIR MQ OB P IR R Những hình phản ánh kết khả quan vận dụng hợp lý nghiên cứu lĩnh vực xử lý ngơn ngữ vào tốn mở rộng truy vấn web ngữ nghĩa Hơn nữa, chúng khơng áp dụng phạm vi luận án ñể giải Bài toán Bài toán 2, mà áp dụng số nghiên cứu thuộc lĩnh vực xử lý ngôn ngữ tự nhiên − Thứ hai, việc xây dựng lớp tương ñồng từ quan hệ nêu giúp cho việc phân loại đối tượng hiệu hơn, từ áp dụng vào phương pháp phân tích truy vấn CNPV luận án mở rộng cho tác vụ phân lớp ngữ nghĩa ontology khác Cơng trình [ii], [iv], [v] [ix] giới thiệu phương pháp luận ñịnh nghĩa khái niệm - 19 - Ngồi ra, luận án thực thực nghiệm cho giải thuật ñã trình bày chương, gồm nhóm giải thuật huấn luyện ontology CB-KBT, WB-KBT A-KBT; nhóm giải thuật xử lý truy vấn CNPV, NPC, SNPE, NPMR, CNPG, RNPG, nhóm giải thuật xây dựng khai thác mục hướng ngữ nghĩa SIC, HS Một số kết ñạt ñược có ý nghĩa thực tế sau: − Kết thực nghiệm giải thuật huấn luyện ontology cho thấy số lượng ñáng kể liệu rút trích độ tin cậy cao 80,41% cho liệu dạng Object, 97,09% cho liệu dạng Property giải thuật WB-KBT, tối thiểu 98,02% cho dạng Ontology OOMP đóng vai trò quan trọng thực nghiệm giải thuật việc cung cấp liệu ngữ nghĩa cần thiết cho giải thuật ñể bổ sung thành phần khiếm khuyết Trong tiến trình thực nghiệm, cơng cụ ISE khơng tìm kiếm tài liệu cho truy vấn kết từ giải thuật ñề xuất chương 6, mà hỗ trợ xác định số liệu (như tần suất xuất hiện, độ phụ thuộc) * Đóng góp thứ hai: hình ontology OOMP đề xuất phương pháp huấn luyện liệu CB-KBT, WB-KBT A-KBT: Trong phạm vi luận án, ontology OOMP phục vụ toán mở rộng truy vấn toán khác theo hướng khai thác quan hệ khái niệm Từ góc ñộ ngôn ngữ học, thành phần ontology ñược phân lớp dựa dạng từ loại danh từ, tính từ nên cấu trúc chúng phụ thuộc vào khác ngôn ngữ tự nhiên Điều tạo thuận lợi cho việc phát triển ontology ngôn ngữ tự nhiên khác (như tiếng Việt, Pháp …), từ hướng tới việc xây dựng ontology hỗ trợ nhiều ngôn ngữ tự nhiên khác - 30 - Nội dung liên quan ñến đóng góp cơng bố cơng trình [iv], [v] [ix] * Đóng góp thứ ba: hình xử lý truy vấn (truy vấn dạng cụm danh từ) dựa ontology OOMP với giải thuật CNPV, NPC, SNPE NPMR: phần tử ontology, từ giúp nâng cao chất lượng ontology Dựa thư viện mã nguồn mở Lucene [40], tác giả phát triển động tìm kiếm thơng tin tập liệu cục ñể hỗ trợ thực nghiệm giải thuật ñề xuất luận án Động ñược ñặt tên “Động tìm kiếm thơng tin cục bộ” (Internal Search Engine, ISE) Động cài đặt ngơn ngữ C# Microsoft DotNet Framework 2.0, có hỗ trợ tìm kiếm cho từ khố đơn cụm từ, bao gồm chế tìm kiếm gần hay xác 3.6 Nguồn liệu thực nghiệm Nguồn liệu tham khảo từ tổ chức TREC [41] Bảng 3.1 Thống kê thành phần liệu từ TREC - 29 - Ký hiệu Nguồn liệu N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 Associated Press (AP) Congressional Record (CR) Department of Energy abstracts (DOE) Foreign Broadcast Information Service (FB) Federal Register (FR) Financial Times Limited (FT) Los Angeles Times (LA) U.S Patents (PATN) San Jose Mercury News (SJM) Wall Street Journal (WSJ) Ziff-Davis-part (ZF2) Ziff-Davis-part (ZF) Số lượng (tập tin) - 14 - 1.044 222 178 492 828 593 730 235 301 572 427 354 Dung lượng (MB) 272 91,6 72,1 149 244 197 169 249 294 159 424 353 Dữ liệu phục vụ việc huấn luyện ontology OOMP ñược lưu tập TRAINING_DATA có số lượng 247.988 cụm danh từ thuộc chín dạng mẫu Dữ liệu phục vụ việc thử nghiệm cho giải thuật ñược lưu tập liệu TEST_DATA gồm 12.282 cụm danh từ ñược chọn lọc ñể kiểm tra thử nghiệm giải thuật khác luận án Bảng 3.2 Danh sách tập mục xây dựng cho hệ thống ISE Nguồn Dung lượng tập Nguồn Dung lượng tập liệu mục (MB) liệu mục (MB) 552 LA (N7) 518 AP (N1) 276 PATN (N8) 257 CR (N2) 214 SJM (N9) 313 DOE (N3) 198 WSJ (N10) 307 FB (N4) 287 ZF2 (N11) 417 FR (N5) 663 ZF (N12) 511 FT (N6) Bảng 3.3 Thống kê cụm danh từ theo mẫu TEST_DATA Mẫu Số lượng Tỉ lệ (%) Mẫu Số lượng Tỉ lệ (%) 305 2,48 M149 201 1,64 M3 M60 2.592 21,10 M150 159 1,29 M71 276 2,25 M178 542 4,41 M81 712 5,80 M184 592 4,82 M85 186 1,51 M186 1.027 8,36 M87 189 1,54 M192 331 2,70 M89 154 1,25 M195 192 1,56 M99 1.463 11,91 M196 211 1,72 M102 143 1,16 M203 165 1,34 M103 584 4,75 M204 155 1,26 M116 1048 8,53 M205 162 1,32 M125 431 3,51 M209 148 1,21 M142 314 2,56 Chương 4- XÂY DỰNG ONTOLOGY OOMP 4.1 Giới thiệu Với ưu ñiểm lợi ích ứng dụng ontology vào việc mở rộng truy vấn truy xuất thơng tin (trình bày phần 2.2, chương 2), việc phát triển ontology nhằm phục vụ toán mở - 21 - Chương 7- KẾT LUẬN Từ chương ñến chương 6, luận án ñã trình bày tồn nghiên cứu tác giả mở rộng truy vấn dựa sở ontology Các chương ñầu cung cấp sở lý thuyết làm sở cho toàn phương pháp phân tích, hồn chỉnh mở rộng truy vấn trình bày chương Mỗi chương đề xuất hình, phương pháp giải thuật xử lý phù hợp dựa sở lý thuyết trình bày chương trước Những nội dung trình bày chương bám sát mục tiêu đề hai tốn ban ñầu Điều thể thông qua kết ñạt ñược mặt lý thuyết thực tiễn luận án Các kết nghiên cứu luận án góp phần xác định vấn đề cần nghiên cứu, phát triển thời gian tới 7.1 Kết ñạt ñược Từ ý tưởng khai thác nét ñặc trưng truy vấn dạng cụm danh từ, luận án đề xuất hình phương pháp luận nghiên cứu mở rộng truy vấn sở ontology lĩnh vực truy xuất thông tin Từ việc mở rộng truy vấn luận án thực xây dựng cụm danh từ hoàn chỉnh, dạng cụm danh từ vừa thỏa mãn chức ngữ pháp ngôn ngữ tự nhiên, vừa mang ngữ nghĩa cần thiết để tìm kiếm thơng tin cho có kết tốt Tác giả xây dựng sở lý thuyết cho hình mở rộng truy vấn giải thuật thực việc kiểm tra, hoàn thiện, mở rộng truy vấn Một hướng phát triển khác luận án xây dựng hệ thống mục hướng ngữ nghĩa, nhằm mở rộng khả xử lý mở rộng truy vấn cho hệ thống truy xuất thông tin Những kết đáp ứng mục tiêu Bài tốn Bài tốn mà luận án đưa Kết nghiên cứu luận án có ý nghĩa khoa học thực tiễn với đóng góp sau * Đóng góp đầu tiên: đề xuất số phương pháp xác ñịnh quan hệ khái niệm phục vụ việc xử lý tốn phương pháp đề xuất luận án: - 28 - STT Bảng 6.2 So sánh kết thực nghiệm Số liệu trung bình PP-Thơ PP-HS Số kết tìm 687 721 Thời gian thực thi 276,43 1.127,33 Tỉ lệ 1,05 4,08 Kết phản ánh tỉ lệ tốt (1,05 lần) ñạt ñược mặt kết tìm ñược trung bình PP-HS so với kết PP-Thô Tuy nhiên, chi phí trung bình thời gian tìm kiếm giải thuật HS cao (4,08 lần) so với tìm kiếm thơ Đây vấn đề ảnh hưởng đến tính hiệu giải thuật HS STT Bảng 6.3 So sánh kết thực nghiệm Số liệu trung bình PP-Thơ PP-HS Số kết tìm 354 354 Thời gian thực thi 837,17 1.936,43 Tỉ lệ 1,00 2,31 Cả hai phương pháp ñều thu ñược giá trị bình qn số tài liệu tìm ngang Một nghịch lý xảy liên quan ñến thời gian thực thi trung bình hai phương pháp Cả hai giá trị “PP-Thơ” “PP-HS” cao so với kết tương ứng thực nghiệm trước Tuy nhiên, tỉ lệ cách biệt thời gian thực thi hai phương pháp ñược thu giảm từ 4,08 (trong thực nghiệm 1) xuống 2,31 Kết phản ánh mức cải thiện ñáng kể thời gian thực thi trung bình giải thuật HS so với kết tìm kiếm thơ Đây bước cải tiến khách quan ảnh hưởng đến tính hiệu giải thuật HS Bảng 6.4 So sánh kết thực nghiệm STT Số liệu trung bình Số kết tìm Thời gian thực thi PP-Thô 104 354,86 PP-HS 167 388,83 Tỉ lệ 1,61 1,10 Kết phản ánh tỉ lệ tốt cao (1,61 lần) ñạt ñược mặt kết tìm trung bình giải thuật HS so với kết tìm kiếm thơ Đồng thời, cách biệt chi phí trung bình thời gian tìm kiếm giải thuật HS tìm kiếm thơ thu giảm đáng kể (chỉ lại 1,10 lần so với 2,31 lần thực nghiệm 2) so với tìm kiếm thô So với kết tương ứng thực nghiệm 2, ñây cải tiến khách quan ảnh hưởng đến tính hiệu giải thuật HS - 27 - rộng truy vấn luận án đóng vai trò quan trọng Hơn nữa, tốn xử lý luận án liên quan ñến khái niệm cụm danh từ OMP m p hoàn chỉnh quan hệ ngữ nghĩa R , R R , nhiên WordNet chưa ñáp ứng ñầy ñủ yêu cầu cần thiết ñồng thời giải pháp mở rộng WordNet ñể bổ sung dạng quan hệ nêu đòi hỏi nhiều thời gian, cơng sức khơng hoàn toàn khả thi cho luận án, nên việc xây dựng riêng biệt ontology OOMP vấn ñề cần thiết nhằm kiến tạo nhóm mạng ngữ nghĩa tương ứng cho quan hệ Dựa sở lý thuyết ñề xuất chương 3, chương vấn đề trình bày liên quan ñến việc phát triển ontology OOMP (Ontology of Object–Member–Property) xác ñịnh cấu trúc tổ chức, phương pháp huấn luyện, thực nghiệm kết thu ñược Một phần kết chương cơng bố cơng trình [v] [ix] 4.2 Xây dựng ontology OOMP So với ontology khác, ñặc trưng bật ontology OOMP tổ chức phân cấp khái niệm ngữ nghĩa dựa theo quan hệ ROMP Cấu trúc thể chi tiết hình 4.1 với thành phần liệu tương ứng cho thực thể, thơng qua thực hình sở liệu thực tế Object oID oValue oType Rm oIDmI KeyMember D Rp mID pID DepKeyProperty Dep mID mValue mType mPriority mProbability pID pValue pType pPriority pProbability Hình 4.1 Cấu trúc ontology OOMP tổ chức sở liệu quan hệ Việc huấn luyện ontoloy OOMP ñược giải hai cách tiếp cận − Cách thứ hướng ñến việc khai thác thông tin kho ngữ liệu cho trước thông qua việc sử dụng mẫu (trong mục 3.4 chương 3) để tìm thành phần dự tuyển nhằm xác ñịnh giá trị phù hợp cho việc lưu trữ - 22 - − Cách thứ hai hướng đến việc khai thác thơng tin ngữ nghĩa ñã có sẵn WordNet 4.3 Phương pháp huấn luyện dựa kho ngữ liệu Giải thuật 4.1 Huấn luyện ontology dựa kho ngữ liệu (Corpus2 Based Knowledge Base Training, CB-KBT) (ñộ phức tạp O(n )) Giải thuật 6.2 Tạo mục hướng ngữ nghĩa (Semantic Index Creation, SIC) (ñộ phức tạp O(n )) Giải thuật 6.3 Tìm kiếm kết hợp (Hybrid Search, HS) (O(n)) Kết thực nghiệm: 3,866 3,966 3,248 6,393 3,102 5,943 3,125 5,907 3,102 5,004 4,543 5,179 4,660 N1 N2 N3 N4 95738 46751 6453 M3 8463 2857 N5 5,100 4,677 3,203 6,321 3,261 6,360 5,145 5,300 N6N7N8 Liên kết ñến phần tử dạng Object Liên kết ñến phần tử dạng Property M178 M184 M186 M192 M195 M196 M204 M209 Bảng 4.1 Dữ liệu dự tuyển rút trích giải thuật CB-KBT STT Tập liệu Số lượng Số lượng xác Độ tin cậy (%) Object 11.396 11.378 99,84 Member 9.210 9.173 99,60 Property 16.515 16.188 98,02 m Quan hệ R 85.687 85.428 99,70 p Quan hệ R 104.001 70.110 67,41 4.4 Phương pháp huấn luyện dựa WordNet Giải thuật 4.2 Huấn luyện ontology dựa WordNet (WordNet2 based Knowledge Base Training, WB-KBT) (ñộ phức tạp O(n )) Bảng 4.2 Dữ liệu rút trích giải thuật WB-KBT Loại Số lượng Số lượng xác Độ xác (%) Object 7.193 5.784 80,41 Member 11.221 3.618 32,24 Property 824 800 97,09 m Quan hệ R 34.945 1.178 3,37 p Quan hệ R 2.815 1.662 59,04 4.5 Cơ chế tự huấn luyện ontology OOMP Giải thuật 4.3 Huấn luyện ontology tự ñộng (Automatic Knowledge Base Training, A-KBT) (ñộ phức tạp O(n )) - 23 - 1,224 5,015 2,756 2,240 2,727 5,195 N9N10 7,278 7,429 7,197 7,307 N11 N12 574 Hình 4.2 Phân bổ cụm danh từ tập TRAINING_DATA theo dạng mẫu STT 5,974 5,637 47710 20632 18810 3,285 6,400 2,797 Liên kết ñến phần tử dạng Member Hình 6.7 So sánh số liên kết tạo thành theo nguồn liệu từ SIC 8.8 8.93 8.41 8.47 8.3 8.25 8.41 8.34 8.9 7.58 8.94 7.87 8.15 7.4 8.44 7.59 8.17 N1 N2 N3 N4 N5 8.68 8.84 8.83 8.88 7.39 3.32 3.85 3.65 N6 7.26 8.31 7.62 8.38 8.64 N7 N8 N9 N10 Liên kết ñến phần tử dạng Object (%) Liên kết ñến phần tử dạng Property (%) 10.48 10.75 10.17 10.38 11.73 11.91 N11 N12 Liên kết đến phần tử dạng Member (%) Hình 6.8 So sánh tỉ lệ liên kết tạo thành theo nguồn liệu từ SIC Các liên kết đóng vai trò quan trọng việc mở rộng kết tìm kiếm phần thực nghiệm giải thuật HS sau ñây Các bước tiến hành thực nghiệm giải thuật HS sau: − Thực nghiệm 1: tốn tìm kiếm mở rộng toàn cục phạm vi toàn cục − Thực nghiệm 2: tốn tìm kiếm mở rộng toàn cục phạm vi cục − Thực nghiệm 3: tốn tìm kiếm mở rộng cục phạm vi cục - 26 - f(A) Y STT f-1 f f-1(f(A)) A 4.6 Các ứng dụng ontology quan hệ X Trong lĩnh vực này, số phương pháp ứng dụng để: − Kiểm tra tính hồn chỉnh cụm danh từ (Complete Noun Phrase Verification, CNPV) − Tạo cụm danh từ hoàn chỉnh (Complete Noun Phrase Generation, CNPG) − Tạo cụm danh từ rút gọn (Reductive Noun Phrase Generation, RNPG) − Hoàn chỉnh thành phần cụm danh từ (ñể bổ sung hay nhiều tính chất trội) (Noun Phrase Completion, NPC) − Mở rộng cụm danh từ tương ñương (ñể bổ sung hay nhiều tính chất đặc trưng cho đối tượng truy vấn) (Similar Noun Phrase Expansion, SNPE) − Rút gọn thành phần cụm danh từ (ñể loại bỏ hay thay số thành phần cụm danh từ hay nhiều thuộc tính đặc trưng) (Noun Phrase Member Reduction, NPMR) Hình 6.3 Minh họa tính chất (6.1) Phương pháp tiếp cận hệ thống dựa tính chất (6.1): (giải thuật HS) (giải thuật SIC) (tập kết mở rộng) (tập kết thơ) (tìm kiếm thô) Bảng 4.3 Dữ liệu bổ sung tạo giải thuật A-KBT Loại Số lượng Số lượng xác Độ xác m Quan hệ R 3.953 1.611 40,75% p Quan hệ R 2.807 1.074 38,26% Hình 6.4.Ứng dụng tính chất (6.1) vào mở rộng kết truy vấn hình hệ thống xử lý mở rộng thể hình 6.8 Chương 55.1 Hình 6.5 hình thống mở rộng truy vấn kết hợp hệ thống truy xuất thơng tin có sẵn Index id1 id2 idi idi+1 idn-1 idn Object Member Object Ontology Member Member Property 11 Member Member Ngoài ra, sở lý thuyết phần 3.2 hình Property 12 Property n1 Object Property m2 Member 1Property n1 Property 11 Property 12 Chương trình bày tác vụ liên quan đến tốn hồn chỉnh Mỗi phần chương trình bày mục tiêu tác vụ, giải thuật thực tác vụ, ví dụ minh họa thực nghiệm với đầy đủ số liệu thực nghiệm thực tế Một phần kết chương cơng bố cơng trình [v] Object Property 11 Member Giới thiệu 5.2 Hoàn chỉnh rút gọn truy vấn Member Property 12 Property 12 Property m2 HOÀN CHỈNH VÀ RÚT GỌN TRUY VẤN Object Member Property Member Property n1 Property Property 1 m2 Property 12 MQ E Property n1 Property m2 Property n1 Property m2 Hình 6.6.Mơ hình tổ chức mục hệ thống truy xuất thông tin OBP IR , việc mở rộng truy vấn bổ sung cụm từ tương đương hỗ trợ giải thuật hoàn chỉnh truy vấn cho trường hợp chưa rõ nghĩa Trong số trường hợp cụ thể, truy vấn biểu diễn dạng rút gọn thông qua việc loại bỏ số thành phần khơng quan trọng hình hệ thống hồn chỉnh rút gọn truy vấn tả sau Hình 5.1 hình hệ thống hồn chỉnh rút gọn truy vấn Phương pháp xử lý mơ-đun trình bày thơng qua giải thuật NPC NPMR mục 5.6 5.7, sử dụng hỗ trợ từ giải thuật giới thiệu mục 5.3, 5.4 5.5 sau ñây 5.3 Kiểm tra cụm danh từ hoàn chỉnh Giải thuật 5.1 Kiểm tra cụm danh từ hoàn chỉnh (Complete Noun Phrase Verification, CNPV) (ñộ phức tạp O(n)) Kết thực nghiệm: Bảng 6.1 So sánh kết phương pháp tìm kiếm thơ SNPE Giá trị bình qn theo truy vấn PP-Thơ PP-SNPE Tỉ lệ (a) Số lượt tài liệu tìm 7.925659 37.90736 4.782865 (b) Số lượt tài liệu tìm xác 4.983213 24.08883 4.833995 (c) Số lượt tài liệu tìm phân biệt 1.62542 0.363176 0.223435 (d) Số lượt tài liệu tìm xác phân biệt 0.37458 0.060854 0.162459 6.2 Mở rộng truy vấn cho hệ thống truy xuất thơng tin có sẵn So với hình phần 6.1, hướng tiếp cận khác liên kết ontology OOMP với hệ thống truy xuất thông tin có sẵn việc tạo kết hợp ontology OOMP với tập mục hệ thống hình ñể triển khai việc tìm kiếm liệu ñược mở rộng thơng qua giải thuật tìm kiếm kết hợp (Hybrid Search, HS) hình lý thuyết OB P đóng vai trò tảng cho phương pháp MQ IR Nếu f : EX€Y ánh xạ từ tập hợp X ñến tập hợp Y, A X 2000 tập hợp phần tử, y=f(x) ảnh phần tử x qua f, AX tập hợp phần tử, f(A) ảnh tập hợp A qua f, BY tập hợp -1 phần tử, f (B)={xX / f(x)B} tạo ảnh B qua ánh xạ f thì: A  f 1 ( f ( A)) (6.1) (minh họa hình 6.3) 1800 1600 1400 1200 1000 800 X 600 M203 M60 M178 TH2 TH3 TH4 TH5TH6 TH7 M142 M150 M192 M186 M195 M204 TH15 M85 TH11 M186 M209 M116 M142 M178 M3 M71 M85M102 TH10 M203 M60 M184 M81 M87 TH1 M125 M149 M178 M205 M60 M85 M89 TH0 M89 M192 M205 M60 M85 M196 M209M192 M184 200 M99 M125 M102M149 M99 M103 M149 400 ngữ cảnh định, từ ảnh hưởng đến ñịnh hướng nghiên cứu tương lai vấn ñề cải tiến phương pháp SNPE TH9 Hình 5.2 Các trường hợp xử lý giải thuật CNPV theo dạng lỗi & mẫu 5.4 Tạo cụm danh từ hoàn chỉnh Giải thuật 5.2 Tạo cụm danh từ hoàn chỉnh (Complete Noun Phrase Generation, CNPG) (ñộ phức tạp O(n)) - 19 - Dựa theo phân tích trên, phương pháp tiếp cận giải thuật sử dụng ontology OOMP ñể mở rộng hệ thống mục mặc ñịnh (ñược tạo công cụ tạo mục Lucene, Lemure …) nhằm tạo hệ thống mục hướng ngữ nghĩa Bước xử lý ñược thể với giải thuật Tạo mục hướng ngữ nghĩa (Semantic Index Creation, SIC), giải thuật SIC đóng vai trò ánh xạ f thể hình 6.6 Từ đó, với truy vấn q ban đầu, thơng qua việc tham khảo (được thực giải thuật Tìm kiếm kết hợp (Hybrid Search, HS) ñến hệ thống mục mở rộng này, việc tìm kiếm xác định tập mục từ mục (đóng vai trò tập - 24 - A) tập mở rộng mục từ liên kết (đóng vai trò f Điểm đặc biệt hình đề xuất tương tác hệ thống mở rộng truy vấn động tìm kiếm thơng tin diễn mức liệu luận lý thông qua kết dạng biểu diễn trung gian gồm tổ hợp ñịnh dạng luận lý cụm danh từ ñược mở rộng 5.5 Tạo cụm danh từ rút gọn - (f(A)) (minh họa hình 6.4) Giải thuật 5.3 Tạo cụm danh từ rút gọn (Reductive Noun Phrase Generation, RNPG) (ñộ phức tạp O(n)) 5.6 Hồn chỉnh cụm danh từ Hình 6.1 hình hệ thống mở rộng truy vấn với động tìm kiếm thơng tin Giải thuật 5.4 Hồn chỉnh cụm danh từ (Noun Phrase Completion, NPC) (ñộ phức tạp O(n )) Kết thực nghiệm: 653 650 590 Giải thuật 6.1 Mở rộng cụm danh từ tương ñương (Similar Noun Phrase Expansion, SNPE) (ñộ phức tạp O(n2)) Kết thực nghiệm: 95.2% 92.9% 100.0% 100.0% 99.3% 100.0% 100.0% 99.3% 93.8% 92.1% 86.0% 85.6% 354 304 201 100.0% 99.0% 100.0% 100.0% 98.7% 178 295 307 169 156 151 133 86.2% 425 354 75.9% 75.3% 20 14 59.8% N1 N2 N3 N4 42.9% 13 N5N6 N7 Kết (số tài liệu) 16 N8 N9 N10N11 N12 Kết xác (số tài liệu) Hình 5.3 Thống kê số lượng kết thực nghiệm theo nguồn liệu 16.6% 3.9% 427 452 9.1% 2.0% N1 8.6% N2 N3 4.5% 0.4% N4 3.8% 0.2% N5N6 N7 Độ xác 9.5% 1.0% 12 90%% N8 5.0% N9 Độ bao phủ N10 N11N12 100.0% 95.2% 98.5% 100.0% 99.8% 92.9% 100.0% 100.0% 98.1% 92.7% 86.7% 85.0% Độ F 100.0% 76.6% 74.7% Hình 6.1 Thống kê số liệu độ đo theo nguồn liệu 59.4% 42.7% 724 659 593 480 45 442277 354 301 220 13 178 134 177 194 15 99.7% 99.5% 99.5% 99.5% 86.7% 14 N7 N8 18.0% 2.1% 4.2% N1 354 305 10.0% N2 9.8% N3 5.1% 0.7% N4 0.3% N5N6 Độ xác 152 3.9% 22.0.3%% N7 10.3% 1.2% N8 Độ bao phủ 5.4% N9 N10 N11 N12 Độ F Hình 5.4 Thống kê số liệu ñộ ño theo nguồn liệu 20 N1 N2 N3 N4 N5 Kết (số tài liệu) N6 N9 N10 N11 N12 Kết xác (số tài liệu) Giá trị Bảng bình qn truy PP-Thơ PP-NPC Tỉ lệ 5.1 Sotheo sánh kết vấn phương pháp tìm kiếm thơ NPC (a) Số lượt tài liệu tìm 52,7445 48,91685 0,92743 Hình 6.2 Thống kê số lượng kết thực nghiệm theo nguồn liệu (b) Số lượt tài liệu tìm xác 23,60186 28,07387 1,189477 So sánh cho thấy phương pháp SNPE có kết trội bật mặt (a), (b) chưa thật trội mặt (c) (d) Điều phản ánh ưu nhược ñiểm phương pháp SNPE (c) Số lượt tài liệu tìm phân biệt 0,938901 1,607647 1,712264 (d) Số lượt tài liệu tìm xác phân biệt 0,15493 0,289903 1,871195 - 23 - - 20 - So sánh cho thấy phương pháp NPC có kết tốt mặt (b), (c) (d) Điều chứng tỏ phương pháp NPC có tác động tích cực đến việc cải thiện chất lượng truy vấn, nói cách khác tỉ lệ độ xác kết thu ñược tăng lên So sánh (a), (b) (c) cho thấy cải thiện ñáng kể chất lượng số lượng phương pháp NPMR Đây kết khích lệ mà tốn rút gọn truy vấn ñạt ñược Chương 6- 5.7 Giải thuật rút gọn thành phần cụm danh từ Giải thuật 5.5 Rút gọn thành phần cụm danh từ (Noun Phrase Member Reduction, NPMR) (ñộ phức tạp O(n )) Kết thực nghiệm: MỞ RỘNG TRUY VẤN Thông qua hình MQ OBP MQEI OB IR , MQ OB IR , MQ OBP IR , ñề xuất mục 3.2 chương 3, vấn ñề mở rộng truy vấn R 95.2% 85.7% 97.0% 100.0% 100.0% 100.0% 100.0% 98.2% 83.7% 85.1% 73.6% 75.0% 99.7% 92.7% 86.7% 94.2% 81.3% 99.8% 57.1% 41.0% 13 74%% N1 16.6% 9.1% N2 8.4% 4.4% N3 0.24% N4 N5 N6 Độ xác 13 98%% 01 98%% N7 N8 Độ bao phủ 8.2% 4.3% N9N10 N11 N12 Độ F Hình 5.5 Thống kê số liệu độ đo theo nguồn liệu ứng dụng quan hệ 730 593 445 354 301 354 307 44 276 225 220 178 131 182 12 145 14 13 p Rm R R để từ xác ñịnh p , , , R f f phương thức xử lý cần thiết Mỗi phần chương trình bày mục tiêu, giải thuật thực ví dụ minh họa cho phương pháp, thực nghiệm liên quan số liệu thực tế Một phần kết chương cơng bố cơng trình [iv], [ix] số phát triển giới thiệu [iii] [viii] m 691 480 ñược tiếp cận theo hai hướng: − Hướng toàn cục: thực mở rộng truy vấn cho động tìm kiếm thơng tin Web, nội dung chi tiết phần 6.1 − Hướng cục bộ: thực mở rộng truy vấn cho hệ thống truy xuất thơng tin có sẵn dùng kho ngữ liệu cục kết hợp việc phát triển hệ thống mục hướng ñến ngữ nghĩa (từ gọi hệ thống truy xuất thơng tin có sẵn) nội dung chi tiết phần 6.2 Trên sở hai hướng này, việc phát triển hệ thống mở rộng truy vấn ñược thực dựa việc kết hợp ontology OOMP 6.1 Mở rộng truy vấn cho động tìm kiếm Web 20 Kết (số tài liệu) 10 11 12 Kết xác (số tài liệu) Hình 5.6 Thống kê số lượng kết thực nghiệm theo nguồn liệu Bảng 5.2 So sánh kết phương pháp tìm kiếm thơ NPMR Giá trị bình qn theo truy vấn PP-Thô NPMR Tỉ lệ (a) Số lượt tài liệu tìm 7.925659 197.0885 24.86714 (b) Số lượt tài liệu tìm xác 4.983213 74.40406 14.93094 (c) Số lượt tài liệu tìm phân biệt- 21 - 1.62542 0.37458 (d) Số lượt tài liệu tìm xác phân biệt 2.137698 1.315167 0.352596 0.941309 hình hệ thống đề xuất hình 6.1 Trong hình, hệ thống mở rộng truy vấn đóng vai trò mơ-đun liên kết với động tìm kiếm thơng tin Trong hệ thống này, chức mở rộng truy vấn giải thuật SNPE ñược thực cho phép truy vấn nhập dạng cụm danh từ tiếng Anh Giải thuật bổ sung nhiều tính chất đặc trưng cho ñối tượng truy vấn Việc bổ sung thêm phần tử - 22 - oiO, mjM, pkP, cụm danh từ ñược tạo ... 38,26% Hình 6.4.Ứng dụng tính chất (6.1) vào mở rộng kết truy vấn Mơ hình hệ thống xử lý mở rộng thể hình 6.8 Chương 55.1 Hình 6.5 Mơ hình thống mở rộng truy vấn kết hợp hệ thống truy xuất thông tin. .. Bài toán - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn Dựa ontology toán 1, nghiên cứu xây dựng phương pháp tiếp cận cho việc mở rộng truy vấn nhằm tạo truy vấn kết có dạng truy vấn hoàn chỉnh... 0.941309 Mơ hình hệ thống đề xuất hình 6.1 Trong mơ hình, hệ thống mở rộng truy vấn đóng vai trò mơ-đun liên kết với động tìm kiếm thơng tin Trong hệ thống này, chức mở rộng truy vấn giải thuật

Ngày đăng: 20/01/2018, 23:07

Mục lục

  • Chương 1- MỞ ĐẦU

  • 1.2. Mục tiêu và phạm vi nghiên cứu

  • Bài toán 1 - Xây dựng ontology OOMP

  • Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy vấn

  • 1.3. Đóng góp chính của luận án

  • Tóm tắt nội dung luận án:

  • Hội nghị Khoa học Quốc tế

  • NGHIÊN CỨU KHOA HỌC

  • Chương 2- NGHIÊN CỨU LIÊN QUAN

  • DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

  • 3.2. Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở rộng truy vấn

  • Tạp chí Khoa học

  • Chương sách

  • 7.3. Lời kết

  • 7.2. Hướng phát triển

  • 3.3. Các mô hình cho bài toán mở rộng truy vấn

  • 3.4. Mẫu nhận dạng cụm danh từ

  • 3.5. Phương pháp thực nghiệm và ñánh giá

  • 3.6. Nguồn dữ liệu thực nghiệm

  • Chương 4- XÂY DỰNG ONTOLOGY OOMP

Tài liệu cùng người dùng

Tài liệu liên quan