TRUY HỒI THÔNG TIN THEO ONTOLOGY TRÊN NỀN TÍNH TOÁN PHÂN TÁN HADOOP

Thông tin tài liệu

Trong những năm gần đây, sự phát triển như vũ bão hiện nay của ngành khoa học máy tính, lượng dữ liệu được tao ra và lưu thông trong Internet là vô cùng lớn – mang lại nguồn tri thức gần như là vô tận cho tất cả mọi người – loài người chúng ta đang bước vào “kỷ nguyên của BigData” (BigData Era) và sự bùng nổ của thông tin toàn cầu. Đi kèm theo đó cũng là các khó khăn, các mô hình máy tìm kiếm truyền thống đã gần như bị quá tải hoặc không thể đáp ứng được nhu cầu tìm kiếm thông tin ngày càng nâng cao hơn của con người như trước đây nữa. Do đó câu hỏi đặt ra là “làm thế nào chúng ta có thể xây dựng được một hệ thống truy hồi thông tin thông minh và mạnh mẽ hơn?”

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - PHẠM THẾ ANH PHÚ TRUY HỒI THƠNG TIN THEO ONTOLOGY TRÊN NỀN TÍNH TỐN PHÂN TÁN HADOOP (**Từ khóa: Ontology-based IRS, Conceptual-based Retrieval, FCA, Big Data, Hadoop) LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ PHÚC TP HỒ CHÍ MINH, tháng 03 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS.TS ĐỖ PHÚC (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 31 tháng 03 năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM PHỊNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 31 tháng 03 năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: PHẠM THẾ ANH PHÚ Ngày, tháng, năm sinh: 17/01/1990 Chuyên ngành: Công nghệ thơng tin Giới tính: Nam Nơi sinh: Tp Hồ Chí Minh MSHV: 1541860022 I- Tên đề tài: TRUY HỒI THÔNG TIN THEO ONTOLOGY TRÊN NỀN TÍNH TỐN PHÂN TÁN HADOOP II- Nhiệm vụ nội dung: Đề tài luận văn bao gồm nhiệm vụ với nội dung sau:  Xây dựng mơ hình máy tìm kiếm có tích hợp Ontology để phục vụ cho việc tìm kiếm thông tin, tài liệu liên quan đến ngành CNTT dựa khái niệm  Chuyển đổi hình thức tưu trữ suy luận Ontology tảng CSDL đồ thị - nhằm giải toàn lưu trữ nguồn tri thức lớn Ontology  Tăng hiệu suất máy tìm kiếm việc lưu trữ lập mục tài liệu - thông qua việc áp dụng mơ hình phân tán Nutch/Hadoop III- Ngày giao nhiệm vụ: 10/11/2016 IV- Ngày hoàn thành nhiệm vụ: 31/03/2017 V- Cán hướng dẫn: PGS.TS ĐỖ PHÚC CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) PGS.TS ĐỖ PHÚC i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) PHẠM THẾ ANH PHÚ Trang |i ii LỜI CÁM ƠN Đầu tiên cho xin phép gửi lời cám ơn vô sâu sắc đến với PGS.TS Đỗ Phúc, người thầy trước tiếp hướng dẫn, bảo tạo điều kiện tốt cho tơi suốt q trình thực luận văn Ngồi tơi xin gửi lời cám ơn chân thành đến với PGS.TS Võ Đình Bảy tồn thể đội ngũ cán bộ, thầy cô công tác ĐH Công Nghệ TP HCM, người trực tiếp giảng dạy, bạn đồng học lớp 15SCT11 hỗ trợ trình học tập thực nghiên cứu trường Cuối xin gửi lời cám ơn đến gia đình người thân có ủng hộ mặt tinh thần giúp đỡ đáng kể cho tơi q trình nghiên cứu hoàn thành luận văn PHẠM THẾ ANH PHÚ T r a n g | ii iii TÓM TẮT Trong năm gần đây, phát triển vũ bão ngành khoa học máy tính, lượng liệu tao lưu thông Internet vô lớn – mang lại nguồn tri thức gần vô tận cho tất người – loài người bước vào “kỷ nguyên Big-Data” (BigData Era) bùng nổ thơng tin tồn cầu Đi kèm theo khó khăn, mơ hình máy tìm kiếm truyền thống gần bị tải khơng thể đáp ứng nhu cầu tìm kiếm thông tin ngày nâng cao người trước Do câu hỏi đặt “làm xây dựng hệ thống truy hồi thông tin thông minh mạnh mẽ hơn?” – phải hội tụ khả năng, bao gồm:  Bài toán 1: Máy tìm kiếm linh hoạt thơng minh việc xử lý, phân tích ngữ cảnh tìm kiếm (search-context) “hiểu” người dùng muốn  Bài tốn 2: Có chế lập mục, tìm kiếm thiết kế hợp lý để xử lý lượng lớn liệu (có thể lên đến hàng petabyte)  Bài tốn 3: Dễ dàng nhanh chóng việc mở rộng bảo trì với mức chi phí thời gian tiêu tốn thấp Để giải cho vấn đề toán [1], đề xuất xây dựng sử dụng mô hình máy tìm kiếm dựa khái niệm thơng qua tích hợp Ontology để hỗ trợ cho việc tìm kiếm – lĩnh vực (miền tri thức – knowledge domain) cần tìm kiếm tích hợp ontology khác Do giới hạn thời gian nên luận văn nhắm đến việc xây dựng Ontology cho miền tri thức CNTT (Computing Domain Ontology – CDO) Ngồi ra, chúng tơi thực chuyển đổi ontology xây dựng sang hình thức lưu trữ CSDL đồ thị (graph-database) sử dụng truy vấn cypher để rút trích thơng tin, nhằm mục đích tăng hiệu xuất cho việc truy vấn, suy luận tri thức từ CDO Đối với toán [2] [3] đề xuất triển khai hướng giải pháp xây dựng máy tìm kiếm mơ hình xử lý lưu trữ phân tán mã nguồn mở miễn phí Apache Nutch/Hadoop – cải tiến thêm số tính để tích hợp với CDO xây dựng Luận văn bao gồm chương – trình bày chi tiết ý tưởng, phương thức thực thực nghiệm đánh giá cho hệ thống phát triển, kết luận tổng quan kết đạt hướng phát triển cho đề tài T r a n g | iii iv ABSTRACT In recent years, thanks to the rapid growth in computer science, the transferred data throughout the Internet had been increasing tremendously – providing the huge resources of knowledge for everyone to access – we’re leaping to the Big-Data era and the global data explosion However, following the advantages, the raise of data on the Internet also brings difficulties as well as challenges, the traditional search-engine models seem not affordable for the current searching needs of clients - related to the overloaded issues and higher demands on searching mechanisms The question is that “how we can build the smarter and more powerful search-engine?” – the new constructed search-engine designs must meet the following requirements, includes:  Problem 1: the search engine must have abilities of flexible operation and smart user’s interaction – through analyze the searching context and understating what the user really want through the input query  Problem 2: Having the appropriate indexing, searching mechanisms and reasonable architecture in order to make it can be able to consume and process the large amount of data during the operating time  Problem 3: The capabilities of fast and easy on system expanding, maintaining with the lowest cost and taken time In order to resolve the problem [1], we propose design and build the concept based searchengine model with ontology – in every searching field (or knowledge domain), the search-engine need to be attached with the appropriate ontology which is constructed for that knowledge domain Due to the time’s limitation while doing the thesis, we only intend to build the computing domain ontology (CDO) Moreover, after the completion of constructing the CDO, we will introduce about methods of using graph-based storage (graph-database) model for representing and reasoning the knowledge of CDO The main purpose of graph-based storage model transferring is to reach the higher performance in ontology knowledge management and extraction To come up with the solution for problem [2] and [3], the uses of distributed storage and processing of Nutch/Hadoop – the free open-source search engine framework - had been T r a n g | iv v considered – we also make some changes as well as related new developments in order to make it becomes suitable for the thesis’s solutions as well as fitting with the ontology (CDO) based search-engine architecture Overall the content of thesis, we intend to have chapters – includes detailed descriptions about the system’s design ideas, applying based-theory (algorithm, methods…), the experimental method results, statistical reports - and finally is the overall conclusion as well as proposals for continued future improvements Trang |v vi MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC vi DANH MỤC TỪ VIẾT TẮT viii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH xi CHƯƠNG GIỚI THIỆU VÀ TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU 1.1 Lý động lực thực đề tài 1.2 Mục đích phạm vi nghiên cứu đề tài 1.3 Tổng lược cơng trình liên quan 1.3.1 Các phương pháp mô hình xây dựng Ontology 1.3.2 Chuyển đổi suy luận ontology tảng CSDL 1.3.3 Các hệ thống phân tán toán xử lý liệu lớn (Big-data) 1.4 Các điểm đóng góp luận văn 1.5 Tổng quan vấn đề nghiên cứu luận văn 1.5.1 Xây dựng Ontology miền CNTT (CDO) hỗ trợ truy hồi thông tin 1.5.2 Xây dựng hệ thống truy hồi thơng tin (IRS) tích hợp CDO lưu trữ xử lý phân tán 1.6 Các phương pháp luận phương pháp nghiên cứu áp dụng 1.7 Kết luận chương CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN TRONG ĐỀ TÀI 10 2.1 Các ngun lý tìm kiếm truy hồi thơng tin 10 2.1.1 Các mô hình tìm kiếm / so khớp phổ biến 10 2.1.2 Kiến trúc máy tìm kiếm (SE) có hỗ trợ CDO 18 2.2 Xây dựng Ontology dành cho miền tri thức CNTT (Computing Domain Ontology) 28 2.2.1 Sơ lược thể học (Ontology) 28 2.2.2 Phân biệt thể học (ontology) phân cấp ngữ nghĩa (taxonomy) 28 2.2.3 Các mơ hình rút trích / trích chọn thông tin (Information Extraction) nhằm phục vụ cho xây dựng Ontology 29 2.2.4 Ontology cho miền tri thức CNTT (CDO) 46 2.3 Ứng dụng sở liệu đồ thị để lưu trữ truy vấn thông tin từ Ontology 51 2.3.1 Lý cần phải chuyển đổi hình thức lưu trữ truy vấn 51 2.3.2 Tổng quan lý thuyết đồ thị tảng lưu trữ liệu dạng đồ thị 51 2.3.3 Hướng tiếp cận CSDL bảng quan hệ (RDBMS) giới hạn 53 2.3.4 Phương pháp mơ hình hóa CDO CSDL đồ thị (Graph-database) 57 2.4 Mơ hình máy tìm kiếm (SE) tảng lưu trữ xử lý phân tán Nutch / Hadoop 60 2.4.1 Thu thập tài liệu phân tán (distributed crawling) 60 2.4.2 Lập mục chọn lọc tài liệu phân tán (distributed indexing) 62 2.4.3 Phương pháp đánh giá giải thuật 67 T r a n g | vi vii -2.5 Kết luận chương 67 CHƯƠNG CÁC BƯỚC XÂY DỰNG NỀN TẢNG HỆ THỐNG VÀ CÀI ĐẶT 68 3.1 Tiến trình phương thức xây dựng CDO 68 3.1.1 Xây dựng lớp chủ đề (Topic) - nhận diện xác định thực thể (Entity Extraction) 68 3.1.2 Xây dựng lớp thành phần (Ingredient) thông qua việc làm giàu lớp chủ đề CDO từ tài liệu huấn luyện 69 3.1.3 Xây dựng lớp quan hệ (Relation) rút trích thiết lập quan hệ ngữ nghĩa (Relation Extraction) 70 3.2 Chuyển đổi hình thức lưu trữ rút trích thơng tin CDO từ mơ hìnhtruyền thống sang dạng CSDL đồ thị (graph-database) 75 3.2.1 Lưu trữ truy vấn CDO CSDL đồ thị 75 3.2.2 Giải tốn tìm mối liên kết đối tượng thông qua hướng tiếp cận giải thuật tìm đường ngắn 77 3.3 Mơ hình máy tìm kiếm tảng phân tán có tích hợp CDO 79 3.3.1 Cài đặt thu thập tài liệu (Crawler) phân tán Nutch 79 3.3.2 Cài đặt lập mục (Indexer) có tích hợp CDO để chọn lọc tài liệu phù hợp (Document Filtering) 80 3.3.3 Bộ tìm kiếm (Search) Apache Solr có tích hợp CDO 82 3.4 Kết luận chương 85 CHƯƠNG THỰC NGHIỆM VÀ CÁC KẾT QUẢ ĐÁNH GIÁ 86 4.1 Ontology miền tri thức CNTT (CDO) 86 4.1.1 Thống kê số lượng thực thể quan hệ CDO xây dựng 86 4.1.2 Đánh giá CDO tảng lưu trữ CSDL đồ thị Neo4j 87 4.1.3 Đánh giá mức độ xác đầy đủ CDO 89 4.2 Đánh giá mô hình thu thập lập mục phân tán máy tìm kiếm xây dựng 92 4.3 Đánh giá mơ hình máy tìm kiếm có hỗ trợ CDO 95 4.4 Kết luận chương 96 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 97 TÀI LIỆU THAM KHẢO 99 PHỤ LỤC 101 T r a n g | vii 97 CHƯƠNG 5.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CÁC KẾT QUẢ ĐẠT ĐƯỢC: luận văn triển khai công việc nghiên cứu sở tảng lý thuyết, áp dụng lý thuyết mơ hình vào đề tài luận văn, xây dựng - cài đặt tảng hệ thống cuối chạy thực nghiệm để đánh giá kết - đề tài mang lại nhiều đóng góp định giải vấn đề đặt giai đoạn phát triển ý tưởng cho đề tài, bao gồm:  Xây dựng ontology cho miền tri thức CNTT (CDO) nhằm phục vụ cho việc truy hồi thông tin theo khái niệm thông qua việc nhận diện thực thể truy vấn mở rộng truy vấn người dùng dựa khái niệm tồn kèm theo gợi mở khái niệm liên quan đến truy vấn mà người dùng quan tâm  Chuyển đổi hình thức lưu trữ ontology sang dạng CDSL đồ thị nhằm mục đích tối ưu cho việc rút trích thơng tin từ ontology dễ dàng việc xác định mối quan hệ thực thể thông qua mối mối quan hệ chúng  Xây dựng tảng máy tìm kiếm (search engine) mơ hình phân tán – có khả mở rộng cách linh hoạt – đáp ứng mức độ tăng trưởng liệu nạp vào hệ thống cao ngồi search engine tích hợp ontology phục vụ cho việc chọn lọc tài liệu trình lập mục lưu trữ CÁC HẠN CHẾ VÀ KHĨ KHĂN: đạt tồn mục tiêu ban đầu đặt cho đề tài, nhiên xuyên suốt trình thực nảy sinh số khó khăn gây ảnh hưởng phần đến kết đầu sản phẩm, hạn chế khó khăn, bao gồm:  Dữ liệu huấn luyện xây dựng Ontology hạn chế ảnh hưởng đến kết độ xác ontology – nguyên nhân hạn hẹp thời gian thực phần công việc đề tài kho liệu huấn luyện sử dụng để xây dựng ontology khơng đa dạng nhiều lĩnh vực  Số lượng loại mối quan hệ thực thể ít, gói gọn quan hệ phổ biến (IS_A, RELATED_TO, PART_OF…) cần mở rộng tăng thêm số lượng loại mối quan hệ ontology (ví dụ quan hệ RESULT_OF, MADE_OF, ATTRIBUTE_OF…) T r a n g | 97 98 - Môi trường thực nghiệm cho mơ hình phân tán chưa đủ lớn (số lượng node) nên chưa thể kiểm chứng thực nghiệm cách thuyết phục tính vượt trội mơ hình máy tìm kiếm phân tán độc lập HƯỚNG PHÁT TRIỂN: số hướng phát triển tương lai từ thành đạt luận văn sau:  Làm giàu phong phú cho ontology (CDO) ưu tiên hàng đầu, thông qua việc mở rộng làm đa dạng hóa chủ đề mà miền CNTT bao phủ, tăng số lượng thực thể, kiểm tra loại bỏ bớt thực thể dư thừa, tăng số lượng mối quan hệ loại quan hệ kết nối thực thể với đầy đủ nhiều (RESULT_OF, MADE_OF )  Ngoài ra, tập mối quan hệ CDO cần đầu tư xây dựng mức cao bao gồm việc khai thác thêm vào giá trị trọng số độ tin cậy quan hệ thực thể với nhau, thông qua luật kết hợp (association rules) chúng tập liệu huấn luyện (xem [Hình 5.1]) – đòi hỏi nhiều thời gian nghiên cứu kèm Mỗi quan hệ thực thể gán độ tin cậy định để làm trọng số cho mối liên kết java PART_OF { độ_tin_cậy: 0.83469 } j2se python IS_A { độ_tin_cậy: 0.98765 } RELATED_TO { độ_tin_cậy: 0.53469 } { } programming language jython Hình 5.1: Các mối quan hệ thực thể torng CDO gán trọng số phục vụ cho việc kiểm tra mức độ tin cậy quan hệ rút trích T r a n g | 98 99 TÀI LIỆU THAM KHẢO [1] Chien Ta Duy Cong, Tuoi Phan Thi "An Information Extraction Approach for Building Vocabulary and Domain Specific Ontology in Information Technology," Journal on Information and Communications, Vols vol E-3, no.7(11), 2014 [2] Chien Ta Duy Cong, Tuoi Phan Thi "Building Ontology Based-on Heterogeneous Data," Journal of Computer Science and Cybernetics, vol 31, 2015 [3] Chien Ta Duy Cong, Tuoi Phan Thi "Information Extraction from Heterogeneous Sources Based on Domain Specific Ontology," Journal of Science and Technology, vol 52, no 4A, 2014 [4] T Chien Ta Duy Cong, Tuoi Phan Thi "A Subject-Oriented Ontology Development for Information Retrieval Application," Journal on Information and Communications, Vols E-3, no.8(12), 2015 [5] Castells, Pablo, Miriam Fernandez, and David Vallet "An adaptation of the vectorspace model for ontology-based information retrieval" IEEE transactions on knowledge and data engineering 19.2, 2007 [6] Cao, Tru, Khanh Le, and Vuong Ngo "Exploring combinations of ontological features and keywords for text retrieval" Pacific Rim International Conference on Artificial Intelligence, Springer Berlin Heidelberg, 2008 [7] Ngo, Vuong M., and Tru H Cao "Discovering Latent Concepts and Exploiting Ontological Features for Semantic Text Search" IJCNLP, 2011 [8] Ngo, Vuong M., and Tru H Cao "Ontology-based query expansion with latently related named entities for semantic text search" Advances in Intelligent Information and Database Systems, Springer Berlin Heidelberg, pp 41-52, 2010 [9] N C Thành "Xây dựng mơ hình mở rộng truy vấn truy xuất thông tin văn bản" Luận văn Tiến sĩ Kỹ thuật Chuyên ngành Khoa học máy tính, Đại học Bách khoa HCM, 2010 [10] Luong, Hiep, Qiang Wang, and Susan Gauch "Ontology learning using word net lexical expansion and text mining" INTECH Open Access Publisher, 2012 [11] E Blomqvist "Semi-automatic ontology engineering using patterns" The Semantic Web Springer Berlin Heidelberg pp 911-915, 2007 [12] Maedche, Alexander, and Steffen Staab "Semi-automatic engineering of ontologies from text" Proceedings of the 12th international conference on software engineering and knowledge engineering, 2000 [13] Balakrishna, Mithun, et al "Semi-Automatic Domain Ontology Creation from Text Resources" LREC, 2010 [14] Szulman, Sylvie, et al "Dafoe: A platform for building ontologies from texts." KEOD 2009 - Proceedings of the International Conference on Knowledge Engineering and Ontology Development, Funchal - Madeira, Portugal, October 68, 2009 [15] Chien Ta Duy Cong, Tuoi Phan Thi "Improving the Algorithm for Mapping of OWL to Relational Database Schema" In Proc of the 11th International Conference on Machine Learning and Data Mining (MLDM 2015), Springer-Verlag, LNCS, vol 9166, 2015 T r a n g | 99 100 -[16] Hạnh Hoàng Hữu, Thạnh Lê Mạnh "Chuyển đổi mơ hình quan hệ sang mơ hình ngữ nghĩa dựa Ontology" TẠP CHÍ KHOA HỌC, Đại học Huế, tập 73, số 4, 2012 [17] Ngọc Lương Thái "Một giải pháp chuyển đổi từ sở liệu quan hệ sang mơ hình liệu cho web ngữ nghĩa" TẠP CHÍ KHOA HỌC ĐHSP TPHCM, Số 9(75), 2015 [18] Heymans, Stijn, et al "Ontology Reasoning with Large Data Repositories" Springer Science+Business Media, LLC, pp 89-128, 2008 [19] Mogotlane, Kgotatso Desmond, and Jean Vincent Fonou-Dombeu "Automatic Conversion of Relational Databases into Ontologies: A Comparative Analysis of Protege Plug-ins Performances" ArXiv preprint arXiv:1611.02816, 2016 [20] Santoso, Heru Agus, Su-Cheng Haw, and Ziyad T Abdul-Mehdi "Ontology extraction from relational database: Concept hierarchy as background knowledge" Knowledge-Based Systems 24.3, pp 457-464, 2011 [21] Calvanese, Diego, et al "Ontology-Driven Extraction of Event Logs from Relational Databases" Business Process Management Workshops: BPM 2015, 13th International Workshops - Springer, p 140, 2016 [22] Das, Souripriya, et al "Supporting ontology-based semantic matching in RDBMS" Proceedings of the Thirtieth international conference on Very large data bases, vol 30, 2004 [23] Bogdanova, Galina, Todor Yordanov Todorov, and Nikolay Noev "Using Graph Databases to Represent Knowledge Base in the Field of Cultural Heritage" Digital Presentation and Preservation of Cultural and Scientific Heritage VI, pp 199-205, 2016 [24] Zhang, Hui, Xia Hou, and Ning Li "A Storage Method of Ontology Based on Graph Database" Proceedings of The fourth International Conference on Information Science and Cloud Computing (ISCC2015) 18-19 December 2015 Guangzhou, China, vol 21, 2015 T r a n g | 100 101 PHỤ LỤC Cài đặt xây dựng CDO Các lớp hỗ trợ thu thập xử lý liệu huấn luyện cho CDO Thu thập liệu huấn luyện từ nguồn khác Tiền xử lý làm văn Các lớp hỗ trợ phân tách câu & xử lý liệu câu OpenNLP Lớp hỗ trợ phân tách Triple từ liệu câu nạp vào Các lớp hỗ trợ kiểm tra/loại bỏ stopwords, tách câu theo liệu từ điển xử lý từ Tiến hành phân tách thành câu từ Dữ liệu từ (Term) Dữ liệu câu (Sentence) Làm giàu lớp chủ đề & thành phần Phân tách Triple Lưu trữ & chuyển đổi sang Neo4J Dữ liệu Triple Xây dựng lớp quan hệ Trong suốt trình thực luận văn – chúng tơi lựa chon ngơn ngữ lập trình java để xây dựng cơng cụ dựa mơ hình thiết kế giải thuật ban đầu để chạy thực nghiệm – phục vụ cho mục đích xây dựng CDO, ngồi cơng cụ tính xây dựng riêng – tái dụng lại số thư viên mã nguồn mở phát triển sẵn nhằm tiết kiệm thời gian cho việc thực đề tài Apache Jena 3.0, OpenNLP, SLDPOpenIE… Hình bên mô tả kiến trúc, thành phần lớp phát triển cho công cụ phục vụ cho việc xây dựng CDO Lớp OpenIETripleParser.java T r a n g | 101 102 Hàm checkContainAnnotation() phục vụ cho việc kiểm tra tồn tài thực thể có câu nap vào trước (raw) đưa phân tách triple – thực nghiệm cho thấy tiết kiệm thời gian so với việc phân tách trước sau kiểm tra Lớp SpecTermRecognizer.java (nhận diện tách từ/cụm từ khóa) T r a n g | 102 103 Lớp CDOIngredient.java – đặc tả cấu trúc liệu đối tượng thực thể CDO thuộc tính mối quan hệ Hình bên minh họa phần kết triple sinh lưu trữ lại – cấu trúc liệu triple sau phần tách gồm độ tin cậy (confidence), chủ thể (subject), từ quan hệ (predicate) đối tượng quan hệ (object) T r a n g | 103 104 Chuyển đổi hình thức lưu trữ CDO sang Neo4J thơng qua việc khởi tạo thực thể (node) – với thuộc tính kèm – sau mapping mối quan hệ chúng với bao gồm HAS_ALTLABEL, IS_A, PART_OF, HAS_PART… Sau hoàn thành thực kiểm tra rút trích tập mối quan hệ ta tiến hành map liệu lên Neo4J để lư trữ, truy vấn tạo quan hệ có dạng: Cuối ta mơ hình hóa liệu CDO thực truy vấn cypher để rút trich liệu Neo4J cài đặt T r a n g | 104 105 T r a n g | 105 106 Cài đặt Máy tìm kiếm tảng Apache Nutch/Hadoop Solr (Seacher) Cài đặt ứng dụng Apache Nutch/Hadoop môi trường phát triển ứng dụng Eclipse thông qua việc build công cụ Apache Ant, source code Nutch phát hành thức SVN’s respository (phiên 1.x: https://svn.apache.org/repos/asf/nutch/trunk phiên 2.x: https://svn.apache.org/repos/asf/nutch/branches/2.x) Ta tiến hành build Nutch để chạy môi trường phát triển Eclipse T r a n g | 106 107 -Sau ta thêm vào tùy chỉnh phù hợp với thiết kế hệ thống, kèm theo tích hợp thêm tính cho việc chọn lọc tài liệu thơng qua CDO Lớp DocumentFilter.java – lưu ý tồn mơ hình tính lập trình theo framework MapReduce Hadoop Sau hoành thành viết cập nhật tính kiểm thử ta đóng gói (build) Nutch để đưa lên chạy môi trường thực nghiệm cài đạt Hadoop trước – mơi trường thực nghiệm gồm name-node slave-node (tồn chạy mơi trường Linux CentOS 7.x) Sơ nét việc cài đặt ứng dụng Hadoop (HDFS/MapReduce) – sau cài đặt thành cơng ta đứng name-node để start tồn mạng Hadoop’s cluster (bao gồm tất slavenode) Vì đề cập đến bên Hadoop phát triển tảng java ta kiểm tra dễ dàng tình trạng hệ thống thông qua cổng dịch vụ chạy dạng ứng dụng Java T r a n g | 107 108 -Ngoài Hadoop cung cấp số giao diện quản trị (dạng web) để ta kiểm sốt tình trạng Hadoop.Việc chạy tác vụ thu thập lập mục liệu tiến hành theo nhiều hình thức khác nhau, phổ biến chạy trực tiếp hệ thống Hadoop thông qua câu lệnh (command) thực thi tham số truyền vào Sau tác vụ MapReduce tiến hành tồn liệu mà tiến trình thu thập lấy liệu mục lưu trữ hoàn toàn tảng HDFS, để tất node mạng cluster truy xuất đọc, ghi liệu T r a n g | 108 109 Tiếp theo đó, ta tiến hành nạp toàn liệu mục vào Apache Solr để lưu trữ truy vấn sau Việc sử dụng Apache Solr nhằm tránh việc sử dụng tính so khớp (searcher) phân tán hiệu xuất chậm không hỗ trợ để mở rộng, tối ưu số tìm kiếm nâng cao cho máy tìm kiếm Cuối cùng, tổng hợp thành phần xây dựng lại – chúng tơi xây dựng hồn chỉnh cỗ máy tìm kiếm (search engine) với đầy đủ tính dự định ban đầu Ứng dụng máy tìm kiếm xây dựng dạng web-app – truy xuất liệu mục từ Solr thơng qua API có tích hợp CDO (CSDL Neo4J) phục vụ cho việc phân tích, xác định thực thể / khái niệm truy vấn cuối đưa gợi ý để mở rộng truy vấn người dùng T r a n g | 109 110 Máy chủ Solr đóng vai trò làm cổng tiếp nhận lưu trữ quản lý tài liệu sau thu thập lập mục từ hệ thống phân tán Cuối giao diện (GUI) cho máy tìm kiếm – phận tìm kiếm & tương tác người dùng (Searcher) Mơ hình máy tìm kiếm hồn chỉnh xây dựng bao gồm tính tìm kiếm thơng thường (theo từ khóa) tìm kiếm có tích hợp CDO (theo dạng khái niệm T r a n g | 110 111 -nhân diện từ truy vấn người dùng) – phục vụ mở rộng truy vấn đưa gợi ý – tập khái niệm có liên quan đến truy vấn từ người dùng Ví dụ ta thực truy vấn có độ phức tạp sau “applying association rule in social networking” ta có kết trả sau: T r a n g | 111

Ngày đăng: 28/10/2018, 12:21

Xem thêm: TRUY HỒI THÔNG TIN THEO ONTOLOGY TRÊN NỀN TÍNH TOÁN PHÂN TÁN HADOOP

TRUY HỒI THÔNG TIN THEO ONTOLOGY TRÊN NỀN TÍNH TOÁN PHÂN TÁN HADOOP

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan