NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN

27 285 0
NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THƠNG CAO XN TUẤN NGHIÊN CỨU PHƢƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CƠNG THỨC TỐN Chun ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội, 2017 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng TS Nguyễn Mạnh Hùng Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng cấp Học viện Họp số 122 Hồng Quốc Việt, Hà Nội Vào lúc: Có thể tìm hiểu luận án tại: Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Trong năm gần đây, với phát triển mạnh mẽ mạng Internet công nghệ Web bùng nổ thông tin số Số lượng người sử dụng lượng thông tin sản sinh mạng Internet gia tăng nhanh tìm thấy hầu hết thơng tin cần thiết có nhu cầu Đặc biệt, lượng thông tin liên quan đến khoa học, phục vụ học tập, nghiên cứu gia tăng nhanh chóng phong phú lĩnh vực Các cơng cụ tìm kiếm phổ biến Google, Yahoo, Bing… hỗ trợ mạnh việc tìm kiếm liệu dạng văn hình ảnh, việc tìm kiếm liệu đặc biệt công thức tốn cơng cụ chưa thực Hiện nay, có nhiều cơng cụ cho phép soạn thảo quản lý cơng thức tốn, việc tìm kiếm gặp nhiều khó khăn chưa có chuẩn chung biểu diễn lưu trữ Vì thế, để tìm kiếm tài liệu dựa cơng thức tốn, cần có chế thống để mơ tả, lưu trữ tìm kiếm theo ngữ nghĩa tương ứng với cơng thức Mục tiêu nghiên cứu Mục tiêu tổng quát đề tài đề xuất mơ hình hệ thống cho phép biểu diễn, lưu trữ tìm kiếm tài liệu dựa cơng thức tốn với nhiều tảng hệ thống khác nhau: máy đơn, mạng nội bộ, Internet Mục tiêu cụ thể sau: (1) Đề xuất không gian biểu diễn lưu trữ cơng thức tốn theo cách thống chuyển đổi dễ dàng từ nhiều nguồn, nhiều công cụ soạn thảo lưu trữ khác (2) Trên sở mơ hình thống cách biểu diễn lưu trữ đó, đề xuất phát triển cơng cụ cho phép soạn thảo, tìm kiếm cơng thức tốn cách thuận lợi văn (3) Đề xuất giải pháp để tìm kiếm tài liệu dựa cơng thức tốn mơi trường Internet bao gồm Web thường Semantic Web (Web ngữ nghĩa) Ý nghĩa đóng góp Về mặt khoa học, nghiên cứu cho phép mở hướng nghiên cứu tiêu chuẩn lưu trữ, xử lý, khai thác tài liệu tốn học hệ thống máy tính mạng máy tính khác Đặc biệt, nghiên cứu xử lý vấn đề phát sinh hệ điều hành, phần mềm ứng dụng sử dụng tiêu chuẩn mã hóa lưu trữ khác Ví dụ, để chuyển đổi tài liệu nói chung hay tài liệu tốn học nói riêng phần mềm soạn thảo Microsoft Word, OpenOffice, LaTeX, Về mặt thực tiễn, luận án đề xuất thử nghiệm thành công công cụ cho phép soạn thảo, xử lý, tìm kiếm chuyển đổi tài liệu tốn học; triển khai mức thử nghiệm Semantic Web cho tài liệu toán học xây dựng hệ thống tìm kiếm tài liệu dựa cơng thức tốn (VNMathSearch) Những kết bước đầu sở quan trọng để tiếp tục thực nghiên cứu tương lai Những đóng góp luận án tóm tắt điểm sau: (1) Đề xuất không gian soạn thảo, lưu trữ thống cơng thức tốn dễ dàng chuyển đổi định dạng công thức sang tiêu chuẩn lưu trữ khác nhau, (2) Đề xuất thử nghiệm thành công hệ thống tìm kiếm tài liệu dựa cơng thức toán (văn Web) dựa ba thành phần: sưu tập liệu (crawler), lập mục (index) tìm kiếm (search), (3) Đề xuất thử nghiệm thành cơng hệ thống tìm kiếm tài liệu toán học dựa Semantic Web Bố cục luận án Luận án trình bày thành chương Trong đó, chương giới thiệu tổng quan tìm kiếm văn cơng thức tốn Chương trình bày nghiên cứu biểu diễn lưu trữ cơng thức tốn Chương trình bày giải pháp đề xuất tìm kiếm tài liệu dựa cơng thức tốn chương thử nghiệm, đánh giá kết nghiên cứu chương chương CHƢƠNG 1: TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN VÀ CƠNG THỨC TỐN Chương trình bày số kết nghiên cứu tổng quan liên quan đến đề tài gồm: khái niệm văn hệ thống tìm kiếm văn bản; vấn đề lưu trữ tìm kiếm văn chứa cơng thức toán; định hướng nghiên cứu luận án 1.1 Bài tốn tìm kiếm văn Một hệ thống tìm kiếm văn nói chung, thường có hai phần tách biệt là: (i) Phần hệ thống quản lí, lưu trữ; (ii) phần hệ thống tìm kiếm Hình 1.1 Hình 1.1 Kiến trúc tổng quan hệ thống lƣu trữ tìm kiếm văn 1.2 Tìm kiếm văn chứa cơng thức tốn Mơ hình lưu trữ tìm kiếm văn trình bày mục 1.1 áp dụng rộng rãi số lượng lớn người dùng chấp nhận Tuy vậy, mơ hình gặp nhiều khó khăn, hạn chế áp dụng vào tốn tìm kiếm văn chứa cơng thức tốn Một số khó khăn kể đến như: - Phần nội dung công thức tốn văn xử lí đối tượng độc lập (chẳng hạn hình ảnh, đoạn mã có định dạng đặc biệt,…) nhúng vào văn bản, đó, khơng thể áp dụng kỹ thuật xử lí văn vào bước xử lí cho cơng thức tốn - Phần nội dung cơng thức tốn biểu diễn lưu trữ tài liệu khác khơng giống Điều dẫn đến khó khăn việc đánh mục tài liệu chứa cơng thức tốn, việc tìm kiếm từ khóa chứa cơng thức tốn việc xếp hạng văn chứa cơng thức tốn theo từ khóa nhập vào Ký hiệu toán học loại văn định dạng đặc biệt Nó dựa bảng chữ khác (tiếng Hy Lạp, tiếng Do Thái,…), quy tắc bit ký hiệu Dưới số cách biểu diễn: 1) Biểu diễn cơng thức tốn Microsoft Word Ví dụ Microsoft Word 2010, để hiển thị công thức √ , soạn thảo Equation Editor (Soạn thảo phương trình) phải sử dụng đoạn mã sau: Hoặc { EQ \r(3,x) } biểu diễn đoạn mã sau: { EQ \f(x+2007, x+2008) } 2) Biểu diễn cơng thức tốn OpenOffice.Org Để hiển thị cơng thức √ có đoạn mã tương ứng sau: nroot{3}{x} Hoặc để hiển thị công thức ứng sau: có đoạn mã tương {x+2007} over {x+2008} 3) Biểu diễn cơng thức tốn Website Để tạo cơng thức tốn phải nhập vào đoạn mã LaTeX tương ứng Sau ví dụ minh hoạ: Để hiển thị cơng thức √ phải nhập đoạn mã sau: $\sqrt[3]{2}$ Hoặc để hiển thị cơng thức phải nhập đoạn mã sau: $\frac{x+2007}{x+2008}$ Hiện có nhiều phương pháp, cách thức tiêu chuẩn áp dụng cho việc đặc tả, biểu diễn lưu trữ cơng thức tốn văn bản, số phương pháp, tiêu chuẩn thường sử dụng Ngôn ngữ đánh dấu TeX/LaTeX, Ngôn ngữ đánh dấu AMS-LaTeX, Ngôn ngữ đánh dấu HTML, Ngôn ngữ MathML Trong đó, MathML luận án đề xuất lựa chọn làm ngôn ngữ biểu diễn lưu trữ chung cho hệ thống đề xuất 1.3 Hƣớng tiếp cận luận án Nội dung mục 1.2 trình bày thực tế không thống hệ thống soạn thảo, biểu diễn lưu trữ cơng thức tốn văn Thực tế dẫn đến khó khăn cho việc áp dụng mơ hình lưu trữ tìm kiếm văn trình bày mục 1.1 vào tốn lưu trữ tìm kiếm văn chứa cơng thức tốn Để giải khó khăn này, xem xét hướng tiếp cận sau: Giải pháp 1: Xây dựng hệ thống riêng cho tốn lưu trữ tìm kiếm văn chứa cơng thức tốn Giải pháp 2: Cải tiến mơ hình có cách bổ sung hệ thống đánh mục, tìm kiếm xếp hạng văn theo dạng lưu trữ cơng thức tốn khác Giải pháp thể Hình 1.8 Hình 1.8 Kiến trúc hệ thống theo giải pháp Giải pháp 3: Cải tiến mơ hình có cách đề xuất chuẩn chung để biểu diễn lưu trữ cơng thức tốn văn áp dụng mơ hình truyền thống dạng biểu diễn chung Giải pháp thể Hình 1.9 Hình 1.9 Kiến trúc hệ thống theo giải pháp Trong giải pháp này, luận án đề xuất lựa chọn giải pháp để triển khai với lý giải pháp có đầy đủ ưu điểm giải pháp 2, đồng thời khắc phục nhược điểm giải pháp Nhìn kiến trúc hệ thống Hình 1.9, dễ dàng nhận thấy giải pháp cho kiến trúc hệ thống tinh gọn phải thay đổi so với giải pháp 1.4 Kết luận Chƣơng Chương trình bày kết nghiên cứu tổng quan q trình soạn thảo tìm kiếm cơng thức tốn, tài liệu có chứa cơng thức tốn Việc soạn thảo biểu diễn cơng thức tốn cơng cụ soạn thảo đặc biệt Web vấn đề quan tâm Chương BIỂU DIỄN VÀ LƯU TRỮ CƠNG THỨC TỐN Nội dung chương tập trung trình bày đề xuất mơ hình thống cách biểu diễn lưu trữ công thức tốn văn bản, dựa ngơn ngữ đánh dấu MathML Trên sở lưu trữ chung đó, luận án đề xuất giải pháp để soạn thảo văn có chứa cơng thức tốn việc chép, chuyển đổi cơng thức tốn lưu trữ tiêu chuẩn biểu diễn khác 2.1 Mơ hình biểu diễn tìm kiếm cơng thức tốn văn Hiện nay, có nhiều cơng cụ cho phép soạn thảo cơng thức toán văn Microsoft Word, OpenOffice.org Writer, Acrobat, WebEditor,… Mặc dù kết hiển thị công thức tốn tương tự nhau, cơng cụ soạn thảo văn có chuẩn lưu trữ nội dung riêng, đặc biệt lưu trữ nội dung cơng thức tốn biểu diễn Hình 2.1 Hình 2.1 Mơ hình biểu diễn cơng thức tốn văn truyền thống Thực tế dẫn đến số khó khăn: (1) Khơng thể chép cơng thức tốn từ cơng cụ soạn thảo sang cơng cụ soạn thảo khác, (2) Khó khăn tìm kiếm cơng thức tốn tài liệu soạn thảo lưu trữ khác Từ thực tế khó khăn này, luận án đề xuất xây dựng môi trường soạn thảo, biểu diễn lưu trữ thống nhất, cho phép chép, tìm kiếm, chuyển đổi chuẩn lưu trữ khác cách dễ dàng Hình 2.2 mơ tả mơ hình đề xuất luận án Hình 2.2 Mơ hình biểu diễn lưu trữ cơng thức tốn văn đề xuất 11 Hình 2.9 Biểu diễn dạng cơng thức MathML Một đối tượng TeX biểu diễn dạng khác với MathML mặt lơ-gíc Mỗi mức tương ứng với nhóm TeX Ví dụ: biểu thức TeX $\sqrt {1-\alpha} + x^{3+a}$ biểu diễn dạng sau: Hình 2.10 Biểu diễn dƣới dạng đối tƣợng TeX 2.6 Kết luận Chƣơng Chương đề xuất mơ hình biểu diễn lưu trữ đồng cơng thức tốn gồm hai mức: Mức thấp cho việc quản lí cơng thức toán phạm vi tài liệu Trong mức thấp này, MathML đề xuất sử dụng tiêu chuẩn trung tâm phục vụ việc lưu trữ xử lý cơng thức tốn Mơi trường soạn thảo đề xuất xây dựng dựa mã nguồn mở Amaya, có hỗ trợ soạn thảo cơng thức tốn theo chuẩn MathML 12 Chƣơng TÌM KIẾM T I LIỆU DỰA TRÊN CƠNG THỨC TỐN Trên sở mơ hình biểu diễn thống mức thấp mơ hình hai mức trình bày chương 2, nội dung chương trình bày đề xuất mơ hình tìm kiếm tài liệu, đặc biệt tài liệu môi trường Web dựa công thức toán Đề xuất chương gồm mảng tìm kiếm tài liệu, trang Web thơng thường tìm kiếm dựa Semantic Web 3.1 Bài tốn tìm kiếm tài liệu tốn học Hầu hết cách tiếp cận tìm kiếm dựa thành phần chính: kỹ thuật để biểu diễn thơng tin (câu truy vấn, tài liệu) hai phương pháp so sánh cách biểu diễn Mục đích để tự động qui trình kiểm tra tài liệu cách tính tốn độ tương đồng câu truy vấn tài liệu Qui trình tự động thành cơng trả kết giống với yêu cầu người sử dụng so sánh câu truy vấn với tài liệu Hình 3.1 Mơ hình hệ thống tìm kiếm thơng tin 13 3.2 Tìm kiếm tài liệu có chứa cơng thức tốn - Mơ hình đề xuất Nội dung phần trình bày giải pháp tìm kiếm tài liệu trang Web tạo từ mơ hình biểu diễn lưu trữ đồng cơng thức tốn văn đề xuất chương trước Mô hình tìm kiếm có hai q trình tạo mục cho tài liệu tìm kiếm có yêu cầu truy vấn người dùng Mơ hình tổng qt q trình tạo mục tìm kiếm Hình 3.2  Các nguồn văn user Mơ-dun tìm kiếm Lập mục văn Bộ chuyển đổi cơng thức tốn học Tìm kiếm hiển thị kết CSDL Chỉ mục văn Hình 3.2 Mơ hình tổng qt q trình tạo mục tìm kiếm Như vậy, mơ hình đề xuất cho chức tìm kiếm tài liệu chứa cơng thức tốn, có mơ-đun: (1) Lập mục văn bản, (2) chuyển đổi cơng thức tốn, (3) tìm kiếm hiển thị kết Trong đó, mơ-đun chuyển đổi cơng thức tốn mơ hình đồng biểu diễn lưu trữ cơng thức tốn đề xuất chương Do đó, mơ-đun xin khơng trình bày lại Luận án trình bày chi tiết bước hai mơ-đun lại mục 14 - Mơ hình lập mục văn Quá trình thu thập văn chứa cơng thức tốn từ Internet từ nguồn khác, thực đánh mục văn theo đặc trưng văn lưu vào CSDL mục văn Các bước chi tiết trình mơ tả Hình 3.3: Hình 3.3 Mơ hình q trình tạo mục Bước Tiền xử lí văn theo thể loại: Bước xác định xem văn có chứa cơng thức tốn hay khơng? Nếu văn khơng chứa cơng thức tốn, hệ thống loại văn khỏi quy trình đánh mục Kết bước tập văn thơ chứa cơng thức tốn Các văn lưu trữ nhiều dạng khác PDF, HTML, Doc, XML Bước Chuyển đổi định dạng văn bản: Bước cho phép tìm kiếm định dạng tài liệu bước 1, tài liệu chuyển 15 đổi định dạng thống XHTML+MathML Kết bước tập văn chứa cơng thức tốn, chuyển đổi thành công định dạng thống XHTML +MathML Bước Bóc tách cơng thức tốn văn bản: Nội dung tài liệu bóc tách thành nội dung văn nội dung toán học Các nội dung văn lập mục theo cách thơng thường Còn cơng thức tốn sau hồn thành bước chuẩn hóa chuyển đổi thành chuỗi nén Bước Đánh mục lưu vào CSDL mục văn bản: Bước đánh mục văn theo phương pháp Lucene Sau văn lưu vào CSDL mục văn - Mơ-đun tìm kiếm hiển thị kết Mô-đun cho phép người dùng nhập từ khóa cơng thức tốn vào để tìm kiếm Hệ thống sau tìm tính điểm văn liên quan đến cơng thức muốn tìm CSDL mục văn Kết hiển thị lên giao diện cho người dùng Quá trình mơ tả Hình 3.4 với bước sau: Hình 3.4 Mơ hình q trình tìm kiếm 16 Bước Tiếp nhận chuẩn hóa câu truy vấn: Kết trả công thức lưu trữ dạng Presentation MathML, công thức chuyển đổi sang Content MathML LaTeX tùy vào nhu cầu tìm kiếm Bước Truy vấn – tìm kiếm: Để thực chức tìm kiếm tài liệu có chức cơng thức tốn, luận án đề xuất sử dụng phương pháp đối sánh mẫu (Pattern Matching) [4], [24] Bài tốn u cầu ta tìm nhiều vị trí xuất mẫu văn Trong mẫu văn chuỗi có độ dài m n (m ≤ n) Bước Xếp hạng kết tìm kiếm hiển thị: Luận án sử dụng thuật toán xếp hạng TF-IDF (Term Frequency - Inverse Document Frequency - Tần số mục từ - Tần số tài liệu nghịch đảo) Ý tưởng thuật toán mục từ truy vấn xuất nhiều tài liệu, tài liệu có điểm cao 3.3 Tìm kiếm tài liệu dựa Semantic Web - Mô tả ứng dụng Semantic Web toán học Luận án đề xuất xây dựng hệ thống Semantic Web toán học dựa Semantic Web lơ-gíc mơ tả khuyến cáo W3C Điểm đặc biệt ứng dụng so với ứng dụng khác tài liệu soạn thảo lưu trữ dựa không gian đề xuất chương tìm thấy tài liệu dựa việc nhập vào cơng thức tìm kiếm dựa ngữ nghĩa mô tả tài liệu cơng thức tốn - Mơ hình đề xuất Trên sở khảo sát thực tế nghiên cứu lý thuyết, luận án đề xuất mơ hình tổng quát cho hoạt động hệ thống sau: 17 Hình 3.5 Mơ hình hóa hệ thống Semantic Web toán học 3.4 Kết luận Chƣơng Nội dung chương trình bày đề xuất mơ hình tìm kiếm văn có chức cơng thức tốn, trang Web Ontology Các văn bản, tài liệu, Ontology soạn thảo lưu trữ dựa mơ hình thống cách biểu diễn lưu trữ văn trình bày chương 2, bao gồm hai giai đoạn lập mục văn (hoặc xây dựng Ontology) chứa cơng thức tốn giai đoạn tìm kiếm văn chứa cơng thức tốn Chƣơng THỬ NGHIỆM V ĐÁNH GIÁ Nội dung chương trình bày việc thử nghiệm đánh giá mơ hình đề xuất chương chương 3, bao gồm: Mơ hình thống cách biểu diễn lưu trữ cơng thức tốn văn bản; Mơ tả hệ thống thử nghiệm; Trình bày phương pháp thử nghiệm; Kết thử nghiệm đánh giá 4.1 Chức soạn thảo lƣu trữ cơng thức tốn Cửa sổ soạn thảo cơng thức tốn chia thành ba vùng chính: 18 - Vùng menu phía trên: chứa menu chức hỗ trợ cho công cụ môi trường soạn thảo - Vùng xem trước (preview) bên trái hình: cho phép hiển thị cơng thức tốn hiển thị văn xuất - Vùng soạn thảo bên phải trung tâm hình: cho phép soạn thảo cơng thức tốn dạng MathML Hình 4.1 Biểu diễn cơng thức theo dạng thẻ (tags) Tìm kiếm trực tiếp cơng thức tốn Ở mức thực tìm kiếm cơng thức tốn xuất văn Hình 4.4 Ví dụ tìm kiếm ký hiệu bậc 19 4.3 Tìm kiếm Ontology Qui trình cụ thể nhƣ sau: Hình 4.6 Mơ hình ây dựng khai thác kho liệu 4.4 Tìm kiếm văn chứa cơng thức tốn Hệ thống tìm kiếm tài liệu chứa cơng thức toán (VNMathSearch) xây dựng phát triển theo số chức mơ hình đề xuất Phát triển hệ thống thử nghiệm Trong trình nghiên cứu hệ thống phát triển, luận án lựa chọn ngơn ngữ lập trình C#, hệ quản trị sở liệu SQL Server phát triển web để xây dựng hệ thống Chuẩn bị liệu Luân án sử dụng liệu tài liệu kỹ thuật thư viện Đại học Đà Nẵng Trường Đại học Khoa học Tư nhiên - Đại học Quốc gia Hà Nội cung cấp với tổng số 497 văn từ nhiều lĩnh vực khác gồm: Tốn, Vật lí, Cơng nghệ thơng tin, Điện tử tự động hóa Tài liệu lưu trữ định dạng HTML, XHTML, LaTeX, Microsoft Word, PDF… 20 Các tài liệu thử nghiệm Semantic Web chuyển đổi lưu trữ Ontology với lớp kiểu tài liệu bổ sung mơ tả tóm tắt tài liệu, mơ tả cơng thức tốn có chứa tài liệu Sau thực phân tích tài liệu chứa cơng thức Số lượng cơng thức tốn chứa tài liệu thể Bảng 4.4 Bảng 4.4 Chi tiết số công thức văn Tài liệu Số lượng Số lượng tài liệu không chứa công thức 245 Số lượng tài liệu chứa công thức 241 Số lượng tài liệu không nhận diện Tổng 11 497 Trong số 241 văn chứa công thức, có 38 tài liệu chứa 01 cơng thức 203 tài liệu chứa từ 02 cơng thức tốn trở lên Tài liệu lưu trữ CSDL, công cụ nhận diện công thức nhận diện công thức tài liệu lưu trữ, số lượng tài liệu không nhận diện 11 tài liệu tổng số 497 tài liệu Hiệu suất thực chức phân tích tài liệu hệ thống tính công thức: Đánh giá kết 4.5.1 Phƣơng pháp đánh giá Luận án thực đánh giá với hai kịch sau: - Kịch 1: Nhập truy vấn dạng nội dung văn - Kịch 2: Nhập truy vấn dạng công thức Luận án quan sát tham số đầu sau: Số mẫu trả (TP - true positive): số lượng văn có chứa nội dung truy vấn xuất kết tìm kiếm 21 Số mẫu sai trả (FP - false positive): số lượng văn không chứa nội dung truy vấn xuất kết tìm kiếm Số mẫu không trả (FN - false negative): số lượng văn có chứa nội dung truy vấn lại khơng xuất kết tìm kiếm Khi đó, độ xác (Precision) xác định cơng thức: precision  TP TP  FP Độ triệu hồi (Recall) xác định công thức: Re call  TP TP  FN 4.5.2 Kết thực nghiệm đánh giá kết Số lượng truy vấn số tài liệu liên quan thể chi tiết Bảng 4.5: Bảng 4.5 Thống kê truy vấn Tóm tắt thống kê Số tài liệu 497 Số chủ đề Tổng số tài liệu thực truy vấn Số tài liệu tra cứu 312 Số tài liệu liên quan 298 Luận án sử dụng câu truy vấn có nội dung khác cho việc thử nghiệm hệ thống, cấp độ triệu hồi, luận án tính độ xác tương đương với cấp Bảng 4.6 Thống kê độ triệu hồi độ xác theo kịch No Recall Precision (%) No Recall Precision (%) 0.1 0.8734 0.6 0.7333 0.2 0.8333 0.7 0.6750 22 0.3 0.8167 0.8 0.5833 0.4 0.7667 0.9 0.5667 0.5 0.7433 10 1.0 0.5117 Bảng 4.7 Thống kê độ triệu hồi độ ác theo kịch No Recall 0.1 Precision (%) No Recall Precision (%) 0.9667 0.6 0.7500 0.2 0.8667 0.7 0.6667 0.3 0.8450 0.8 0.6333 0.4 0.8000 0.9 0.6083 0.5 0.7833 10 1.0 0.5333 Bảng 4.8 Kết trung bình độ triệu hồi độ ác Kịch Recall Precision (%) Truy vấn theo nội dung 0.72 86.8132 Truy vấn theo công thức 0.62 89.3130 Đánh giá kết Mặc dù hai kịch cho kết có độ xác cao lại cho độ triệu hồi thấp Có nghĩa nhiều văn có chứa cơng thức tốn truy vấn khơng xuất kết tìm kiếm Đây coi điểm hạn chế tồn mơ hình đề xuất Hạn chế xuất phát từ yếu tố kỹ thuật sau: (1) Do độ xác Bộ chuyển đổi cơng thức tốn chưa cao, (2) Thuật toán đối sánh xấp xỉ chưa phát đầy đủ chuỗi tập từ khóa 4.6 Kết luận Chƣơng Nội dung chương trình bày việc thử nghiệm đánh giá mơ hình đề xuất chương chương 3, bao gồm: mơ hình thống cách biểu diễn lưu trữ cơng thức tốn văn 23 bản; phương pháp tìm kiếm văn có chứa cơng thức tốn dựa mơ hình thống biểu diễn lưu trữ KẾT LUẬN Luận án đề xuất từ nhu cầu thực tế hạn chế việc soạn thảo, lưu trữ khai thác tài liệu khoa học, đặc biệt tài liệu có chứa cơng thức tốn Trên sở nghiên cứu tổng quan, đề xuất vấn đề nghiên cứu liên quan đến việc soạn thảo, lưu trữ, tìm kiếm tài liệu khoa học máy tính Các nghiên cứu luận án liên quan đến nhiều vấn đề tiêu chuẩn lưu trữ, hệ soạn thảo cho phép nhập sửa cơng thức tốn, giải pháp để tìm kiếm cơng thức tốn, tìm kiếm tài liệu có chứa cơng thức tốn, giải pháp để chuyển đổi tài liệu có chứa cơng thức tốn cơng cụ khác Luận án trình bày kết thử nghiệm nhằm đánh giá giải pháp đề xuất kết cho thấy giải pháp đề xuất hợp lý, khả thi cho kết tốt Những ứng dụng thử nghiệm cho thấy cung cấp cho người sử dụng giải pháp, công cụ hiệu thuận lợi soạn thảo, lưu trữ tìm kiếm tài liệu dựa cơng thức tốn Những đóng góp luận án tóm tắt điểm sau: Đề xuất khơng gian soạn thảo, lưu trữ thống cơng thức tốn dễ dàng chuyển đổi định dạng cơng thức tốn sang tiêu chuẩn lưu trữ khác Đề xuất thử nghiệm thành cơng hệ thống tìm kiếm tài liệu dựa cơng thức tốn (văn Web) dựa ba thành 24 phần: (1) sưu tập liệu (crawler), (2) lập mục (index) (3) tìm kiếm (search) Đề xuất thử nghiệm hệ thống tìm kiếm tài liệu tốn học dựa Semantic Web Những kết có ý nghĩa khoa học thực tiễn rõ ràng, đặc biệt lĩnh vực nghiên cứu ứng dụng cho tiếng Việt Về mặt khoa học, kết cho phép mở hướng nghiên cứu tiêu chuẩn lưu trữ, xử lý, khai thác tài liệu tốn học hệ thống máy tính mạng máy tính khác Đặc biệt, nghiên cứu xử lý vấn đề phát sinh hệ điều hành, công cụ sử dụng tiêu chuẩn mã hóa lưu trữ khác Về mặt thực tiễn, luận án đề xuất thử nghiệm thành công cơng cụ cho phép soạn thảo, xử lý, tìm kiếm chuyển đổi tài liệu toán học; xây dựng hệ thống tìm kiếm tài liệu dựa cơng thức tốn (VNWebSearch), triển khai mức thử nghiệm Semantic Web cho tài liệu toán học Những kết bước đầu sở quan trọng để tiếp tục thực nghiên cứu tương lai Tuy nhiên, phạm vi nghiên cứu phải giới hạn điều kiện thời gian nên số vấn đề cần phải tiếp tục nghiên cứu, thử nghiệm thêm Trên sở nghiên cứu triển khai kết đạt trình thực luận án, luận án đề xuất số hướng phát triển thời gian tới gồm: - Tiếp tục nghiên cứu cập nhật thông tin chuẩn lưu trữ Trên sở đó, nghiên cứu chuyển đổi tự động tài liệu tạo từ công cụ soạn thảo khác - Nghiên cứu phát triển hệ thống tìm kiếm đa ngữ xuyên ngữ DANH SÁCH CÁC B I BÁO ĐÃ CÔNG BỐ [1] Tuan Cao Xuan, Hung Vo Trung, “VM-SEMWEB: A Semantic Web For Vietnamese Mathematical Documents”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 04, May-2015 [2] Tuan Cao Xuan, Hung Vo Trung, “MathML for the Management of Mathematical Formula in Text Editor”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 05, May-2015 [3] Tuan Cao Xuan, Linh Bui Khanh, Hung Vo Trung, Ha Nguyen Thi Thu, Tinh Dao Thanh, “Indexing Based on Topic Modeling and MATHML for Building Vietnamese Technical Document Retrival Effectively”, 4th International Conference, ICCASA 2015, Vung Tau, Vietnam, November 26-27, 2015 [4] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà, “VNMATHSEARCH – Hệ thống tìm kiếm tài liệu tốn học tiếng Việt”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), pp 768-775, 2015 [5] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, “Một môi trường thống để biểu diễn, lưu trữ, soạn thảo xử lý cơng thức tốn”, Tạp chí Khoa học Cơng nghệ Đại học Đà Nẵng, pp 64-69, 01/2017

Ngày đăng: 05/06/2018, 10:44

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan