Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán

106 387 0
Nghiên cứu phương pháp tìm kiếm tài liệu dựa trên công thức toán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CAO XUÂN TUẤN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017 BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CAO XUÂN TUẤN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN Chuyên ngành : Hệ thống Thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Võ Trung Hùng TS Nguyễn Mạnh Hùng Hà Nội – 2017 i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận án trung thực chưa công bố công trình khác Tác giả Luận án ii LỜI CẢM ƠN Để hoàn thành luận án này, đầu tiên, nghiên cứu sinh xin chân thành cảm ơn hướng dẫn khoa học tận tình giúp đỡ PGS.TS Võ Trung Hùng TS Nguyễn Mạnh Hùng Nghiên cứu sinh trân trọng cảm ơn Ban Giám đốc Học viện Công nghệ Bưu Viễn thông, Hội đồng tiến sĩ, Khoa Quốc tế Đào tạo sau đại học tạo điều kiện thuận lợi cho nghiên cứu sinh thực hoàn thành chương trình nghiên cứu Xin chân thành cảm ơn Quý thầy, cô đọc góp ý kiến cho luận án Nghiên cứu sinh chân thành cảm ơn Cơ quan Bộ Giáo dục Đào tạo tạo điều kiện công tác thuận lợi để nghiên cứu sinh tham gia hoàn thành khóa học Cuối cùng, nghiên cứu sinh bày tỏ lòng biết ơn đến gia đình, người thân, người bạn bên cạnh, động viên ủng hộ nghiên cứu sinh suốt thời gian qua Nghiên cứu sinh Cao Xuân Tuấn iii MỤC LỤC LỜI CẢM ƠN ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii DANH MỤC BẢNG ix MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN VÀ CÔNG THỨC TOÁN 1.1 Tìm kiếm văn 1.1.1 Khái niệm văn 1.1.2 Hệ thống tìm kiếm văn 1.2 Tìm kiếm văn chứa công thức toán 12 1.2.1 Đặc thù tìm kiếm văn chứa công thức toán 12 1.2.2 Các công cụ soạn thảo văn chứa công thức toán 13 1.2.3 Biểu diễn văn chứa công thức toán 17 1.2.4 Lưu trữ văn chứa công thức toán 19 1.2.5 Tìm kiếm công thức toán với hệ thống MathWebSearch 23 1.3 Hướng tiếp cận luận án 25 1.4 Kết luận Chương 29 CHƯƠNG BIỂU DIỄN VÀ LƯU TRỮ CÔNG THỨC TOÁN 31 2.1 Mô hình biểu diễn tìm kiếm công thức toán văn 31 2.2 Biểu diễn lưu trữ công thức toán với MathML 34 2.3 Soạn thảo hiển thị công thức toán với Amaya 38 iv 2.4 Sao chép công thức toán Amaya 40 2.5 Chuyển đổi công thức MathML với định dạng khác 44 2.6 Kết luận Chương 46 CHƯƠNG TÌM KIẾM TÀI LIỆU DỰA TRÊN CÔNG THỨC TOÁN 48 3.1 Bài toán tìm kiếm tài liệu 48 3.2 Tìm kiếm tài liệu dựa công thức toán 50 3.2.1 Mô hình đề xuất 50 3.2.2 Mô-đun lập mục văn 51 3.2.3 Mô-đun tìm kiếm hiển thị kết 54 3.3 Tìm kiếm tài liệu dựa Semantic Web 61 3.3.1 Mô tả ứng dụng Semantic Web toán học 62 3.3.2 Mô hình đề xuất 63 3.4 Kết luận Chương 67 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ 68 4.1 Chức soạn thảo lưu trữ công thức toán 68 4.2 Tìm kiếm trực tiếp công thức toán 70 4.3 Tìm kiếm Ontology 72 4.4 Tìm kiếm văn dựa công thức toán 74 4.4.1 Phát triển hệ thống thử nghiệm 74 4.4.2 Mô tả chức hệ thống 74 4.4.3 Môi trường cài đặt hệ thống 75 4.4.4 Chuẩn bị liệu 76 4.5 Đánh giá kết 81 v 4.5.1 Phương pháp đánh giá 81 4.5.2 Kết thử nghiệm đánh giá kết 82 4.6 Kết luận Chương 86 KẾT LUẬN 87 DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ 90 TÀI LIỆU THAM KHẢO 91 vi DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Nghĩa Tiếng Anh Nghĩa Tiếng Việt CSS Cascading Style Sheets Tập tin định dạng theo tầng HTML HyperTeXt Markup Language Ngôn ngữ đánh dấu siêu văn MathML Mathematical Markup Language Ngôn ngữ đánh dấu toán học OLE Object Linking and Embedding Liên kết nhúng đối tượng SVG Scalable Vector Graphics Ngôn ngữ đánh dấu miêu tả hình ảnh đồ họa véc tơ hai chiều W3C The World Wide Web Consortium Tiêu chuẩn thiết kế Web WYSIWYG What You See Is What You Get Giao diện tương tác tức thời XHTML Extensible HyperTeXt Markup Ngôn ngữ đánh dấu siêu văn Language mở rộng XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng URI Uniform Resource Identifier Định danh tài nguyên vii DANH MỤC HÌNH VẼ Hình 1.1 Kiến trúc tổng quan hệ thống lưu trữ tìm kiếm văn 10 Hình 1.2 Nhập công thức bảng chọn 13 Hình 1.3 Hiển thị công thức hình soạn thảo 14 Hình 1.4 Cửa sổ soạn thảo TeXworks 14 Hình 1.5 Cửa sổ soạn thảo Microsoft Equation 15 Hình 1.6 Giao diện phần mềm Mathtype 16 Hình 1.7 Công cụ MyEqText soạn thảo trực tiếp cửa sổ Microsoft Word 16 Hình 1.8 Cấu trúc hệ thống ( MWS – 0.4) 24 Hình 1.9 Kiến trúc hệ thống theo giải pháp 26 Hình 1.10 Kiến trúc hệ thống theo giải pháp 29 Hình 2.1 Mô hình biểu diễn công thức toán văn truyền thống 31 Hình 2.2 Mô hình biểu diễn lưu trữ công thức toán văn đề xuất 32 Hình 2.3 Minh họa cách trình bày công thức 37 Hình 2.4 Cấu trúc thành phần mã nguồn mở Amaya 39 Hình 2.5 Sơ đồ trình chuyển đổi liệu ClipBoard 40 Hình 2.6 Chương trình thường trú Math Clipboard Converted 41 Hình 2.7 Thuật toán chép công thức qua ClipBoard 43 Hình 2.8 Mô hình chuyển đổi công thức từ MathML sang TeX 44 Hình 2.9 Biểu diễn dạng công thức MathML 45 Hình 2.10 Biểu diễn dạng đối tượng TeX 45 Hình 3.1 Mô hình hệ thống tìm kiếm thông tin 49 viii Hình 3.2 Mô hình tổng quát trình tạo mục tìm kiếm 50 Hình 3.3 Mô hình trình tạo mục 52 Hình 3.4 Mô hình trình tìm kiếm 55 Hình 3.5 Mô hình hóa hệ thống Semantic Web toán học 63 Hình 4.1 Biểu diễn công thức theo dạng thẻ (tags) 69 Hình 4.2 Biểu diễn công thức theo dạng hình 69 Hình 4.3 Ví dụ tìm kiếm ký tự a 70 Hình 4.4 Ví dụ tìm kiếm ký hiệu bậc 70 Hình 4.5 Tìm thay công thức 71 Hình 4.6 Mô hình xây dựng khai thác kho liệu 72 Hình 4.7 Giao diện tìm kiếm tài liệu với câu truy vấn văn 73 Hình 4.8 Giao diện tìm kiếm có câu truy cấn công thức toán 73 Hình 4.9 Tổ chức liệu máy chủ lưu trữ 75 Hình 4.10 Chi tiết sở liệu lưu trữ thông tin tài liệu 79 Hình 4.11 Cửa số tìm kiếm với câu truy vấn công thức toán 80 Hình 4.12 Cửa tìm kiếm với câu truy vấn nội dung văn 80 Hình 4.13 Mối tương quan độ triệu hồi độ xác theo kịch 84 Hình 4.14 Mối tương quan độ triệu hồi độ xác theo kịch 85 81 Tên tài liệu tìm thấy Trích dẫn phần tài liệu có chứa công thức tìm thấy Đường dẫn tới tài liệu tìm thấy Ngoài thông tin trên, người dùng xem số lượng tài liệu tìm thấy ứng với câu truy vấn này, thời gian thực truy vấn (tính đơn vị millisecond) 4.5 Đánh giá kết 4.5.1 Phương pháp đánh giá 4.5.1.1 Kịch đánh giá Trong trình nghiên cứu, nhận thấy có 02 dạng - Một số tài liệu không chứa công thức toán công thức dạng đơn giản sử dụng cách nhập liệu thông thường để mô tả ví dụ: y=x2 y=2x,…với trường hợp này, luận án coi tài liệu khoa học không chứa công thức toán - Các tài liệu chứa công thức toán: tài liệu chuyển đổi sang dạng XML, thẻ XML nhận diện đối tượng công thức, công thức nhập Math type, Microsoft Equation 3.0, OpenOffice.org Math LaTEX Do vậy, trình thử nghiệm, nhằm tăng thêm độ xác hệ thống, luận án thực đánh giá với hai kịch sau: - Kịch 1: Nhập truy vấn dạng nội dung văn - Kịch 2: Nhập truy vấn dạng công thức toán 4.5.1.2 Tham số đầu Luận án quan sát tham số đầu sau: - Số mẫu trả (TP - true positive): số lượng văn có chứa công thức truy vấn xuất kết tìm kiếm 82 - Số mẫu sai trả (FP - false positive): số lượng văn KHÔNG chứa công thức truy vấn xuất kết tìm kiếm - Số mẫu không trả (FN - false negative): số lượng văn có chứa công thức truy vấn lại KHÔNG xuất kết tìm kiếm - Số mẫu sai không trả (TN - true negative): số lượng văn KHÔNG chứa công thức truy vấn KHÔNG xuất kết tìm kiếm Khi đó, độ xác (Precision) xác định công thức: precision  TP TP  FP (4.2) Độ triệu hồi (Recall) xác định công thức: Re call  TP TP  FN (4.3) 4.5.2 Kết thử nghiệm đánh giá kết 4.5.2.1 Kết thử nghiệm Số lượng truy vấn số tài liệu liên quan thể chi tiết Bảng 4.5 Bảng 4.5 Thống kê truy vấn Tóm tắt thống kê Số tài liệu 497 Số chủ đề Tổng số tài liệu thực truy vấn Số tài liệu tra cứu 312 Số tài liệu liên quan 298 83 Luận án sử dụng câu truy vấn khác cho việc thử nghiệm hệ thống, cấp độ triệu hồi, luận án tính độ xác tương đương với cấp - Kết thử nghiệm theo kịch 1, với câu truy vấn dạng nội dung văn thể Bảng 4.6 Bảng 4.6 Thống kê độ triệu hồi độ xác theo kịch No Recall Precision (%) 0.1 0.8734 0.2 0.8333 0.3 0.8167 0.4 0.7667 0.5 0.7433 0.6 0.7333 0.7 0.6750 0.8 0.5833 0.9 0.5667 10 1.0 0.5117 84 Số liệu Thống kê độ triệu hồi độ xác với câu truy vấn nội dung văn Bảng 4.6 biểu diễn qua biểu đồ Hình 4.13 0.9 0.8 Precision 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.2 0.4 0.6 0.8 1.2 Recall Hình 4.13 Mối tương quan độ triệu hồi độ xác theo kịch - Kết thử nghiệm theo kịch 2, với câu truy vấn công thức toán thể Bảng 4.7 Bảng 4.7 Thống kê độ triệu hồi độ xác theo kịch No Recall Precision (%) 0.1 0.9667 0.2 0.8667 0.3 0.8450 0.4 0.8000 0.5 0.7833 0.6 0.7500 0.7 0.6667 0.8 0.6333 0.9 0.6083 10 1.0 0.5333 85 Số liệu Thống kê độ triệu hồi độ xác với câu truy vấn công thức toán Bảng 4.7 biểu diễn qua Biểu đồ Hình 4.14 1.2 Precision 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1.2 Recall Hình 4.14 Mối tương quan độ triệu hồi độ xác theo kịch 4.5.2.2 Đánh giá kết Hiện nay, hệ thống tìm kiếm tài liệu chứa công thức toán chưa xây dựng, nên luận án thực đánh giá với hệ thống có Do vậy, luận án thực đánh giá 02 kịch trình bày Kết đánh giá thể Bảng 4.8 tính trung bình chung cho lần truy vấn khác kịch khác Kết cho thấy kịch - nhập câu truy vấn dạng nội dung văn có độ xác thấp lại có độ triệu hồi cao so với kịch - nhập câu truy vấn dạng công thức toán Kết trung bình độ triệu hồi độ xác thể Bảng 4.8 Bảng 4.8 Kết trung bình độ triệu hồi độ xác Kịch Recall Precision (%) Truy vấn theo nội dung 0.72 86.8132 Truy vấn theo công thức 0.62 89.3130 86 Mặc dù hai kịch cho kết có độ xác cao lại cho độ triệu hồi thấp Có nghĩa nhiều văn có chứa nội dung truy vấn không xuất kết tìm kiếm Đây coi điểm hạn chế tồn mô hình đề xuất Hạn chế xuất phát từ yếu tố kỹ thuật sau: - Bộ chuyển đổi công thức toán: Có thể chuyển đổi từ công thức truy vấn người dùng nhập vào thành tập mục từ khóa tìm kiếm số hạn chế, khiến từ khóa sinh không giúp tìm kiếm triệt để công thức toán lưu văn - Thuật toán đối sánh xấp xỉ mẫu: Có thể thuật toán đối sánh xấp xỉ chưa phát đầy đủ chuỗi tập từ khóa xuất chuỗi văn tìm kiếm khiến cho hiệu phát công thức toán văn chưa cao Để khắc phục hạn chế này, luận án tiếp tục xem xét cải tiến hiệu bước chuyển đổi công thức toán dạng đồng bước đối sánh xâu tìm kiếm chuỗi biểu diễn công thức toán văn Đây hướng mở rộng đầy tiềm luận án tương lai 4.6 Kết luận Chương Nội dung chương trình bày việc thử nghiệm đánh giá mô hình đề xuất chương 3, bao gồm: mô hình thống cách biểu diễn lưu trữ công thức toán văn bản; phương pháp tìm kiếm văn chứa công thức toán dựa mô hình thống biểu diễn lưu trữ Việc thử nghiệm đem lại số kết đáng khích lệ Kết chương công bố công trình số [3], số [4] số [5] Tuy nhiên, để áp dụng vào môi trường thực tế, cần nhiều thời gian công sức để xây dựng liệu đủ lớn xây dựng chức chi tiết, phức tạp nghiệp vụ thực tế 87 KẾT LUẬN Luận án đề xuất từ nhu cầu thực tế hạn chế việc soạn thảo, lưu trữ khai thác tài liệu khoa học, đặc biệt tài liệu có chứa công thức toán Trên sở nghiên cứu tổng quan, luận án đề xuất vấn đề nghiên cứu liên quan đến việc soạn thảo, lưu trữ, tìm kiếm tài liệu khoa học máy tính Các nghiên cứu luận án liên quan đến nhiều vấn đề tiêu chuẩn lưu trữ, hệ soạn thảo cho phép nhập sửa công thức toán, giải pháp để chuyển đổi tài liệu có chứa công thức ứng dụng khác nhau, giải pháp để tìm kiếm tài liệu dựa công thức toán xây dựng Semantic Web cho tài liệu toán học Luận án trình bày kết thử nghiệm nhằm đánh giá giải pháp đề xuất kết cho thấy giải pháp đề xuất hợp lý, khả thi cho kết tốt Những ứng dụng thử nghiệm cho thấy người sử dụng cung cấp giải pháp, công cụ hiệu thuận lợi nhiều soạn thảo, lưu trữ tìm kiếm tài liệu dựa công thức toán Những đóng góp luận án tóm tắt điểm sau: Đề xuất không gian soạn thảo, lưu trữ thống công thức toán dễ dàng chuyển đổi định dạng công thức sang tiêu chuẩn lưu trữ khác Đề xuất thử nghiệm thành công hệ thống tìm kiếm tài liệu dựa công thức toán (văn Web) dựa ba thành phần: sưu tập liệu (crawler), lập mục (index) tìm kiếm (search) Đề xuất thử nghiệm thành công hệ thống tìm kiếm tài liệu toán học dựa Semantic Web Những kết có ý nghĩa khoa học thực tiễn rõ ràng, đặc biệt lĩnh vực nghiên cứu ứng dụng cho tiếng Việt 88 Về mặt khoa học, nghiên cứu cho phép mở hướng nghiên cứu tiêu chuẩn lưu trữ, xử lý, khai thác văn hệ thống máy tính mạng máy tính khác Đặc biệt, nghiên cứu xử lý vấn đề phát sinh hệ điều hành, phần mềm ứng dụng sử dụng tiêu chuẩn mã hóa lưu trữ khác Ví dụ, để chuyển đổi tài liệu nói chung hay tài liệu toán học nói riêng phần mềm soạn thảo Microsoft Word, OpenOffice, LaTeX, Về mặt thực tiễn, luận án đề xuất thử nghiệm thành công công cụ cho phép soạn thảo, xử lý, tìm kiếm chuyển đổi tài liệu toán học; triển khai mức thử nghiệm Semantic Web cho tài liệu toán học xây dựng hệ thống tìm kiếm tài liệu dựa công thức toán (VNMathSearch) Những kết bước đầu sở quan trọng để tiếp tục thực nghiên cứu tương lai Tuy nhiên, phạm vị nghiên cứu phải giới hạn hạn chế thời gian nên số vấn đề cần phải tiếp tục nghiên cứu, thử nghiệm thêm Trên sở nghiên cứu triển khai kết đạt trình thực luận án, luận án đề xuất số hướng phát triển thời gian tới gồm: Tiếp tục nghiên cứu cập nhật thông tin chuẩn lưu trữ (vì tiêu chuẩn thay đổi theo thời gian) Trên sở đó, nghiên cứu chuyển đổi tự động tài liệu tạo từ công cụ soạn thảo khác (đặc biệt ứng dụng thiết bị di động phát triển nhanh) Nghiên cứu phát triển hệ thống tìm kiếm đa ngữ xuyên ngữ (ví dụ: tìm tài liệu hay công thức nhiều ngôn ngữ khác không tìm ngôn ngữ tiếp tục tìm kiếm ngôn ngữ khác) Luận án số hạn chế định đáp ứng mục tiêu nghiên cứu đặt Những nội dung nghiên cứu mang lại kết bước đầu, có độ tin cậy cao giải pháp đề xuất Quan trọng hơn, nghiên cứu luận án hướng phát triển tiềm cho 89 nghiên cứu tương lai, đặc biệt xử lý văn tiếng Việt môi trường đa ngữ 90 DANH MỤC CÁC BÀI BÁO ĐÃ CÔNG BỐ [1] Tuan Cao Xuan, Hung Vo Trung, “VM-SEMWEB: A Semantic Web For Vietnamese Mathematical Documents”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 04, May-2015 [2] Tuan Cao Xuan, Hung Vo Trung, “MathML for the Management of Mathematical Formula in Text Editor”, International Journal of Engineering Research & Technology (IJERT), Vol 4, Issue 05, May-2015 [3] Tuan Cao Xuan, Linh Bui Khanh, Hung Vo Trung, Ha Nguyen Thi Thu, Tinh Dao Thanh, “Indexing Based on Topic Modeling and MATHML for Building Vietnamese Technical Document Retrival Effectively”, 4th International Conference, ICCASA 2015, Vung Tau, Vietnam, November 26-27, 2015 [4] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà, “VNMATHSEARCH – Hệ thống tìm kiếm tài liệu toán học tiếng Việt”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), pp 768-775, 2015 [5] Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, “Một môi trường thống để biểu diễn, lưu trữ, soạn thảo xử lý công thức toán”, Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, pp 64-69, 01/2017 91 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Dang Tuan NGUYEN and Ha Quy-Tinh LUONG (2009), "Document Searching System based on Natural Language Query Processing for Vietnam Open Courseware Library," IJCSI International Journal of Computer Science Issues, vol Vol 6, no No 2, pp 7-13 [2] Le T.N., Vo T.H., , Cao X.T., Hoang T.M.L (2010), “Mathis - Hệ thống hỗ trợ tạo thích tìm kiếm tài liệu khoa học,” Tạp chí Khoa học Công nghệ Đại học Đà Nẵng, pp 15-20 [3] Thien Huu Nguyen, Vinh Quang Nguyen, and Ngoc Minh Thi Nguyen (2011), "An information extractionsystem for constructing knowledge bases from Vietnamese documents," in In Proceedings of the 28th Student Scientific Research Conference, pp 114-118, School of Information and Communication Technology, HUST, Hanoi, Vietnam Tiếng Anh [4] Alberto Apostolico, Zvi Galil (2013), Pattern Matching Algorithms, Oxford University Press, ISBN-13: 978-0195113679 [5] C Schenk (2016), MiKTeX Manual, MiKTeX Project Report, http://miktex.org [6] Chengxiang Zhai and John Lafferty, A study of smoothing methods for language models applied to Ad Hoc information retrieval, Proc 24th Annu Int ACM SIGIR Conf Res Dev Inf Retr - SIGIR ’01, pp 334– 342, 2001 [7] D E Knuth (1984), Computers and Typesetting, Addison-Wesley, ISBN 0-201-13448-9 92 [8] David Carlisle, Patrick Ion, Robert Miner (2010), "Mathematical Markup Language (MathML) Version 2.0," in Second Edition [9] David Carlisle, Patrick Ion, Robert Miner (2014), Mathematical Markup Language (MathML) Version 3.0, W3C Recommendation [10] G Nass, GES 2014: Symbolab takes the hassle out of the equation, MindCet Published [11] H T Thanh (2000), "Micro-typographic extensions to the TEX typesetting system," in TUGBoat, Volume 21, No [12] Harmelen, Grigoris Antoniou and Frank Van (2004), "A Semantic Web Primer," in MIT Press [13] Djoerd Hiemstra and Vojkan Mihajlovic, A database approach to information retrieval: The remarkable relationship between language models and region models, 1005.4752, pp 1–16, 2010 [14] Irène Vatton, Vincent Quint, and al (2008), "Amaya User Manual," in NRIA and W3C Published, https://www.w3.org/Amaya/Distribution/manual.pdf [15] Jon M Kleinberg, Authoritative sources in a hyperlinked environment, Journal of the ACM, vol 46, no pp 604–632, 1999 [16] K Foster (2001), "Mathtype with mathML for the WWW," in IEEE Spectrum 38 (12): 64 [17] K M Svore, P H Kanani, and N Khan, How Good is a Span of Terms? Exploiting Proximity to Improve Web Retrieval, Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 2010, pp 154–161 [18] L Lamport (1994), LaTeX: A document preparation system: User's guide 93 and reference, Addison-Wesley, ISBN 0-201-52983-1 [19] L Wood (1998), "Document Object Model Specification," in W3C Recommnedation [20] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd, Introduction and Motivation A Ranking for Every Page on the Web, World Wide Web Internet Web Inf Syst., vol 54, no 1999–66, pp 1–17, 1998 [21] M Kohlhase (2006), "OMDoc: An Open Markup Format for Mathematical Documents [version 1.2]," in Springer-Verlag GmbH [22] Masakazu Suzuki, Fumikazu Tamari, Ryoji Fukuda, Seiichi Uchida, and Toshihiro Kanahori (2003), "Infty- an integrated OCR system for mathematical documents," in In Proceedings of ACM Symposium on Document Engineering 2003, pp 95–104 [23] Michael Kohlhase, Bogdan A Matican, and Corneliu (2012), "MathWebSearch 0.5 – Scaling," in Intelligent Computer, Conferences on Intelligent Computer, (Bremen, Germany [24] Michael Kohlhase, Bogdan A Matican, Corneliu-Claudiu Prodescu (2012), MathWebSearch 0.5: Scaling an Open Formula Search Engine, Intelligent Computer Mathematics, Volume 7362 of the series Lecture Notes in Computer Science, pp 342-357 [25] Michael McCandless, Erik Hatcher, and Otis Gospodnetić Lucene in Action, Second Edition Manning publications July 2010 ISBN 9781933988177 [26] R Dillet (2012), Wolfram Alpha Makes CrunchBase Data Computable Just In Time For Disrupt SF, TechCrunch Published 94 [27] R Miner (2005), "The importance of mathml to mathematics communication", Notices of the AMS, vol 52(5):532–538 [28] Ralf Schenkel, Andreas Broschart, Seungwon Hwang, Martin Theobald, and Gerhard Weikum, Efficient Text Proximity Search, String Process Inf Retr., pp 287–299, 2007 [29] S E Robertson, The probability ranking in IR, Journal of Documentation, vol 33, no pp 294–304, 1977 [30] G Salton, A Wong, and C S Yang, A vector space model for automatic indexing, Communications of the ACM, vol 18, no 11 pp 613–620, 1975 [31] Scott Deerwester, George W Furnas, Thomas K Landauer, and Richard Harshman, Indexing by Latent Semantic Analysis, J Am Soc Inf Sci Sci., 1990 [32] Sucan, Michael Kohlhase and Ioan (2006), "A Search Engine for Mathematical Formulae," in Proceedings of Artificial Intelligence and Symbolic Computation, AISC’2006 [33] T Berners – Lee, J Hendler, O Lassila (2001), "The Semantic Web," in Scientific American, vol.248, pp 28 – 37 [34] T Berners-Lee (2001), "The Semantic Web," in Published by Scientific American [35] T Kanahori, K Tabata, W Cong, F Tamari and M Suzuki (2000), "OnLine Recognition of Mathematical Expressions Using Automatic Rewriting Method," in Proc ICMI, Lecture Notes in Computer Science, Springer-Verlag, p.p 394–401 [36] Tao Tao and ChengXiang Zhai, An exploration of proximity measures in 95 information retrieval, Proc 30th Annu Int ACM SIGIR Conf Res Dev Inf retrieval, SIGIR 07, pp 295–302, 2007 [37] Toby Segaran, Colin Evans, Jamie Taylor (2009), "Programming The Semantic Web," in O’Reilly – Media [38] Vatton, Vincent Quint and Irène (1997), An introduction to Amaya, Journal World Wide Web Journal - Special issue: scripting languages: automating the Web, Volume Issue 2, pp 39-46, O'Reilly & Associates, Inc Sebastopol, CA, USA [39] Z39.59-1998, ANSI/NISO, AAP Math DTD, Standard for Electronic Manuscript Preparation and MarkUp, Washington, DC: Association of American Publishers [40] Zanibbi, R., and Blostein, D (2011), "Recognition and retrieval of mathematical expressions," in International Journal on Document Analysis and Recognition (IJDAR), pp 1–27 ... công cụ để soạn thảo công thức, soạn thảo thích tìm kiếm công thức toán tìm kiếm tài liệu dựa công thức toán giải pháp lưu trữ, quản lý khai thác liệu công thức toán tài liệu, đặc biệt môi trường... vực toán học ngữ nghĩa công thức; - Cuối cùng, tiến hành nghiên cứu khả tích hợp vai trò việc lưu trữ tìm kiếm tài liệu dựa công thức toán ứng dụng khác Phương pháp nghiên cứu Phương pháp tài liệu: ... cho toán tìm kiếm tài liệu dạng tài liệu điện tử Các nội dung nghiên cứu bao gồm: - Nghiên cứu tổng quan việc biểu diễn, tiêu chuẩn lưu trữ, công cụ soạn thảo tìm kiếm tài liệu dựa công thức toán;

Ngày đăng: 08/08/2017, 15:23

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan