Xây dựng hệ thống truy xuất thông tin

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI …………………………………… MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG DANH MỤC HÌNH LUẬN VĂN THẠC SĨ KHOA HỌC MỞ ĐẦU U CHƯƠNG TỔNG QUAN VỀ TRUY XUẤT THÔNG TIN 10 1.1 Khái niệm truy xuất thông tin 10 1.2 Quá trình truy xuất thông tin 13 1.2.1 Giai đoạn tiền xử lý 15 1.2.2 Giai đoạn thu thập 20 XÂY DỰNG HỆ THỐNG TRUY XUẤT THÔNG TIN 1.3 Các hướng tiếp cận giải toán truy xuất thông tin 22 1.4 Đánh giá hiệu truy xuất thông tin 22 1.4.1 Độ xác độ bao phủ 23 1.4.2 Độ xác trung bình 25 1.4.3 Độ đo F độ đo E 26 NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: TRẦN THỊ HOÀNG THẢO 1.4.4 Các tiếp cận đánh giá lấy người dùng làm trung tâm 28 1.5 Một số hệ thống truy xuất thông tin 29 1.6 Kết chương 34 CHƯƠNG CÁC CÔNG CỤ TRUY XUẤT THÔNG TIN CƠ BẢN 35 2.1 Lập mục 35 2.2 Xếp hạng 43 Người hướng dẫn khoa học: TS LÊ THANH HƯƠNG 2.2.1 Tổng quan mô hình truy xuất thông tin 43 2.2.2 Các mô hình lôgíc 46 2.2.3 Các mô hình đại số 52 2.2.4 Các mô hình xác suất 56 2.3 Kết chương 61 HÀ NỘI 2006 Truy xuất thông tin CHƯƠNG CƠ CHẾ HOẠT ĐỘNG CỦA LUCENE 62 Truy xuất thông tin DANH MỤC CÁC TỪ VIẾT TẮT 3.1 Giới thiệu Lucene 62 BIR Binary Independence Retrieval: truy xuất độc lập nhị phân 3.2 Lập mục 63 CLM Coordination Level Matching: đối sánh mức đồng hạng 3.2.1 Khung nhìn lôgíc mục 64 GVSM Generalized Vector Space Model: mô hình không gian véctơ suy rộng 3.2.2 Cấu trúc mục 65 idf Inverse Document Frequency: nghịch đảo tần số văn 3.2.3 Inverted index 73 IR Information Retrieval: truy xuất thông tin 3.2.4 Chiến lược lập mục 77 LSI Latent Semantic Indexing: lập mục ngữ nghĩa tiềm ẩn 3.3 Tìm kiếm 78 tf Term Frequency: tần số thuật ngữ 3.3.1 Mô hình không gian véctơ 78 tf – idf Phương pháp tần số kết hợp tf idf 3.3.2 Xếp hạng 81 TREC Text REtrieval Conference : hội nghị truy xuất văn VSM Vector Space Model: mô hình không gian véctơ 3.4 Kết chương 84 CHƯƠNG CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC NGHIỆM 85 4.1 Kiến trúc hoạt động chương trình 85 4.2 Kết thực nghiệm 87 4.3 Kết chương 94 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 95 5.1 Kết luận 95 5.2 Hướng phát triển luận văn 96 TÀI LIỆU THAM KHẢO 98 TÀI LIỆU THAM KHẢO CHÉO 100 Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin Truy xuất thông tin DANH MỤC BẢNG DANH MỤC HÌNH Bảng 1-1 Số thứ tự hệ thống biểu đồ 31 Hình 1-1 Quy trình truy xuất thông tin nói chung (nguồn: [1]) 13 Bảng 3-1 Ví dụ tệp mục 66 Hình 1-2 Khung nhìn lôgíc tài liệu thông qua giai đoạn tiền xử lý Bảng 3-2 Ví dụ tệp mục 67 (nguồn: [1]) 15 Bảng 3-3 Ví dụ tệp mục 69 Hình 1-3 Văn A ban đầu 16 Bảng 3-4 Ví dụ mục ghép 71 Hình 1-4 Văn A sau phân tích 16 Bảng 4-1 So sánh kết lập mục chương trình Google Desktop 88 Hình 1-5 Văn A sau loại từ danh sách stopword Smart Bảng 4-2 Các loại truy vấn thử nghiệm 90 17 Bảng 4-3 So sánh hiệu truy vấn chương trình Google Desktop 91 Hình 1-6 Văn A sau lấy gốc từ 18 Hình 1-7 Ví dụ đồ thị độ xác-độ bao phủ trung bình 24 Hình 1-8 Các tài liệu thu thập so với tài liệu có liên quan (nguồn: [5]) 27 Hình 1-9 Biểu đồ so sánh tính xác số hệ thống IR 30 Hình 1-10 Biểu đồ so sánh tính hiệu số hệ thống IR 30 Hình 1-11 Biểu đồ so sánh số hệ thống IR 31 Hình 2-1 Tần số tập hợp (cf) tần số tài liệu (df) thể khác 37 Hình 2-2 Ví dụ giá trị idf 38 Hình 2-3 Một ví dụ tạo nhãn với khối logic có D = từ, kích thước nhãn F = 12 bit, m = bit 39 Hình 2-4 Cấu trúc File dạng SSF 40 Hình 2-5 Minh hoạ Inverted File 42 Hình 3-1 Quy trình lập mục với Lucene 63 Hình 3-2 Khung nhìn lôgíc mục Lucene 65 Hình 3-3 Chỉ mục không tối ưu hoá gồm phân đoạn, chứa 24 tài liệu 68 Hình 3-4 Ví dụ minh hoạ định dạng mục Lucene (nguồn: [4]) 74 Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ Truy xuất thông tin Hình 3-5 Một sơ đồ lập mục Lucene 78 Truy xuất thông tin MỞ ĐẦU Hình 3-6 Minh họa độ tương tự côsin 79 Ngày nay, phát triển mạnh mẽ công nghệ thông tin dẫn tới dung Hình 4-1 Kiến trúc hoạt động chương trình 85 lượng liệu lưu máy tính gia tăng nhanh chóng Trong tập Hình 4-2 Phần client thực tìm kiếm 87 liệu khổng lồ ẩn chứa hàm lượng thông tin vô lớn Vấn đề đặt Hình 4-3 Biểu đồ độ xác chương trình Google Desktop 89 làm khai thác khối thông tin để trở nên có ích Hình 4-4 Biểu đồ R-Precision chương trình (R = 10) 93 người dùng Hình 4-5 Biểu đồ so sánh thời gian thực chương trình với Google Desktop 93 Những tiến đạt lý thuyết công nghệ lĩnh vực xử lý thông tin giải phần nhu cầu nêu trên, chẳng hạn, toán xử lý văn tìm kiếm, phân loại, phân cụm văn Information Retrieval (tạm dịch truy xuất thông tin) số vấn đề quan tâm Đây vấn đề khó, với hệ thống tìm kiếm phổ biến mạng Internet Google, Altavista, Yahoo nhiều hạn chế Có thể liệt kê hạn chế thường gặp sau: thứ với truy vấn, hệ thống thường trả tập kết gồm hàng nghìn tài liệu, chí lớn nhiều, khiến người dùng phải nhiều thời gian để đọc nội dung tài liệu nhằm tìm thông tin mà họ quan tâm; thứ hai vấn đề tìm kiếm theo trọng số từ khoá, ví dụ người dùng đưa truy vấn “software engineering” với mong muốn từ “software” có ưu tiên cao từ “engineering” nhiều không nhận kết ý; thứ ba vấn đề xếp tài liệu trả theo độ liên quan với truy vấn Ngày nhiều tổ chức cá nhân có nhu cầu tìm kiếm thông tin tập liệu đặt máy tính mạng máy tính Yêu cầu đặt cần có hệ thống truy xuất thông tin chạy Desktop với hiệu độ xác cao Trong luận văn này, tập trung nghiên cứu sở lý thuyết truy xuất thông tin xây dựng thử nghiệm hệ thống truy xuất thông tin cho phép tìm kiếm tài liệu mang nội dung tiếng Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 10 Truy xuất thông tin Anh chứa máy tính Hệ thống xây dựng dựa thư viện mã nguồn mở truy xuất thông tin Lucene Truy xuất thông tin CHƯƠNG TỔNG QUAN VỀ TRUY XUẤT THÔNG TIN Mục đích chương giới thiệu tóm tắt vấn đề truy xuất Nội dung luận văn gồm chương : thông tin: • Chương 1: trình bày tổng quan truy xuất thông tin, bước cần Truy xuất thông tin gì? thực trình truy xuất thông tin, phương pháp đánh giá Các bước thực trình truy xuất thông tin hiệu truy xuất thông tin so sánh số hệ thống truy xuất thông Các phương pháp đánh giá hiệu truy xuất tin giới So sánh số hệ thống truy xuất thông tin • Chương 2: trình bày công cụ truy xuất thông tin quan trọng lập mục xếp kết tìm kiếm • Chương 3: giới thiệu trình bày chế lập mục tìm kiếm thư viện mã nguồn mở Lucene • Chương 4: trình bày kiến trúc hoạt động chương trình kết thực nghiệm • Chương 5: kết luận hướng phát triển luận văn 1.1 Khái niệm truy xuất thông tin Thuật ngữ truy xuất thông tin (Information Retrieval – IR), phát biểu Rijsbergen [12] , thường định nghĩa cách rộng không chặt chẽ Do vậy, thường có nhập nhằng lĩnh vực truy xuất liệu (data retrieval), truy xuất tài liệu (document retrieval), truy xuất thông tin truy xuất văn (text retrieval) Một định nghĩa đủ, dễ hiểu, tránh nhầm lẫn đưa Lancaster [19] : Một hệ thống truy xuất thông tin không cho người dùng biết (ví dụ thay đổi tri thức người dùng) chủ đề mà họ yêu cầu Nó đơn cho biết tồn (hoặc không tồn tại) vị trí tài liệu có liên quan tới yêu cầu người dùng Trong thực tế nghiên cứu, định nghĩa truy xuất thông tin sau [7] : Truy xuất thông tin việc tìm kiếm tài liệu trạng thái phi cấu trúc (thường văn bản) thoả mãn nhu cầu thông tin từ tập hợp lớn (thường máy chủ cục mạng) Hành động xác định rõ cốt lõi IR Hàng ngày, có hàng trăm triệu người thực truy xuất thông tin họ sử dụng máy tìm kiếm web tìm kiếm hộp thư điện tử IR nhanh chóng trở thành hình thức truy nhập thông tin vượt trội, vượt qua dạng tìm kiếm kiểu sở liệu truyền thống IR lĩnh vực khoa học máy tính chuyên lý thuyết thực hành việc tìm kiếm thông tin Do văn phương tiện phổ biến sử dụng để Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 11 12 Truy xuất thông tin Truy xuất thông tin biểu diễn phân bố thông tin cách hiệu quả, hầu hết nghiên cứu IR tập trung vào việc tìm kiếm tập hợp tài liệu dạng văn Như hàm ý thuật ngữ IR, nhiệm vụ IR tìm kiếm thông tin thoả mãn nhu cầu thông tin người dùng Người sử dụng hệ thống IR quan tâm nhiều tới việc thu nhận thông tin chủ đề thu thập liệu phù hợp với câu truy vấn cho trước Trái lại, truy xuất liệu nhằm mục tiêu cung cấp tập hợp thông tin "vừa khít" với từ khoá câu truy vấn IR có lịch sử lâu dài giống lịch sử việc lưu trữ thông tin, vào khoảng 4000 năm Cùng với phát triển lượng thông tin lưu trữ, người phải phát triển ngày nhiều phương thức để tổ chức lượng thông tin để phục vụ cho việc truy xuất sau Quá trình phát triển tóm lược [14] Phương pháp hệ thống bảng chữ Các tài liệu cần xếp theo cách này, mà số lượng tác phẩm văn học Hy Lạp tăng lên buộc thủ thư thư viện Alexandria phải nghĩ cách tổ chức tác phẩm, vào kỷ thứ trước Công nguyên Mục lục ví dụ khác công cụ ban đầu IR, trở nên thiết yếu mà tác phẩm văn học gia tăng theo số lượng trang Một ví dụ khác IR thủa ban đầu mục (index) Danh mục mảnh giấy da dê nhỏ, chứa đầu đề (title) tác giả tác phẩm Trong khoảng 20 năm cuối kỷ 20, lĩnh vực IR phát triển tốt dựa mục đích lập mục văn tìm kiếm tài liệu có ích tập hợp Ngày nay, nghiên cứu IR bao gồm việc mô hình hóa, phân loại văn bản, kiến trúc hệ thống, giao diện người dùng, trực quan hóa liệu, lọc, ngôn ngữ… Một dạng IR ban đầu Memex mô tả Vanevar Bush Ngoài có kết Warren Weaver Warren Weaver tập trung vào việc xử lý ngôn ngữ, coi tảng IR Hơn nữa, phát triển IR đại củng cố phát triển Trí tuệ nhân tạo Trong chờ đợi, Trí tuệ nhân tạo sử dụng số phần IR Thuật ngữ IR Moer đặt vào năm 1952 Các hệ thống thương mại phát triển từ năm 1975 trở sau Chúng sử dụng chủ yếu thư viện Cuối cùng, kể từ năm 1993, IR phổ biến rộng rãi nhờ vào phát triển tầm quan trọng ngày lớn World Wide Web Sự phát triển World Wide Web dẫn đến gia tăng khổng lồ số lượng tài liệu, đòi hỏi phải có kỹ thuật IR hiệu Trước xuất World Wide Web, hầu hết hệ thống lưu trữ truy xuất thông tin sử dụng riêng người lập mục tìm kiếm chuyên nghiệp Thông thường, người tìm kiếm chuyên nghiệp hoạt động “phương tiện tìm kiếm trung gian” cho người dùng cuối khác hàng Họ cố gắng tìm hiểu đối thoại tương tác với hệ thống khách hàng xem nhu cầu khách hàng thông tin nên sử dụng để tìm kiếm thành công Những người dùng chuyên nghiệp khác với người dùng không chuyên họ biết tập hợp tài liệu, họ biết cách thức tài liệu biểu diễn hệ thống họ biết cách sử dụng toán tử tìm kiếm Boolean để giới hạn số lượng tài liệu thu thập Nhiều hệ thống IR đại thiết kế cho người dùng rõ tập hợp tài liệu, biểu diễn tài liệu cách sử dụng toán tử Boolean Những hệ thống cần đáp ứng yêu cầu sau Thứ nhất, người dùng nhập (các) câu, (các) cụm từ, (các) từ vào hệ thống mà không cần phải nhập toán tử Điều thường hiểu hệ thống IR toàn văn (full text), hệ thống tự động lập mục tất từ tài liệu Thứ hai, hệ thống xếp hạng tài liệu thu thập cách đánh giá mức độ khả có ích người dùng Thứ ba, hệ thống hỗ trợ việc tự động biến đổi câu lệnh tìm kiếm theo phản hồi người dùng Yêu cầu thứ ba không quan trọng hai yêu cầu Một hệ thống IR chương trình phần mềm lưu trữ quản lý thông tin tài liệu Hệ thống trợ giúp người dùng tìm kiếm thông tin họ cần Nó cho biết tồn vị trí tài liệu chứa thông tin Trần Thị Hoàng Thảo Trần Thị Hoàng Thảo Luận văn thạc sĩ Luận văn thạc sĩ 13 14 Truy xuất thông tin cần thiết Có thể số tài liệu đề xuất thoả mãn nhu cầu thông tin người dùng Những tài liệu gọi tài liệu có liên quan Một hệ thống IR hoàn hảo thu thập tài liệu có liên quan bỏ qua tài liệu không liên quan Tuy nhiên, tồn hệ thống câu lệnh tìm kiếm thường không đầy đủ độ liên quan (relevance) phụ thuộc vào ý kiến chủ quan người dùng Hai người dùng đưa truy vấn giống cho hệ thống IR lại có cách đánh giá độ liên quan khác tài liệu thu thập Hệ thống IR theo nghĩa đó, phải “thông dịch” nội dung phần tử thông tin (các tài liệu) tập hợp xếp hạng chúng theo mức độ liên quan tới câu truy vấn người dùng Việc “thông dịch” nội dung tài liệu bao gồm việc chắt lọc thông tin cú pháp ngữ nghĩa từ văn tài liệu sử dụng thông tin để đối sánh với yêu cầu thông tin người dùng Khó khăn không việc phải biết cách chắt lọc thông tin mà phải biết cách sử dụng để lựa chọn độ liên quan Do đó, quan điểm độ liên quan trọng tâm IR Thực tế, mục tiêu hệ thống IR Truy xuất thông tin Quá trình truy xuất thông tin diễn theo nhiều giai đoạn Hình 1-1 thể mô hình hệ thống truy xuất thông tin nói chung, đưa Baeza cộng [1] Trước bắt đầu trình thu thập, cần xác định sở liệu văn (text database): tập tài liệu sử dụng, thao tác thực văn mô hình văn (ví dụ cấu trúc văn phần tử thu thập) Các thao tác văn (text operation) biến đổi tài liệu ban đầu sinh khung nhìn lôgíc (logical view) chúng Tiếp theo trình xây dựng mục (indexing) cho văn nhằm tăng tốc độ truy nhập giai đoạn truy xuất Có nhiều loại cấu trúc mục phổ biến Inverted Files Khi tập tài liệu đánh mục, bắt đầu trình thu thập Đầu tiên, người sử dụng xác định yêu cầu (user need), yêu cầu phân tích (parse) biến đổi (transformed) thao tác xử lý thu thập tất tài liệu có liên quan tới truy vấn người dùng đồng thời thu thập tài liệu không liên quan [1] áp dụng văn Tiếp theo, thao tác truy vấn (query 1.2 Quá trình truy xuất thông tin xử lý (searching) để nhận tài liệu thu thập (retrieved documents) User Interface Text User Need User Feedback Query Text Operations Indexing Database Manager Searching Index feedback) Trong chu trình vậy, hệ thống sử dụng tài liệu chọn Ranking Retrieved Docs người dùng để cải thiện đổi công thức truy vấn Truy vấn biến đổi biểu diễn tốt nhu cầu thực người dùng Tóm lại, trình truy vấn, hệ thống IR chắt lọc phần thông Hình 1-1 Quy trình truy xuất thông tin nói chung (nguồn: [1] ) Trần Thị Hoàng Thảo được, người dùng đánh dấu tập tài liệu thực đáng quan tâm khởi đầu chu trình phản hồi người dùng (relevance Inverted file Text Database Ranked Docs Trước chuyển tới người dùng, tài liệu thu thập xếp hạng (ranking) theo mức độ liên quan (likelihood relevance) Khi nhận Logical View Query Operations operations) áp dụng để tạo nên truy vấn thật Sau đó, truy vấn Luận văn thạc sĩ tin đáp ứng nhu cầu thông tin phát biểu người dùng Trần Thị Hoàng Thảo Luận văn thạc sĩ 15 16 Truy xuất thông tin Truy xuất thông tin Quá trình thường chia thành hai giai đoạn, tiền xử lý (pre- từ (word), gốc từ (stem), cụm danh từ processing) thu thập (retrieval) Giai đoạn truy xuất lặp lặp lại cụm từ (phrase) Gốc từ từ rút gọn thành gốc sau loại người dùng muốn tinh chỉnh kết truy xuất bỏ phụ tố: ví dụ, ‘system2’ ‘component_123’ trở thành ‘system’ ‘component’ sau bước lấy gốc từ Giả thiết (đôi bị nghi ngờ) nằm 1.2.1 Giai đoạn tiền xử lý sau việc lấy gốc từ khác biệt đáng kể ý nghĩa từ có 1.2.1.1 Tiền xử lý tài liệu Trong giai đoạn tiền xử lý, hệ thống IR tạo biểu diễn bên thông tin tài liệu thông qua quy trình đánh mục Trước hết, tập tài liệu văn tiền xử lý số phương pháp thao tác văn tự động phân tích từ vựng (lexical analysis), loại bỏ từ dừng (stopword removing), lấy gốc từ (stemming) từ dạng văn đơn giản (plain text) tài liệu Kết nhận tập từ (term) hay hiểu khái niệm (concept), coi khung nhìn lôgíc (logical view [1] ) tài liệu chung gốc Một cụm từ chứa hai từ liên tiếp có nghĩa rõ ràng, ví dụ ‘office application’ ‘Hanoi University of Technology’ Nếu có thể, từ khóa (keyword) định cách thủ công, mô tả nội dung tài liệu dùng cho việc lập mục (ví dụ Google) Phân tích từ vựng Là trình biến đổi ký tự tài liệu thành tập từ đề cử để chọn làm từ mục cách xử lý chữ số, dấu nối, ký hiệu chấm câu chữ viết hoa viết thường CHAPTER PREAMBLE 1.1 Humanity stands at a defining moment history We are confronted with a perpetuation of disparities between and within nations, a worsening of poverty, hunger, ill health and illiteracy, and the continuing deterioration of the ecosystem on which we depend for out well-being Hình 1-3 Văn A ban đầu chapter preamble 1 humanity stands at a defining moment history we are confronted with a perpetuation of disparities between and within nations a worsening of poverty hunger ill health and illiteracy and the Hình 1-2 Khung nhìn lôgíc tài liệu thông qua giai đoạn tiền xử lý (nguồn: [1] ) Hình 1-4 Văn A sau phân tích Trong luận văn này, dùng thuật ngữ tiếng Anh “term” để Bước lọc ký tự không mong muốn ký hiệu (các thẻ nói tới “từ” nhằm phân biệt với thuật ngữ khác Một term HTML, dấu chấm câu, số…) Tiếp theo, văn cần chia thành Trần Thị Hoàng Thảo Trần Thị Hoàng Thảo Luận văn thạc sĩ Luận văn thạc sĩ 17 18 Truy xuất thông tin Truy xuất thông tin thẻ (token, gọi từ khóa) sử dụng khoảng trắng phân tách ký thực sau ta lập mục song toàn tài liệu bảng tự kết thúc câu Việc không đơn giản từ văn không mục lưu đệm nhớ Khi ta thực phải lúc phân tách rõ ràng (ví dụ, văn I can’t go việc duyệt bảng băm để tìm từ dừng, thêm chúng vào xem dấu nháy dấu phân tách từ để có hai từ can t, có danh sách danh sách từ dừng loại phần tử chứa từ khỏi bảng thể không coi dấu phân tách xem từ can’t, mở băm rộng dạng liên kết thành hai từ can not sử dụng khoảng trắng để phân tách Lấy gốc từ Lấy gốc từ trình thu gọn từ dạng ngữ pháp gốc Nhằm xác định nhóm từ có chung ngữ nghĩa cho người dùng Loại bỏ từ dừng Việc loại bỏ từ dừng có ý nghĩa làm giảm kích cỡ cấu trúc mục Đây bước tiền xử lý nhằm loại bỏ từ có tần suất xuất cao hầu hết tài liệu mà lại không mang nội dung có ý nghĩa Những từ gọi từ dừng (stopword), bao gồm mạo từ, giới từ, liên từ, chẳng hạn a, the It, of, could… Một ví dụ danh sách từ dừng tiếng Anh có tại: http://www.lextek.com/manuals/onix/stopwords1.html xác định cụ thể truy vấn Ví dụ: computes, computing, computer có gốc comput chapter preambl 1 human stand defin moment histori confront perpetu dispar nation worsen poverti hunger ill health and illiteraci continu deterior ecosystem depend well be Hình 1-6 Văn A sau lấy gốc từ Việc lấy gốc từ trước xây dựng mục có ưu điểm làm giảm chapter preamble 1 humanity stands defining moment history confronted perpetuation disparities nations worsening poverty hunger ill health illiteracy continuing deterioration ecosystem depend well being kích thước mục cho phép truy xuất tài liệu với nhiều dạng biến tố Hình 1-5 Văn A sau loại từ danh sách stopword Smart tài liệu có chứa từ computations computing ) Một phương pháp lấy Quá trình loại bỏ từ dừng chia thành hai loại : • gốc từ nhanh phổ biến giải thuật Porter (1980), giải thuật áp Từ cần loại bỏ nằm danh sách từ dừng, trình thực phần nhận dạng từ, có nghĩa từ • từ (ví dụ, tìm kiếm với từ computation, kết bao gồm dụng tập quy tắc hậu tố từ nhằm loại bỏ Như vậy, giai đoạn tiền xử lý tài liệu tập trung vào việc chắt lọc tập qua nhận dạng từ chúng không lập mục khái niệm mô tả cho tài liệu Các khái niệm thường gán trọng số Từ cần loại bỏ không nằm danh sách từ dừng xảy riêng, thể độ liên quan chúng chủ đề tài liệu Thông thường xuyên tập tài liệu ta (từ thường xuyên thường, term xuất nhiều lần tài liệu xuất có nghĩa xuất vượt ngưỡng qui định ta, ví dụ tài liệu khác tập hợp ký hiệu mô tả tốt có mặt 80% số lượng File, 200 file), trình cho tài liệu Những tiêu chí khác vị trí từ khóa, phần lôgíc mà Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 19 20 Truy xuất thông tin Truy xuất thông tin từ chắt lọc độ dài tài liệu dùng để tính 1.2.2 Giai đoạn thu thập toán trọng số khái niệm liên quan tài liệu 1.2.2.1 Xử lý truy vấn Nhu cầu thông tin người dùng phát biểu yêu cầu 1.2.1.2 Lập mục Bước lập mục sử dụng term mô tả khung nhìn lôgíc tài (request), đầu vào hệ thống IR Một yêu cầu viết dạng liệu để xây dựng mục Như nêu, cấu trúc mục phổ biến ngôn ngữ tự nhiên, tập từ khóa với từ vựng giới hạn, Inverted Files, tập tài liệu biến đổi thành tập term kèm phát biểu với toán tử Boolean Bước lấy yêu cầu bước quan trọng theo danh sách tương ứng tài liệu mà chúng xuất Trong trình truy xuất Hệ thống IR có cách biểu diễn bên riêng Inverted File, term trỏ tới danh sách tất tài liệu mà xuất yêu cầu Cấu trúc mục đóng vai trò quan trọng "cho phép Ở bước đầu giai đoạn truy xuất, hệ thống IR thực thao tác xử lý truy vấn người dùng tương tự tài liệu tìm kiếm nhanh tập liệu lớn" [1] Quy trình thực thủ công (đòi hỏi sức người nên ban đầu trình tiền xử lý Các thao tác xử lý văn tốn kém) tự động cách tách term từ văn phần tử phương thức dùng để biểu diễn nhu cầu người dùng, thông tin, sử dụng thủ tục dựa thông kê ngôn ngữ điểm khác biệt chủ yếu truy xuất thông tin với truy xuất liệu Một số term biểu diễn tốt chủ đề tài liệu Do đó, (trong truy xuất liệu thao tác xử lý lôgíc truy vấn ban đầu term gán trọng số thể tầm quan trọng tài trước thực tìm kiếm) Kết nhận danh sách từ, liệu Như vậy, cấu trúc mục bao gồm tập term xử lý, kèm biểu diễn bên nhu cầu thông tin người dùng theo danh sách tài liệu chứa chúng trọng số chúng Trọng số term tài liệu đơn giản số lần xuất 1.2.2.2 Tìm kiếm Trong giai đoạn tìm kiếm, term thu từ thao tác xử lý văn chúng tài liệu Tần số lớn tầm quan trọng lớn Điều dùng để xác định, thông qua tập mục, danh sách tài liệu mà gọi gán trọng số theo tần số từ (term frequency weighting – tf) xuất Nếu có nhiều từ xuất truy vấn bước tìm Số lượng tài liệu mà term xuất sử dụng kiếm trả hợp tài liệu thu thập theo tất từ làm yếu tố việc gán trọng số Một term xuất nhiều tài số từ, tùy theo kiểu truy vấn Tóm lại, tìm kiếm trình đối sánh liệu khả phân biệt tài liệu Điều (matching) term tài liệu với term truy vấn gọi tần số tài liệu đảo ngược (inverse document frequency – idf) Lược đồ Cụ thể, hệ thống IR thực đối sánh truy vấn với biểu diễn gán trọng số tf-idf sử dụng phổ biến hệ thống truy xuất văn tài liệu để đánh giá độ liên quan với nhu cầu thông tin Kết đối sánh phù hợp tuyệt đối phần, tính không rõ ràng vốn có trình truy xuất nên phù hợp phần ngày ưa Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 75 76 Truy xuất thông tin Truy xuất thông tin Một phân đoạn Lucene gồm số tệp: thêm vào dạng trường UnIndexed, lưu trữ • Một mục từ điển chứa mục cho 100 mục từ điển coi term Đối với term tệp tis, tệp frq chứa mục • Một từ điển chứa mục cho từ cho tài liệu có chứa term • Một tệp posting chứa mục cho posting Vì Lucene không cập nhật “tại chỗ” phân đoạn nên phân đoạn lưu tệp flat đơn giản thay cấu trúc B-trees phức tạp Hình 3-4 biểu diễn phần mục ví dụ Phần phân đoạn (trong trường hợp có mục tối ưu hoá với phân đoạn nhất) Một phân đoạn đặt tiền tố tên tệp 3.2.3.1 Tên trường (.fnm) Tệp fnm bao gồm tất tên trường sử dụng tài liệu phân đoạn Mỗi trường đánh dấu để thể thuộc tính Thứ tự tên trường tệp fnm xác định trình lập mục không cần thiết phải theo thứ tự abc Vị trí trường tệp fnm sử dụng để kết hợp với tệp chuẩn hoá (các 3.2.3.3 Tần số term Các tần số term tài liệu liệt kê tệp frq Tần số term tài liệu dùng làm thừa số để tính xếp hạng thường tăng độ liên quan tài liệu có tần số cao Đối với tài liệu liệt kê tệp frq, tệp vị trí (.prx) chứa mục cho thể từ tài liệu 3.2.3.4 Vị trí term Tệp prx liệt kê vị trí term tài liệu Thông tin vị trí sử dụng truy vấn cần tới, chẳng hạn truy vấn cụm từ Thông tin vị trí trường tách lấy trực tiếp từ giá trị vị trí term tăng dần định trình phân tích văn Rõ ràng, cấu trúc mục Lucene đáp ứng hai yêu cầu: tối đa hiệu tệp với hậu tố f[0-9]*) Trong ví dụ này, có trường subject véctơ suất tối thiểu tài nguyên cần sử dụng Thật vậy, trường không hoá Trường url thêm vào trường Field.UnIndexed , lập mục nhanh chóng loại bỏ hoàn toàn khỏi truy không lập mục mà không véctơ hoá vấn dựa cờ indexed tệp fnm Tệp tii, lưu RAM, cho 3.2.3.2 Từ điển term (.tis) Tất term (các gồm tên trường giá trị) phân đoạn phép truy xuất ngẫu nhiên vào tệp từ điển term tis Các truy vấn cụm từ không cần phải tìm thông tin vị trí term không xuất Việc tổ lưu trữ tệp tis Các term xếp trước hết theo thứ tự abc chức thông tin hợp lý tối quan trọng việc tối thiểu hoá số lần truy nhập tên trường theo giá trị trường Mỗi mục term có chứa tần tệp trình tìm kiếm vấn đề định Đó số ví dụ thể số tài liệu (document frequency) nó: số tài liệu chứa term ưu điểm cách thiết kế cấu trúc mục Lucene phân đoạn Hình 3-4 minh hoạ phần term mục, term ứng với trường Chú ý trường url bỏ qua Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 77 78 Truy xuất thông tin Truy xuất thông tin 3.2.4 Chiến lược lập mục Chiến lược lập mục Lucene gồm hai thuật toán bản: Lập mục cho tài liệu Kết hợp tập mục Giải thuật lập mục tăng dần: o Duy trì ngăn xếp cho mục phân đoạn o Lập mục cho tài liệu đầu vào o Đưa mục vào ngăn xếp o Đặt M = 10 thừa số kết hợp; K = vô for (size = 1; size < K; size *= M) { if (có M mục với size tài liệu nằm đỉnh ngăn xếp) { pop chúng khỏi ngăn xếp Như trình bày mục 2.2.3, mô hình không gian véctơ biểu push mục kết hợp vào ngăn xếp; diễn tập tài liệu dạng véctơ không gian véctơ Cách } else { biểu diễn trọng tâm thao tác truy xuất thông tin, đặc biệt việc break;} xếp hạng độ liên quan tài liệu truy vấn Bước then chốt } Sự tối ưu: mục đơn tài liệu lưu giữ RAM nên tiết kiệm lời gọi hệ thống Ví dụ sơ đồ lập mục: M=3 • 11 tài liệu lập mục • Ngăn xếp có mục • Những mục tô mầu xám bị xoá • Đã có phép kết hợp Trần Thị Hoàng Thảo 3.3 Tìm kiếm 3.3.1 Mô hình không gian véctơ merge chúng thành mục nhất; • Hình 3-5 Một sơ đồ lập mục Lucene hướng tiếp cận việc xem truy vấn véctơ không gian véctơ tập tài liệu 3.3.1.1 Tích r Ký hiệu V (d ) véctơ xuất phát từ tài liệu d Giả sử phần tử tính lược đồ gán trọng số tf-idf Tập tài liệu tập hợp chuyển thành không gian véctơ mà chiều trục ứng với term Cách biểu diễn thứ tự term tài liệu Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 79 80 Truy xuất thông tin Truy xuất thông tin Có thể coi công thức 3-2 tích phiên chuẩn hoá r r hai véctơ tài liệu Xét tập n véctơ chuẩn hoá v (d1 ) , , v (d n ) biểu diễn tài liệu tập hợp Với tài liệu d (một tài liệu di tập hợp), xét việc tìm kiếm tập hợp tài liệu giống d Việc tìm kiếm có ích hệ thống mà người dùng xác định tài liệu tìm kiếm tài liệu khác giống với Vấn đề tìm kiếm tài liệu giống d trở thành việc tìm di có tích r r (giá trị sim) v (d ) ⋅ v (d i ) lớn Điều tất nhiên thực cạc r r r tính tích trọng v (d ) với v (d1 ) , …, v (d n ) , chọn Hình 3-6 Minh họa độ tương tự côsin véctơ có giá trị sim lớn Để định lượng độ tương tự hai tài liệu không gian véctơ này, Một tập hợp n tài liệu xem tập hợp véctơ, điều xét độ lớn hiệu véctơ hai véctơ Phép đo có hai nhược dẫn tới cách nhìn tập hợp ma trận term-tài liệu: ma trận m điểm: hai tài liệu có phân bố term giống có hiệu véctơ lớn x n mà hàng biểu diễn m term (các chiều) n cột, cột ứng đáng kể véctơ lớn nhiều so với véctơ lại Vì vậy, với tài liệu phân bố liên quan term giống hai tài liệu tần số term thực véctơ thứ lớn nhiều Đề bù lại tác động độ dài tài liệu, phương pháp chuẩn để định lượng độ tương tự hai tài liệu d1 d2 tính độ tương tự côsin r r biểu diễn véctơ tương ứng chúng V (d1 ) V (d ) : r r V (d ) ⋅ V (d ) 3-1 sim(d1 , d ) = r r V ( d1 ) V ( d ) r v (q ) , có số chiều với số m term phân biệt lập mục Ý tưởng r v(q ) ⋅ v (d ) r r V (d ) , tử số tích độ dài hai véctơ Vai trò tử số để chuẩn r truy vấn véctơ Xét truy vấn q, biểu diễn q dạng véctơ đơn vị then chốt : gán cho tài liệu d giá trị với tích trong: đó, tử số biểu diễn tích (còn gọi tích chấm) véctơ V (d1 ) r 3.3.1.2 Biểu diễn truy vấn Lý để biểu diễn tài liệu dạng véctơ ý tưởng coi r r r Như vậy, cách xem truy vấn “túi từ”, coi truy vấn tài liệu ngắn Nhờ vậy, sử dụng độ tương tự côsin véctơ truy vấn với véctơ tài liệu làm độ đo độ liên quan tài liệu với hoá véctơ V (d1 ) V (d ) thành véctơ đơn vị v (d1 ) = V (d1 ) V (d1 ) truy vấn Tiếp theo, giá trị độ liên quan dùng để chọn r r r v (d ) = V (d ) V (d ) Có thể viết lại công thức 3-1 sau: tài liệu có độ liên quan cao truy vấn 3-2 Trần Thị Hoàng Thảo r r sim(d , d ) = v (d1 ) ⋅ v (d ) Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 81 82 Truy xuất thông tin 3.3.2 Xếp hạng điểm xếp hạng tổng thể cao Công thức mặc định để tính Mô hình truy xuất Lucene biến đổi dựa mô hình không gian véctơ Thực chất, kết hợp mô hình không gian véctơ mô hình Boolean nhằm xác định độ liên quan tài liệu truy vấn Ý tưởng đằng sau VSM term truy vấn xuất nhiều lần idf(t)là (với numDocs số lượng tài liệu có tập hợp): 3-5 truy vấn q tìm thấy tài liệu cụ thể d Thông thường, so với tài liệu khác có chứa term Thừa số tính dụng mô hình Boolean nhằm trước hết thu hẹp số lượng tài liệu cần xếp hạng sung số khả tinh lọc mô hình để hỗ trợ tìm kiếm numDocs ) docFreq + tài liệu chứa nhiều term truy vấn nhận điểm cao tập hợp tài liệu có độ liên quan cao với truy vấn Lucence sử dựa vào việc sử dụng lôgíc boolean đặc tả truy vấn Lucene bổ idf (t ) = + log( coord(q,d)là thừa số tính điểm xếp hạng dựa số lượng term tài liệu, cân số lần term xuất tất tài liệu thực việc tìm kiếm queryNorm(q) thừa số chuẩn hoá sử dụng để làm cho điểm xếp hạng ứng với truy vấn q khác (hoặc chí ứng mờ tìm kiếm boolean, chất hệ thống dựa với mục khác nhau) so sánh Thừa số không tác mô hình không gian véctơ động tới việc xếp hạng tài liệu (vì tất tài liệu xếp hạng Thật vậy, độ tương tự truy vấn q tài liệu d tương quan với nhân với thừa số) Thừa số tính thực khoảng cách côsin hay tích chấm véctơ tài liệu véctơ truy vấn việc tìm kiếm Công thức tính mặc định là: mô hình không gian véctơ Một tài liệu có véctơ gần với véctơ truy vấn mô hình VSM xếp hạng cao Độ tương tự tính theo công thức 3-3: 3-6 queryNorm(q ) = queryNorm( ∑ (idf (t ) * getBoost (t q)) ) t q t.getBoost()là giá trị tăng mức độ quan trọng (boost) thời điểm 3-3 score(q, d ) = coord (q, d ) * queryNorm(q ) * Truy xuất thông tin ∑ (tf (t d ) * idf (t ) * t.getBoost () * norm(t , d )) t q tìm kiếm term t truy vấn q norm(t,d) bao gồm số thừa số tăng mức độ quan trọng độ dài tính vào thời gian tìm kiếm: đó: tf(t d)tương quan với tần số term (f), định nghĩa số lần term t xuất tài liệu xét d Những tài liệu có nhiều thể term nhận điểm xếp hạng cao • Thừa số tăng mức độ quan trọng tài liệu doc: thiết lập trước thêm tài liệu vào mục • Thừa số tăng mức độ quan trọng trường f: thiết lập trước thêm trường vào tài liệu Công thức mặc định để tính tf(t d) là: tf (t d ) = f 3-4 idf(t)tương quan với nghịch đảo docFreq (số tài liệu mà • lengthNorm(field) tính tài liệu thêm vào mục, phù hợp với số lượng token trường tài term t xuất hiện) Nghĩa term xuất Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 83 Truy xuất thông tin liệu Do đó, trường ngắn làm tăng điểm xếp phù hợp với mệnh đề lại, cho phép thừa số Boost phân biệt hạng truy vấn với Các truy vấn mặc định có thừa số Boost 1.0 Khi tài liệu bổ sung vào mục tất thừa số nhân với Nếu tài liệu d có nhiều trường f trùng tên tất giá trị tăng mức độ quan trọng chúng nhân với nhau: 3-7 84 Truy xuất thông tin norm(t , d ) = doc.getBoost () * lengthNorm( field ) * ∏ f getBoost () f d Tuy nhiên, giá trị norm mã hoá thành byte trước lưu Vào thời gian tìm kiếm, giá trị byte đọc từ thư mục 3.4 Kết chương Trong chương này, trình bày cấu trúc mục mô hình truy xuất dựa mô hình không gian véctơ thư viện mã nguồn mở Lucene Qua phân tích cho thấy, sở lý thuyết kỹ thuật cài đặt Lucene mang lại hiệu truy xuất cao Do đó, tiến hành cài đặt thử nghiệm chương trình truy xuất thông tin dựa thư viện mã nguồn mở mục giải mã trở lại thành giá trị norm Việc mã hoá/giải mã này, làm giảm kích thước mục lại làm giảm độ xác, đảm bảo giải mã(mã hoá(x)) = x Chẳng hạn giải mã(mã hoá(0.89)) = 0.75 Các thừa số tăng mức độ quan trọng đưa vào phương trình phép điều chỉnh ảnh hưởng truy vấn trường tới độ tương tự Các thừa số tăng mức độ quan trọng trường xuất tường minh phương trình dạng thừa số getBoost(t.field d) thiết lập trình lập mục Giá trị mặc định thừa số tăng mức độ quan trọng trường , mặt lôgíc, 1.0 Ngoài thừa số thể tường minh phương trình, thừa số khác tính sở truy vấn thành phần thừa số queryNorm Bản thân truy vấn có ảnh hưởng tới độ tương tự tài liệu Tăng tầm quan trọng thể Query có ích truy vấn nhiều mệnh đề; có term dùng để tìm kiếm việc tăng tầm quan trọng tăng độ liên quan tất tài liệu có liên quan theo tỷ lệ ngang Trong truy vấn boolean nhiều mệnh đề, số tài liệu phù hợp với mệnh đề không Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 85 86 Truy xuất thông tin Truy xuất thông tin CHƯƠNG CHƯƠNG TRÌNH VÀ KẾT QUẢ THỰC (cụ thể C:\Test Data) Các tài liệu từ thư mục chuyển vào NGHIỆM Hàng đợi lập mục (theo nguyên tắc vào trước trước – FIFO) Các tài Trong chương trình bày kiến trúc hoạt động chương trình truy xuất thông tin số kết thực nghiệm liệu hàng đợi xử lý Môđun lập mục Chỉ mục lưu thư mục chọn (ở C:\TestIndex) Đối với tài liệu lập mục, siêu liệu sau lưu: 4.1 Kiến trúc hoạt động chương trình Chúng xây dựng thử nghiệm chương trình cho phép tìm kiếm tài liệu chứa máy tính Các mô đun hệ thống xây dựng • name: tên tệp tài liệu, ví dụ software.doc • fullname: đường dẫn, ví dụ c:\Test Data\English\Chap1.pdf • parent: tất thư mục cha, lưu thành nhiều trường, ví dụ ngôn ngữ C# dựa thư viện mã nguồn mở Lucene.Net 1.3 Chương trình xây dựng theo kiến trúc Client/Server (Hình 4-1) Trong phía Server làm nhiệm vụ lập mục cho tài liệu nằm thư mục có máy tính Phía Client cho phép nhập truy vấn thực tìm kiếm theo mục Server tạo Server lập mục Hệ thống tệp Client tìm kiếm c:\Test Data, c:\Test Data\English • created: thời gian tạo • modified: thời gian thay đổi gần • lenght: độ dài tệp tài liệu • extension: phần mở rộng tệp, ví dụ ppt • body: phần nội dung tệp liệu • Microsoft Word • Microsoft Excel Môđun lập mục xử lý tài liệu có định dạng sau: Tài liệu xử lý Môđun lập mục cập nhật tìm kiếm C:\TestIndex Hàng đợi lập mục (FIFO) Tài liệu Tài liệu Chỉ mục DotLucene thêm Bộ theo dõi hệ thống tệp thay đổi • Microsoft PowerPoint Thư mục tài liệu lập mục • HTML • TXT C:\Test Data • Adobe Acrobat (cần cài đặt thêm IFilter Adobe) Cấu trúc mục cài đặt chương trình cấu trúc mục Hình 4-1 Kiến trúc hoạt động chương trình Phần Server lập mục xây dựng dạng dịch vụ hệ điều hành Windows (Windows service) Bộ theo dõi hệ thống tệp làm nhiệm ghép Do đó, thư mục mục bao gồm tệp: • _dja.cfs: chứa toàn nội dung mục • deletable: chứa thông tin tệp bị đánh dấu xoá bỏ • segments: chứa thông tin phân đoạn vụ theo dõi biến đổi thư mục tài liệu chọn để lập mục Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 87 88 Truy xuất thông tin Truy xuất thông tin Phần Client tìm kiếm xây dựng dạng giao diện Web Khi nhận Chúng thực thử nghiệm chương trình với nhiều loại truy vấn truy vấn, Môđun tìm kiếm phân tích cú pháp truy vấn, thực tìm khác Chúng thử nghiệm truy vấn với Google Desktop kiếm trả danh sách tài liệu theo thứ tự giảm dần độ liên quan 4.0 điều kiện phần cứng Google Desktop sản phẩm truy vấn Google dùng để tìm kiếm tài liệu máy tính Do đó, chắn Google Desktop có kế thừa mô hình thuật toán máy tìm kiếm tiếng Google Như trình bày mục 1.5 , Google Desktop sáu phần mềm tìm kiếm máy tính tốt Do vậy, chọn Google Desktop làm sở để so sánh hoạt động chương trình Chúng tiến hành thử nghiệm máy tính có cấu sau: • Bộ xử lý: Intel Pentium M – 1.86 Ghz, 800 MHz • Bộ nhớ Ram: 512 MB • Bộ nhớ ảo : 2GB Ở bước lập mục, thực nghiệm cho thấy Google Desktop chiếm phần lớn tài nguyên hệ thống lập mục Trong đó, môđun lập mục chương trình cài đặt dạng dịch vụ Windows, trình lập mục không chiếm nhiều tài nguyên chạy ứng dụng khác máy Bảng 4-1 thể so sánh kết lập mục chương trình Google Desktop Bảng 4-1 So sánh kết lập mục chương trình Google Desktop Tiêu chí Hình 4-2 Phần client thực tìm kiếm Thời gian lập mục giờ, 35 phút 34 giây 4.2 Kết thực nghiệm Chúng sử dụng liệu thử nghiệm gồm 8.383 tệp tài liệu mang Kích thước mục nội dung tiếng Anh chứa 339 thư mục Các tài liệu định dạng TXT, HTML, DOC, PPT, XLS PDF Các tệp tài liệu có độ lớn khác Mức độ sử dụng tài Kích thước liệu 1.75GB nguyên hệ thống Trần Thị Hoàng Thảo Chương trình Luận văn thạc sĩ Trần Thị Hoàng Thảo Google Desktop giờ, 26 phút, 26 giây 198MB tương đương 447MB tương đương 11.31% kích thước 25.54% kích thước liệu liệu Thấp Cao Luận văn thạc sĩ 89 90 Truy xuất thông tin Từ thực nghiệm, kết luận chương trình lập mục với tốc độ chậm Google Desktop Tuy nhiên, kích thước mục chương trình nhỏ nhiều so với Google Desktop trình lập mục chương trình chiếm tài nguyên hệ thống so với Google Desktop Điều quan trọng môđun lập mục chạy phần hệ điều Trong biểu đồ (Hình 4-3), trục hoành biểu diễn truy vấn theo thứ tự từ đến 21, trục tung biểu diễn hiệu R-Precision chương trình so với Google Desktop truy vấn Sự phân bổ loại truy vấn dùng để thử nghiệm thể Bảng 4-2 Bảng 4-2 Các loại truy vấn thử nghiệm hành để cập nhật lại mục có biến đổi liệu Trong đó, Google Desktop có chế tương tự chiếm nhiều tài Truy vấn 1-3 nguyên hệ thống Kiểu truy vấn Truy vấn từ khoá 4-10 Truy vấn cụm từ Tìm kiếm tài liệu có chứa cụm từ giá kết thử nghiệm Độ xác kết trả kiểm tra thủ công Dựa vào giá trị R-Precision cho truy vấn chương trình Ý nghĩa Tìm kiếm tài liệu có chứa từ khoá Ở bước tìm kiếm, thử nghiệm với nhiều câu truy vấn thuộc nhiều loại Chúng sử dụng độ đo R-Precision (với giá trị R = 10) để đánh Truy xuất thông tin 11-13 Truy vấn với toán tử OR Tìm kiếm tài liệu chứa từ khoá Google Desktop, vẽ biểu đồ độ xác (Hình 4-3) để so truy vấn sánh khả truy vấn chương trình với Google Desktop 14-17 Truy vấn với toán tử AND Tìm kiếm tài liệu có chứa Hiệu R-Precision chương trình Google Desktop tất từ khoá truy vấn 0.60 18-20 Hiệu R-Precision 0.50 Truy vấn với toán tử NOT Tìm kiếm tài liệu có chứa 0.40 số từ khoá không 0.30 số từ khoá khác truy vấn 21 0.20 Truy vấn theo nhóm Tìm kiếm tài liệu thoả mãn điều kiện nhóm từ khoá 0.10 truy vấn 0.00 10 11 12 13 14 15 16 17 18 19 20 21 -0.10 Từ biểu đồ (Hình 4-3), rút nhận xét sau (tóm tắt -0.20 Bảng 4-3): -0.30 Truy vấn Hình 4-3 Biểu đồ độ xác chương trình Google Desktop Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 91 92 Truy xuất thông tin • Với truy vấn kiểu từ khoá, chương trình Google Desktop 17 cho kết tương đương truy vấn số 3, Google 18 Desktop đưa kết tốt chút truy vấn số • Với truy vấn cụm từ, chương trình Google Desktop cho kết Truy vấn với toán tử NOT 19 Truy xuất thông tin x x x 20 x tương đương truy vấn số 7, 10, chương trình cho kết Truy vấn tốt nhiều truy vấn số 5, Google Desktop cho kết tốt theo nhóm chút truy vấn số 4, • Với truy vấn với toán tử OR, chương trình Google Desktop cho Bảng 4-3 So sánh hiệu truy vấn chương trình Google Desktop Kiểu truy Truy vấn vấn Truy vấn từ khoá Tốt Chương trình toán tử OR cho hiệu truy xuất tương đương truy vấn số 14 16, x x Desktop cho hiệu cao truy vấn số 17 • Với truy vấn với toán tử NOT, chương trình Google Desktop x cho hiệu truy xuất tương đương truy vấn số 18 20, x chương trình cho kết tốt nhiều truy vấn số 19 x x x Truy vấn với • Với truy vấn với toán tử AND, chương trình Google Desktop chương trình cho kết truy xuất tốt truy vấn số 15, Google cụm từ cho kết tốt truy vấn số 12 13 x Truy vấn đương x hiệu truy xuất tương đương truy vấn số 11, chương trình Tương Google Desktop 21 x x 11 x 12 x 13 x 14 toán tử AND 15 16 Trần Thị Hoàng Thảo Google Desktop Qua kiểm tra thủ công, nhận thấy thứ tự xếp tập kết 10 Truy vấn với • Với truy vấn dạng nhóm số 21, chương trình cho kết tốt so với tìm kiếm chương trình xác so với thứ tự xếp Google Desktop Ngoài ra, chương trình có khả thực truy vấn Google Desktop không hỗ trợ truy vấn theo kí tự đại diện, truy vấn có tính đến khoảng cách từ khoá, truy vấn có tính đến trọng số từ x x x Luận văn thạc sĩ khoá Chúng xây dựng biểu đồ độ xác R-Precision (với R = 10) chương trình (Hình 4-4) Biểu đồ cho thấy hiệu truy xuất tốt chương trình, chương trình có độ xác R-Precision = với 10/21 Trần Thị Hoàng Thảo Luận văn thạc sĩ 93 94 Truy xuất thông tin truy vấn Với truy vấn lại, chương trình cho độ xác cao, thấp 0.5 cao 0.9 Truy xuất thông tin Dựa vào số liệu thời gian thực hiện, xây dựng biểu đồ so sánh thời gian thực chương trình Google Desktop so với truy vấn (Hình 4-5) Biểu đồ cho thấy thời gian thực chương trình thường tương đương với thời gian thực Google Desktop Trong số truy Độ xác R-Precision chương trình vấn thời gian thực chương trình chậm Google Desktop 1.20 Ngược lại, số truy vấn khác chương trình lại đưa kết 1.00 Độ xác R-Precision nhanh so với Google Desktop Qua phân tích kết thực nghiệm, khẳng định chế 0.80 lập mục chương trình tốt Google Desktop xét theo khía cạnh kích 0.60 thước mục mức độ sử dụng tài nguyên hệ thống trình lập mục Về hiệu truy vấn, chương trình tương đương với Google Desktop 0.40 tốc độ tìm kiếm độ xác R-Precision (xét với R = 10) kết 0.20 trả Hơn nữa, thứ tự xếp kết trả chương trình xác so với thứ tự mà Google Desktop đưa Điều chứng tỏ tính hiệu 0.00 10 11 12 13 14 15 16 17 18 19 20 21 Truy vấn véctơ thư viện mã nguồn mở IR Lucene Hình 4-4 Biểu đồ R-Precision chương trình (R = 10) Thời gian thực chương trình cấu trúc mục mô hình xuất thông tin dựa mô hình không gian 4.3 Kết chương Thời gian thực Google 1.4 Trong chương này, trình bày số kết thực nghiệm 1.2 chương trình truy xuất thông tin xây dựng dựa thư viện mã nguồn Thời gian (giây) mở Lucene Kết thực nghiệm cho thấy cấu trúc mục ghép Lucene 0.8 mang lại hiệu đáng kể việc tìm kiếm Đồng thời, từ kết 0.6 0.4 thực nghiệm, nhận xét mô hình truy xuất thông tin dựa mô 0.2 hình không gian véctơ Lucene mang lại tính xác cao tập kết 10 11 12 13 14 15 16 17 18 19 20 21 tìm kiếm Truy vấn Hình 4-5 Biểu đồ so sánh thời gian thực chương trình với Google Desktop Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 95 96 Truy xuất thông tin Truy xuất thông tin CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA nhiều so với Google Desktop chiếm tài nguyên hệ thống LUẬN VĂN trình lập mục Tốc độ tìm kiếm độ xác R-Precsion (với R = 10) chương trình tương đương với Google Desktop Thứ tự tập kết trả 5.1 Kết luận chương trình xác so với thứ tự tập kết mà Google Trong luận văn, trình bày bước cần thực để xây dựng hệ thống truy xuất thông tin; nghiên cứu so sánh kỹ thuật Desktop trả Xét cách tổng thể phạm vi thử nghiệm luận văn chương trình có hiệu hoạt động cao Google Desktop lập mục mô hình truy xuất thông tin; trình bày chế lập mục Inverted Files mô hình truy xuất thông tin dựa mô hình không gian véctơ thư viện mã nguồn mở Lucene; xây dựng chương trình tìm kiếm 5.2 Hướng phát triển luận văn Hoàn thiện chương trình tìm kiếm thông tin chương để sử dụng thực tiễn tìm kiếm thông tin desktop, tìm kiếm thông thông tin dựa Lucene Cụ thể: Chúng trình bày bước trình truy xuất thông tin, bao tin mạng intranet, tìm kiếm thông tin web gồm hai giai đoạn tiền xử lý tài liệu thu thập thông tin Chúng Hiện tại, luận văn dừng lại việc tìm kiếm thông tin tập tài trình bày phương pháp đánh giá hiệu truy xuất theo hai hướng liệu mang nội dung tiếng Anh Bởi vậy, hướng phát triển tiếp cận hướng mô hình tiếp cận đánh giá lấy người dùng làm luận văn nghiên cứu kỹ thuật mở rộng chương trình để tìm kiếm trung tâm tài liệu mang nội dung tiếng Việt Tiếng Việt có đặc điểm riêng cấu Chúng trình bày so sánh hai cấu trúc mục Signature tạo từ, cấu trúc ngữ pháp Vì cần có cải tiến việc phân tích từ Files Inverted Files Chúng so sánh hướng tiếp cận truy xuất vựng Chúng đề xuất hướng nghiên cứu dựa KStemmer (còn gọi thông tin mô hình lôgíc, mô hình đại số mô hình xác suất Krovetz Stemmer) để giải vấn đề Chúng tập trung nghiên cứu chế lập mục tìm kiếm thư viện Kstemmer giải thuật lấy gốc từ phát triển Bob Krovetz, trường đại học University of Massachusetts, năm 1993 Giải thuật sử mã nguồn mở IR Lucene Cuối cùng, xây dựng chương trình thử nghiệm dựa dụng hình thái học ngôn ngữ biến tố (inflectional linguistic morphology) Lucene để kiểm nghiệm đánh giá hiệu cấu trúc mục Inverted Hình thái học biến tố mô tả biến đổi dự đoán từ Files mô hình không gian véctơ Lucene Chúng thực thử diễn cú pháp (hình thức số nhiều sở hữu danh từ, hình thức nghiệm chương trình nhiều lần với nhiều truy vấn khác Đồng thời khứ tiếp diễn động từ trường hợp thường gặp tiếng dùng Google Desktop để thử nghiệm với truy vấn Anh) Kstemmer loại bỏ cách hiệu xác hậu tố theo ba điều kiện Kết thử nghiệm cho thấy chương trình có tốc độ lập bước : biến đổi dạng số nhiều thành dạng số ít, biến đổi khứ mục chậm Google Desktop kích thước thư mục mục nhỏ thành tại, loại bỏ dạng đuôi ‘ing’ Quá trình biến đổi trước hết loại bỏ tiền tố, qua trình kiểm tra từ điển để Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 97 98 Truy xuất thông tin tìm ghi có, trả gốc từ Kstemmer phù hợp với ngôn ngữ có Truy xuất thông tin TÀI LIỆU THAM KHẢO hình thái từ đa dạng tiếng Việt Do đó, đề xuất hướng nghiên cứu, cải tiến Kstemmer để áp dụng cho toán truy xuất thông tin tập [1] Ricardo Baeza-Yates, Berthier Ribeiro-Neto (1999), Modern Information Retrieval, Addison Wesley, New York tài liệu mang nội dung tiếng Việt [2] Eva Ericsson (2005), User-Centered Evaluation of a Information người quan tâm lĩnh vực để nghiên cứu giải toán, [3] Ed Greengrass (2000), Information Retrieval-A Survey đặc biệt toán tìm kiếm tài liệu tiếng Việt [4] Erik Hatcher, Otis Gospodnetic (2005), Lucene In Action, Manning [5] Diana Inkpen (2006), Information Retrieval on the Internet, Volume Luận văn bước khởi đầu để tác giả làm quen nghiên cứu Retrieval System, Master’s thesis, Uppsala University, Uppsala toán truy xuất thông tin Tác giả mong muốn cộng tác với Publications Co, Greenwich III (Part 3), 213 [6] Wessel Kraaij (2004), Variations on Language Modeling for Information Retrieval, Phd thesis, Enschede [7] Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze (2006), An Introduction to Information Retrieval, Cambridge University Press, Cambridge [8] Tom Noda, Shawn Helwig (2005), Benchmark Study of Desktop Search Tools, UW E-Business Consortium, University of Wisconsin-Madison [9] Sunanda Patro (2005), Synthesising Web Search Queries from Example Text Documents, Master’s thesis, University of Tasmania, Hobart [10] Justin Picard (2000), Probabilistic Argumentation Systems Applied to Information Retrieval, Phd thesis, Neuchâtel [11] Zhanzi Qiu (2004), Hyperstructure-Based Search Methods for the World Wide Web, Master’s thesis, Technischen Universität Darmstadt, Darmstadt Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 99 100 Truy xuất thông tin [12] van Rijsbergen, C J (1979), Information Retrieval, 2nd edition, Butterworths, Lodon Truy xuất thông tin TÀI LIỆU THAM KHẢO CHÉO [14] American Society of Indexers (2005), AMERICAN SOCIETY OF [13] Christian Safran (2005), A Concept-Based Information Retrieval Approach for User-oriented Knowledge Transfer, Master’s thesis, Graz University of Technology, Graz INDEXERS: How Information Retrieval Started (Trong [13] , trang 16,17) [15] Clarke, C L., Cormack, G V., & Tudhope, E A (1997), “Relevance ranking for one to three term queries”, in Devroye, L., & Chrisment, C., editors, Proceedings of RIAO’97, 388–400 (Trong [6] , trang 29) [16] Cooper, WS (1988), “Getting beyond Boole”, Information Processing and Management, Vol.24, no.3, pp.243-248 (Trong [9] , trang 7) [17] Fuhr, N (1992), “Probabilistic models in information retrieval”, The Computer Journal, 35(3), 233–245 (Trong [6] ) [18] Kobayashi, M and Takeda, K (2000), “Information retrieval on the web”, ACM Computing Surveys, Vol.32, no.2, pp.144-173.(Trong [9] , trang 8) [19] Lancaster, F W (1968), Information Retrieval Systems: Characteristics, Testing and Evaluation, Wiley, New York (Trong [2] , trang 3) [20] Maron, ME and Kuhns, JL (1960), “On relevance, probabilistic indexing and information retrieval”, Journal of the Association for Computing Machinery, Vol.7, pp.216-244 (Trong [9] , trang 9) [21] Ruthven, I and Lalmas, M (2003), “A survey on the use of relevance feedback for information systems”, Knowledge engineering Review, Vol.18, no.2, pp 95-145.(Trong [9] , trang 8) [22] Salton, G (1971), The SMART retrieval system: experiments in automatic documentprocessing, Prentice-Hall, Englewood Cliffs (Trong [11] , trang 12) Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 101 102 Truy xuất thông tin Truy xuất thông tin [23] Salton, G and Gill, M (1983), Introduction to modern information [31] Wong, S K M., Ziarko, W., Raghavan, V V., & Wong, P C N retrieval, Mc.Graw Hill, New York, p448 (Trong [11] , trang 12) (1987), “On modeling of information retrieval concepts in vector [24] Salton, G., & Buckley, C (1988), “Term-weighting approaches in automatic text retrieval”, Information Processing & Management, 24(5),513–523.(Trong [6] , trang 28) space”, TODS, 12(2),299–321 (Trong [6] , trang 39) [32] Yang, K (2002), Combining Text-, Link-, and Classification-based Retrieval Methods to Enhance Information Discovery on the Web, [25] Salton, G (1989), Automatic text processing – the transformation, analysis and retrieval of information by computer, AddisonWesley, Reading, MA (Trong [11] , trang 12) PhD thesis, University of North Carolina, p18 (Trong [9] , trang 10) [33] Zadeh, L A (1965), “Fuzzy sets”, Information and Control, 8,338– [26] Scott Deerwester, Susan T Dumais, Thomas K Landauer, George W 353 (Trong [6] , trang 29) Furnas, and Richard Harshman (1990), “Indexing by latent semantic analysis”, Journal of the Society for Information Science, 41(6):391-407 (Trong [5] ) [27] F Sebastiani (1998), “On the role of logic in information retrieval”, Information Processing and Management, 34(1):1–18 (Trong [Justin Picard, 2000], trang 10) [28] Singhal, A and Salton, G 1995 ,”Automatic Text Browsing Using Vector space Model”, Proceedings of the Dual-Use Technologies and Applications Conference, pp.318-324 (Trong [9] , trang 8) [29] Singhal, A (2001), “Modern Information Retrieval: A Brief Overview”, IEEE Data Eng Bull, Vol.24, no.4, pp.35-43 (Trong [9] , trang 12) [30] Wong, S K M., Ziarko, W., Raghavan, V V., & Wong, P C N (1986), “On extending the vector space model for boolean query processing”, In Proceedings of the 9th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’86), pp 175–185 ACM Press (Trong [6] , trang 39) Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 103 Truy xuất thông tin TÓM TẮT LUẬN VĂN Trong luận văn, trình bày bước cần thực để xây dựng hệ thống truy xuất thông tin, bao gồm hai giai đoạn tiền xử lý tài liệu thu thập thông tin Chúng nghiên cứu so sánh kỹ thuật lập mục hướng tiếp cận truy xuất thông tin, bao gồm mô hình lôgíc, mô hình đại số mô hình xác suất Chúng nghiên cứu trình bày chế lập mục mô hình truy xuất thông tin thư viện mã nguồn mở Lucene Cuối cùng, xây dựng chương trình thử nghiệm dựa Lucene để kiểm nghiệm đánh giá hiệu cấu trúc mục Inverted Files mô hình không gian véctơ Lucene Các từ khoá: truy xuất thông tin, lập mục, xếp hạng, Inverted Files, mô hình không gian véctơ Trần Thị Hoàng Thảo Luận văn thạc sĩ [...]... giải thuật truy xuất khác nhau hoặc các hệ thống các phần tử có liên quan trong tập tài liệu Trần Thị Hoàng Thảo Trần Thị Hoàng Thảo Luận văn thạc sĩ Luận văn thạc sĩ 29 30 Truy xuất thông tin 1.5 Một số hệ thống truy xuất thông tin 5 Hiện nay, có rất nhiều hệ thống truy xuất thông tin phục vụ tìm kiếm 4.5 4 của các cá nhân hoặc tổ chức cũng đang gia tăng Đáp ứng với nhu cầu đó, một thế hệ các công... trình này 1.4 Đánh giá hiệu quả truy xuất thông tin Như trên đã nêu, vì các hệ thống IR phải xử lý nhu cầu thông tin được mô tả một cách gần đúng của người dùng nên kết quả của một quá trình truy xuất thông tin không phù hợp tuyệt đối với nhu cầu thông tin, mà được xếp hạng theo độ liên quan Việc đánh giá độ chính xác của kết quả được gọi là đánh giá truy xuất thông tin Bên cạnh những độ đo hiệu suất... của 12 hệ 0.5 thống tìm kiếm trên máy tính Trong đó, các hệ thống được đánh số từ 1 đến 0 1 2 3 4 5 6 7 8 9 10 11 12 Các hệ thống tìm kiếm trên máy tính 12 như trong Bảng 1-1 Trần Thị Hoàng Thảo Truy xuất thông tin Hình 1-10 Biểu đồ so sánh tính hiệu quả của một số hệ thống IR Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 31 5 4.5 Truy xuất thông tin Sau đây, chúng tôi trình bày các hệ thống. .. Hầu hết các hệ thống thương mại dựa trên truy xuất Boolean đều có những tiện ích bổ sung để tăng cường độ chính xác của kết quả truy vấn Việc Trần Thị Hoàng Thảo Luận văn thạc sĩ 49 50 Truy xuất thông tin Truy xuất thông tin sử dụng các truy vấn Boolean chuẩn trên các tập tài liệu lớn như WWW là và cộng sự khẳng định rằng phương pháp này cho các kết quả truy xuất hiệu không phù hợp vì một truy vấn ngắn... sĩ Hình 2-5 Minh hoạ một Inverted File Trần Thị Hoàng Thảo Luận văn thạc sĩ 43 44 Truy xuất thông tin Truy xuất thông tin 2.2 Xếp hạng thao tác mô hình hóa có thể ảnh hưởng tới toàn bộ lĩnh vực IR theo 2.2.1 Tổng quan các mô hình truy xuất thông tin chiều hướng tốt 2.2.1.1 Sự cần thiết của các mô hình truy xuất thông tin Bất kỳ mô hình IR nào cũng đặt ra những giả định cơ bản về (1) cách (3) Các mô... về truy xuất thông tin Quá trình truy xuất thông tin bao gồm hai giai đoạn là tiền xử lý tài liệu và tìm kiếm thông tin theo yêu cầu của người dùng trong tập tài liệu đã xử lý Trong đó, quan trọng nhất là bước lập chỉ mục tài liệu và sắp xếp độ liên quan của từng tài liệu đối với yêu cầu tìm kiếm Để đánh giá hiệu quả truy xuất thông tin, có thể áp dụng nhiều độ đo, bao gồm các tiếp cận hướng hệ thống. .. giới hạn kết quả truy vấn Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 45 46 Truy xuất thông tin Truy xuất thông tin thành phần giao của hai tập, toán tử OR sinh ra phần hợp nhất và toán tử NOT dựa trên học máy đó phù hợp với việc lọc hoặc gán nhãn thông tin hơn là truy cung cấp phần khác nhau giữa các tập Van Rijsbergen đã trình bày mô hình xuất thông tin, trong đó bao... bộ các tài liệu phù hợp với truy Trần Thị Hoàng Thảo Luận văn thạc sĩ 47 48 Truy xuất thông tin Truy xuất thông tin vấn dưới dạng một tập không có thứ tự Hệ quả là người dùng có thể phải (wildcard) theo phương pháp toán học vững chắc, khiến cho nó trở thành một thêm hoặc bớt các term hoặc đưa ra cấu trúc truy vấn phức tạp hơn để thu gọn mô hình mạnh trong các hệ thống truy xuất toàn văn bản Tóm lại,... khối tìm kiếm trực tiếp Nếu đặt hệ tìm kiếm vào tình huống phải xử lý trên khối lượng dữ liệu lớn, đồng thời nằm trong một hệ khôi phục thông tin thì thời Trần Thị Hoàng Thảo Luận văn thạc sĩ Trần Thị Hoàng Thảo Luận văn thạc sĩ 41 42 Truy xuất thông tin Truy xuất thông tin gian truy tìm trên cấu trúc dữ liệu Signature Files sẽ quá lớn, không phù hợp Trong khi truy xuất từ “computer”, trước tiên, nó... 22 Truy xuất thông tin chuộng hơn, do vậy đối sánh tuyệt đối không được xét trong luận văn Trong trường hợp đối sánh một phần, các tài liệu thường được chuyển tới người dùng theo thứ tự giảm dần của độ liên quan Mục đích của việc đối sánh một phần là để trình bày các tài liệu có liên quan với nhu cầu thông tin ở phần đầu Truy xuất thông tin 1.3 Các hướng tiếp cận giải quyết bài toán truy xuất thông tin