Truy hồi thông tin Information Retrieval

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TP HCM LỚP CÔNG NGHỆ THÔNG TIN - - CHUYÊN ĐỀ: CÔNG NGHỆ THÔNG TIN Information Retrieval Giảng viên hướng dẫn: HUỲNH THỊ THANH THƯƠNG Sinh viên thực hiện: PHẠM VĂN ĐẠO PHAN VĂN ĐẠT NGUYỄN THẾ HÀ HUỲNH TẤN DUY TRỊNH ĐÌNH TÙNG Lớp: Công Nghệ Thông Tin Khóa: 54 TP Hồ Chí Minh, 11/2016 Bảng từ vựng, thuật ngữ, viết tắt Từ viết tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt IR Information Retrieval Truy tìm thông tin DB Database Cơ sở liệu LSI Latent Semantic Indexing Chỉ mục ngữ nghĩa tiềm ẩn NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên Danh mục hình ảnh Nội dung TRUY HỒI THÔNG TIN CÁC KHÁI NIỆM CƠ BẢN VỀ TRUY HỒI THÔNG TIN Hiện nay, khối lượng thông tin khổng lồ khiến người phải tốn nhiều thời gian dành cho việc tìm kiếm thông tin thích hợp Do đó, nhiều kỹ thuật truy hồi thông tin đời nhằm giải vấn đề tải thông tin - Khái niệm truy tìm thông tin Truy tìm thông tin tìm kiếm thông tin dạng cấu trúc, thỏa mãn nhu cầu thông tin từ nguồn thông tin thông tin lớn Đây khái niệm truy tìm thông tin kinh điển sử dụng nhiều nhắc đến truy tìm thông tin Ngoài ra, có số định nghĩa khác, ví dụ sau: Truy tìm thông tin hoạt động thu thập nguồn thông tin liên quan đến thông tin cần tìm kiếm, dựa siêu liệu (metadata) việc đánh mục toàn văn (hoặc dựa nội dung khác) - Các khái niệm liên quan Tài liệu: Tài liệu (d): diễn tả ý tưởng đề tài dạng ngôn ngữ tự nhiên, đơn vị mà hệ thống IR xây dựng dựa đơn vị Tài liệu nội dung chứa thông tin mang ý nghĩa định Có nhiều dạng tài liệu khác nhau: - Tài liệu văn Dạng ký tự, có cấu trúc đơn giản - Tài liệu phi văn Dạng phương tiện hình ảnh, âm thanh, video… Truy vấn: Truy vấn (q): diễn tả nhu cầu thông tin cho tài liệu liên quan đến đề tài Là thông tin đưa vào hệ thống để thực công việc tìm kiếm ĐẠO – ĐẠT – HÀ – DUY - TÙNG TRUY HỒI THÔNG TIN Các dạng truy vấn - Từ, cụm từ, câu đoạn văn dạng phi văn (hình ảnh…) Từ mục (k): đơn vị ngữ nghĩa, từ, cụm từ ngắn, dạng gốc từ Một tài liệu d biểu diễn tập từ mục ki (i = 0, 1, 2, …) Cơ sở liệu (DB) : Tập n tài liệu, dj ϵ DB (j = 1, 2, … , n) Bảng từ vựng T: Tập t từ mục, k i ϵ T, i = (1, 2, …, t) LỊCH SỬ HÌNH THÀNH VÀ PHÁT TRIỂN CỦA IR Ý tưởng truy tìm thông tin Vannevar Bush đưa vào năm 1945 Tiếp theo đến năm 1948, Holmstrom mô tả hệ thống máy tính tìm kiếm thông tin Đến năm 1960, Nhóm nghiên cứu tìm kiếm thông tin lớn thành lập Gerard Salton Cornel Và đầu năm 70, số hệ thống truy hồi thông tin quy mô lớn hình thành đưa vào sử dụng, chẳng hạn hệ thống Lockheed Dialog Và cuối đời công cụ tìm kiếm Web, nói khác động tìm kiếm máy tìm kiếm ngày nâng cao khả tìm kiếm “thông minh” CẤU TRÚC CỦA MỘT HỆ THỐNG IR Cấu trúc hệ thống IR mô tả sơ đồ đây: Hình - Cấu trúc hệ thống IR ĐẠO – ĐẠT – HÀ – DUY - TÙNG TRUY HỒI THÔNG TIN Các mục thông tin: Chứa sở liệu lớn thông tin thu thập được, lưu trữ hệ thống máy tính lớn Nhu cầu thông tin: Là truy vấn người dùng muốn thực Chức biễu diễn cấu trúc tài liệu: Ban đầu, mục thông tin cấu trúc, hệ thống IR cần phải biểu diễn cấu trúc tài liệu mục thông tin thành dạng cấu trúc mô hình truy tìm thông tin Chức biểu diễn cấu trúc nhu cầu thông tin: Mặc định nhu cầu thông tin người dùng ngôn ngữ tự nhiên, cấu trúc Đòi hỏi hệ thống IR cần phải phân tách yêu cầu người dùng thành thông tin theo cấu trúc để thực so khớp với tài liệu So khớp: Thực so khớp nhu cầu thông tin người dùng mục thông tin thuật toán phương pháp hệ thống IR Xếp hạng/kết quả: Đưa kết truy tìm với mức độ liên quan giảm dần nhờ chức xếp hạng hệ thống CÁC PHƯƠNG PHÁP TRUY HỒI THÔNG TIN 4.1 Mô hình boolean Mô hình boolean mô hình truy vấn đơn giản nhất, bao gồm mối quan hệ thuật ngữ yêu cầu thông tin tài liệu Ví dụ truy vấn sau: - Những tài liệu chứa từ “Java” Những tài liệu chứa từ “Java” không chứa từ “coffee” Các tài liệu chứa cụm “Java beans” thuật ngữ “API” Các tài liệu mà “Java” “Island” xuất câu Hai truy vấn đầu gọi truy vấn “gần” (proximity queries) chúng bao gồm khoảng cách từ vựng dấu hiệu Các câu hỏi trả lời sử dụng số ngược Phần sau mô tả việc số xây dựng từ tập hợp tài liệu ngược Các câu truy vấn biểu diễn tập từ khóa kết nối với tập phép toán Bool Ba loại toán tử hay sử dụng OR, AND NOT Quy tắc truy tìm kiếm sau: Toán tử OR: Xem xét hai thuật ngữ đồng nghĩa Ví dụ, cho trước câu truy vấn (term1 OR term2) diện hai thuật ngữ ghi (hay tài liệu) đủ để đáp ứng truy tìm ghi ĐẠO – ĐẠT – HÀ – DUY - TÙNG TRUY HỒI THÔNG TIN Toán tử AND: Tổ hợp thuật ngữ (hay từ khóa) vào câu thuật ngữ Vậy, truy vấn (term1 AND term2) hai thuật ngữ phải đồng thời diện tài liệu để đem lại kết Toán tử NOT: Là hạn chế hay thuật ngữ hẹp, thông thường sử dụng với toán tử AND Câu truy vấn (term1 AND NOT term2) dẫn tới truy tìm ghi có term1 term2 Ví dụ: Những tác phẩm “Kim Dung” xuất “Quách Tĩnh” “Hoàng Dung” không xuất “Dương Quá” Đầu tiên, xác định từ ngữ có không nằm tác phẩm bảng sau: Giá trị “1” từ mục có xuất tác phẩm Giá trị “0” từ mục không xuất tác phẩm Tiếp theo, xác định cú pháp câu truy vấn: QuachTinh And HoangDung And (Not DuongQua) Xác định vector biểu diễn cho từ mục từ bảng - QuachTinh {1 1 0 } HoangDung {1 1 0 } DuongQua {0 0 } Thực phép toán logic ĐẠO – ĐẠT – HÀ – DUY - TÙNG TRUY HỒI THÔNG TIN 11100 And 11100 And [Bù (00100)] = 11000  Kết là: Bích Huyết Kiếm Anh Hùng Xạ Điêu Xét trường hợp n = 1.000.000 tài liệu, t = 500.000 từ mục Khi ma trận tài liệu, từ mục có kích thước: 500.000 * 1.000.000, tương đương với 500 tỉ số lưu trữ Như vậy, vấn đề lưu trữ xuất Mặt khác, quan sát kỹ ma trận Từ mục – Tài liệu, nhận thấy điều quan trọng, “nó có số thành phần khác 0” hay nói cách khác số lượng phần tử “1” Giải pháp đặt là cần lưu phần tử có giá trị “1” Kỹ thuật mục ngược Ý tưởng: Với từ mục t, lưu danh sách tài liệu (Doc ID) chứa t Ví dụ như: Đánh mục – xây dựng mục: Các bước thực hình sau: ĐẠO – ĐẠT – HÀ – DUY - TÙNG TRUY HỒI THÔNG TIN Hình - Các bước lập mục Phân tích thành token: tách câu truy vấn thành từ riêng biệt Sau phân tích ta có dãy token Xử lý ngôn ngữ: Xử lý token, áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên trình bày phần sau Đây phần phức tạp Đánh mục: Ví dụ cho hai tài liệu sau: Tài liệu 1: “I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me.” Tài liệu 2: “So let it be with Caesar The noble Brutus hath told you Caesar was ambitious.” Sau đánh mục: ĐẠO – ĐẠT – HÀ – DUY - TÙNG 10 TRUY HỒI THÔNG TIN - P(rel): Xác suất tính phù hợp tài liệu P(nonrel): Xác suất tính không phù hợp tài liệu a1 : Giá trị kết hợp với việc truy tìm tài liệu không liên quan a2 : Giá trị kết hợp với việc không truy tìm tài liệu liên quan Vì việc truy tìm tài liệu không phù hợp hết a1P(nonrel) loại bỏ tài liệu phù hợp hết a2P(rel), tổng số thời gian truy tìm tối ưu nếu: a2P(rel) >= a1P(nonrel) Nhiệm vụ mô hình truy tìm xác suất dự báo P(rel) P(nonrel) Thông thường, điều thực với giả sử phân bổ xuất số thuật ngữ tài liệu Mô hình xác suất cung cấp dẫn quan trọng cho đặc trưng hóa tiến trình truy tìm Tuy nhiên, hiệu truy tìm không nâng cao mấy, khó khăn để có P(rel) P(nonrel) 4.4 Mô hình lập mục ngữ nghĩa tiềm ẩn Khái niệm mục ngữ nghĩa tìm ẩn (Latent Semantic Indexing - LSI) Chỉ mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing) Falotsos, Foltz, Dumais Bently phát triển để giải phần khó khăn Ý tưởng LSI thực nhóm thuật ngữ tương đương để hình thành “khái niệm” hay “chủ đề” tài liệu đại diện khái niệm hay chủ đề Vì tổng số khái niệm nhỏ nhiều so với tổng số thuật ngữ, đòi hỏi nhớ lưu trữ thời gian tính toán nhanh Nội dung phương pháp (Latent Semantic Indexing-LSI) Chỉ mục ngữ nghĩa tiềm ẩn (LSI) kỹ thuật thiết kế để giải vấn đề đồng nghĩa vấn đề đa nghĩa từ ngữ Kỹ thuật mục ngữ nghĩa tiềm ẩn giả thiết có số cấu trúc tiềm ẩn mẫu có từ đồng thời xuất hiện, thông qua tập phép thử tài liệu để mô hình hóa phần phụ thuộc từ tài liệu LSI dùng kỹ thuật tách giá trị đơn (SVD-Singular Value Decomposition) để giảm bớt kích thước ma trận term - doc, không gian r chiều xuống không gian s chiều, sd1 Chúng ta thấy tài liệu d2 có giá trị tương đồng cao d3 d1 Vector gần với vector truy vấn vector khác ĐẠO – ĐẠT – HÀ – DUY - TÙNG 26 TRUY HỒI THÔNG TIN Kỹ thuật tách giá trị đơn (SVD): Ý tưởng kỹ thuật tách giá trị đơn (SVD) tách đặc trưng chủ yếu ma trận term-doc AT xấp xỉ ma trận nhỏ Định lý SVD phát biểu sau: Ma trận A với kích thước MxN số thực biểu diễn sau: A = U * S * VT đó, U ma trận trực giao cột M * r với r hạng (rank) ma trận A, S ma trận đường chéo V ma trận trực giao cột N * r Các bước tính SVD đầy đủ cho ma trận A: Bước 1: Tính hoán vị A: AT ATA Bước 2: Xác định giá trị đặc trưng ATA xếp theo thứ tự giảm dần Bước 3: Xây dựng ma trận đường chéo S cách đặt giá trị đơn theo thứ tự giảm dần dọc theo đường chéo Tính nghịch đảo S-1 Bước 4: Sử dụng thứ tự giá trị đặc trưng bước tính vector đặc trưng A TA Đặt giá trị đặc trưng dọc theo cột V tính hoán vị VT Bước 5: Tính U với U=AVS-1 Để hoàn thành việc chứng minh, tính SVD đầy đủ sử dụng công thức A=USVT Ví dụ: Tính SVD đầy đủ cho ma trận sau đây: ĐẠO – ĐẠT – HÀ – DUY - TÙNG 27 TRUY HỒI THÔNG TIN Bước 1: Tính hoán vị A: AT ATA: Ma trận hoán vị Bước 2: Xác định giá trị đặc trưng A TA xếp theo thứ tự giảm dần Căn bậc hai lúc để tính giá trị đơn A Phương trình đặc trưng: Phương trình bậc hai cho giá trị theo thứ tự giảm dần: | 40 | > | 10 | Các giá trị đặc trưng: c1 = 40, c2 = 10 Các giá trị đơn: Bước 3: Xây dựng ma trận đường chéo S cách đặt giá trị đơn theo thứ tự giảm dần dọc theo đường chéo Tính nghịch đảo S-1 Bước 4: Sử dụng thứ tự giá trị đặc trưng từ bước tính vector đặc trưng A TA Đặt giá trị đặc trưng dọc theo cột V tính hoán vị VT Với c1 = 40 Giải thích cho x2 cho công thức khác: x2 = x1; Chia chiều dài nó: ĐẠO – ĐẠT – HÀ – DUY - TÙNG 28 TRUY HỒI THÔNG TIN Với c2 = 10 Giải thích cho x2 cho công thức khác: x2 = x1; Chia chiều dài nó:  Tính U với U=AVS-1 Để hoàn thành việc chứng minh, tính SVD đầy đủ sử dụng công thức A=USVT Tính trực giao ma trận V U có cách xem xét vector đặc trưng chúng Điều chứng minh tích điểm vector cột Tất tích điểm cho = Ngoài ra, vẽ thấy tất trực giao ĐẠO – ĐẠT – HÀ – DUY - TÙNG 29 TRUY HỒI THÔNG TIN 4.5 Mô hình xử lý ngôn ngữ tự nhiên Khái niệm Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo tư giao tiếp Các toán ứng dụng Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhận dạng chữ in, ví dụ nhận dạng chữ sách giáo khoa chuyển thành dạng văn điện tử định dạng doc Microsoft Word chẳng hạn Phức tạp nhận dạng chữ viết tay, có khó khăn chữ viết tay khuôn dạng rõ ràng thay đổi từ người sang người khác Với chương trình nhận dạng chữ viết in chuyển hàng ngàn đầu sách thư viện thành văn điện tử thời gian ngắn Nhận dạng chữ viết người có ứng dụng khoa học hình bảo mật thông tin (nhận dạng chữ ký điện tử) Nhận dạng tiếng nói: Nhận dạng tiếng nói chuyển chúng thành văn tương ứng Giúp thao tác người thiết bị nhanh đơn giản hơn, chẳng hạn thay gõ tài liệu bạn đọc lên trình soạn thảo tự ghi Đây bước cần phải thực ước mơ thực giao tiếp người với robot Nhận dạng tiếng nói có khả trợ giúp người khiếm thị nhiều ĐẠO – ĐẠT – HÀ – DUY - TÙNG 30 TRUY HỒI THÔNG TIN Tổng hợp tiếng nói: Từ văn tự động tổng hợp thành tiếng nói Thay phải tự đọc sách hay nội dung trang web, tự động đọc cho Giống nhận dạng tiếng nói, tổng hợp tiếng nói trợ giúp tốt cho người khiếm thị, ngược lại bước cuối giao tiếp robot với người Dịch tự động (machine translate): Như tên gọi chương trình dịch tự động từ ngôn ngữ sang ngôn ngữ khác Một phần mềm điển hình tiếng Việt chương trình Evtrans Softex, dịch tự động từ tiếng Anh sang tiếng Việt ngược lại, phần mềm trang web vdict.com mua quyền, trang đưa ứng dụng lên mạng Tháng 10 năm 2008 có hai công ty tham gia vào lĩnh vực cho ngôn ngữ tiếng Việt công ty Lạc Việt (công ty phát hành từ điển Lạc Việt) Google, thời gian sau Xalo_vn đưa dịch vụ tương tự Tìm kiếm thông tin (information retrieval): Đặt câu hỏi chương trình tự tìm nội dung phù hợp Thông tin ngày đầy lên theo cấp số nhân, đặc biệt với trợ giúp internet việc tiếp cận thông tin trở lên dễ dàng hết Việc khó khăn lúc tìm thông tin cần bề bộn tri thức đặc biệt thông tin phải đáng tin cậy Các máy tìm kiếm dựa giao diện web Google hay Yahoo phân tích nội dung đơn giản dựa tần suất từ khoá thứ hạng trang số tiêu chí đánh giá khác để đưa kết luận, kết nhiều tìm kiếm không nhận câu trả lời phù hợp, chí bị dẫn tới liên kết không liên quan thủ thuật đánh lừa trang web nhằm giới thiệu sản phẩm (có tên tiếng Anh SEO viết tắt từ search engine optimization) Thực tế chưa có máy tìm kiếm hiểu ngôn ngữ tự nhiên người trừ trang www.ask.com đánh giá "hiểu" câu hỏi có cấu trúc dạng đơn giản Mới cộng đồng mạng xôn xao trang Wolfram Alpha, hứa hẹn có khả hiểu ngôn ngữ tự nhiên người đưa câu trả lời xác Lĩnh vực hứa hẹn tạo bước nhảy cách thức tiếp nhận tri thức cộng đồng Tóm tắt văn bản: Từ văn dài tóm tắt thành văn ngắn theo mong muốn chứa nội dung thiết yếu Khai phá liệu (data mining) phát tri thức: Từ nhiều tài liệu khác phát tri thức Thực tế để làm điều khó, gần mô trình học tập, khám phá khoa học người, lĩnh vực giai đoạn đầu phát triển Ở mức độ đơn giản kết hợp với máy tìm kiếm cho phép đặt câu hỏi để từ công cụ tự tìm câu trả lời dựa thông tin web mặc cho việc trước có câu trả lời lưu web hay không (giống trang Yahoo! hỏi đáp, nơi chuyên đặt câu hỏi để người khác trả ĐẠO – ĐẠT – HÀ – DUY - TÙNG 31 TRUY HỒI THÔNG TIN lời), nói cách nôm na biết xử lý liệu để trả lời câu hỏi người sử dụng, thay máy móc đáp trả có sẵn nhớ Trong khuôn khổ tài liệu đề cập đến toán tìm kiếm thông tin Các biến thể ngôn ngữ học Biến thể hình thái học dạng khác mặt cấu trúc (nôm na hình dáng) từ hay thấy ngôn ngữ châu Âu Ví dụ tiếng Anh từ computer, computerize, computers biến thể hình thái học từ computer Hệ thống cho kết không xác đối xử với biến thể từ độc lập Biến thể từ vựng học từ khác mang nghĩa Ví dụ tiếng Anh từ: car, auto Hệ thống không trả tài liệu có chứa từ auto mà không chứa từ car câu hỏi chứa từ car Biến thể ngữ nghĩa học vấn đề từ đa nghĩa tùy vào ngữ cảnh Vi dụ tìm từ ‘bands’ nhận tài liệu nói ‘radio frequency bands’ Biến thể cú pháp học các kết hợp khác mặt cú pháp nhóm từ mang ý nghĩa khác Do hệ thống không xử lý cấu trúc ngữ pháp nhóm từ dẫn đến việc giảm độ xác Ví dụ tài liệu chứa câu ‘near to the river, air pollution is a major problem’ không liên quan đến ‘river pollution’ hai từ có xuất tài liệu Do để nâng cao hiệu hệ tìm kiếm thông tin, người ta phải có giải thuật để xử lý biến thiên ngôn ngữ học nêu Các thuật toán xử lý ngôn ngữ tự nhiên Đối với biến thiên hình thái học người ta có hai cách để xử lý: cách thứ mở rộng câu hỏi (query expansion) cách thêm vào câu hỏi tất biến thể hình thái học tất từ có câu hỏi, cách thứ hai chuẩn hoá biến thể hình thái học (stemming) từ chuẩn chung (stem) Ví dụ từ computer, computed, computes, computerize chuẩn hoá thành stem compute Hai thuật toán stemming biết đến nhiều cho tiếng Anh Lovins Porter Để xử lý biến thể từ vựng học người ta mở rộng câu hỏi cách thêm vào câu hỏi tất từ đồng nghĩa có tất từ câu hỏi xử lý ĐẠO – ĐẠT – HÀ – DUY - TÙNG 32 TRUY HỒI THÔNG TIN giai đoạn so khớp cách đưa độ đo khoảng cách khái niệm (conceptual distance measures) Đối với cách thứ cần có từ điển đồng nghĩa, cách thứ hai phải xây dựng tự điển từ vựng (thesaurus) có định nghĩa khoảng cách từ mạng ngữ nghĩa WORDNET Biến thể ngữ nghĩa thường kết hợp chặt chẽ với biến thể từ vựng học Để xử lý biến thể cần công đoạn xử lý đa nghĩa từ (word sense disambiguiation), hiệu hệ thống tìm kiếm phụ thuộc vào kết giai đoạn xử lý Các kỹ thuật xử lý biến thể cú pháp học hay nói cụ thể xử lý cấu trúc cụm từ (phrase) chia làm hai loại: kỹ thuật lập mục dựa vào cụm từ (phase based indexing) kỹ thuật lập mục cấu trúc phân tích từ mệnh đề Các kỹ thuật lập mục dựa cụm từ nhằm tăng độ xác hệ thống Với giả định dùng cụm từ mục thay cho từ đơn độ xác tăng cụm từ biểu diễn xác nội dung tài liệu Các hệ thống tìm kiếm dựa mục cụm từ ngày thu hút nhiều nhóm nghiên cứu vấn đề làm để rút trích cụm từ cách tự động từ tài liệu trở thành vấn đề hệ Các giải pháp rút trích cụm từ thường dựa vào hai cách tiếp cận: tiếp cận dùng thông tin thống kê tần suất đồng xuất (co-occurrence) hay cách tiếp cận dựa vào tri thức ngôn ngữ học Cách tiếp cận thứ hai đòi hỏi phải áp dụng nhiều kỹ thuật lĩnh vực xử lý ngôn ngữ tự nhiên Kỹ thuật lập mục cấu trúc dựa vào cấu trúc có từ việc phân tích mệnh đề câu tài liệu trình so khớp so khớp cấu trúc câu hỏi với cấu trúc tài liệu Cách tiếp cận không thu hút nhiều nhóm nghiên cứu độ phức tạp việc phân tích mệnh đề để xây dựng cách cấu trúc cao lại không tăng hiệu hệ thống tìm kiếm Hệ thống tra cứu thông tin ứng dụng xữ lý ngôn ngữ tự nhiên Quá trình lập mục hệ thống tìm kiếm thông tin có ứng dụng kỹ thuật xử lý ngôn ngữ tự nhiên phải bao gồm chức sau: - Xác định từ (tokenization/ word segmentation) Xác định từ loại cho từ (Part-of-speech tagging) Chuẩn hoá biến thể hình thái học từ Xác định từ ghép Chuẩn hoá biến thể từ vựng học ngữ nghĩa học Phân tích cú pháp ĐẠO – ĐẠT – HÀ – DUY - TÙNG 33 TRUY HỒI THÔNG TIN - Chuẩn hoá biến thể cú pháp học Đánh trọng số cho biểu thức mục Bước xác định từ thực việc xác định câu tài liệu xác định từ câu Đối với ngôn ngữ châu Âu bước cài đặt dựa vào luật viết hoa, khoảng trắng ký tự phân cách khác Đối với tiếng Việt bước phức tạp từ tiếng Việt xác định dựa theo cách Sau đă xác định từ, hệ thống tiến hành gán từ loại (category) cho từ phụ thuộc vào ngữ cảnh từ Đây công đoạn phức tạp từ mang nhiều từ loại khác tùy thuộc vào ngữ cảnh xuất từ Việc xác định từ loại cho từ nhằm phục vụ cho giai đoạn tiến trình xác định từ ghép, cụm danh từ có câu Bước hệ thống xác định từ ghép (compound noun) ví dụ từ ‘hot dog’ để xử lý chúng đơn vị thay xử lý riêng rẽ từ hot dog trường hợp Việc xác định từ ghép thường dùng phương pháp thống kê tần suất đồng xuất từ tài liệu dùng mẫu (patern) tổ hợp từ loại, ví dụ danh từ - tính từ, danh từ - danh từ … Tiếp theo trình chuẩn hoá biến thể từ vựng học ngữ nghĩa để xây dựng phân nhóm mục theo nhóm ngữ nghĩa (semantical clustering) Phân tích cú pháp giai đoạn nhằm xác định liên hệ mặt cú pháp từ cụm từ Khi xác định cụm từ liên hệ cú pháp từ cụm từ, tiến hành chuẩn hóa cụm từ chuẩn chung cuối tiến hành đánh trọng số cho cụm từ mục MỘT VÀI SẢN PHẨM NỔI TIẾNG CỦA LĨNH VỰC IR Máy tìm kiếm Google - Sáng lập: Larry Page Sergey Brin Năm thành lập: 1997 Là Search Engine sử dụng phổ biến giới Với tỷ lượt tìm kiếm ngày Máy tìm kiếm Bing Bing Search, tiền thân MSN Search (trước gọi với tên Live Search, Windows Live Search) công cụ tìm kiếm tập đoàn Microsoft ĐẠO – ĐẠT – HÀ – DUY - TÙNG 34 TRUY HỒI THÔNG TIN Công cụ tìm kiếm Bing lần mắt vào 28 tháng 2009, trở thành công cụ tìm kiếm lớn thứ hai thị trường Bắc Mỹ Máy tìm kiếm Yahoo - Yahoo Search công cụ tìm kiếm trực thuộc sở hữu tập đoàn Yahoo! Năm thành lập: 1995  2004 Đây công cụ tìm kiếm lớn thứ ba Mỹ tính đến tháng năm 2015 Lượng truy vấn tìm kiếm đạt 12,8% Máy tìm kiếm khác (tìm kiếm thông minh, ngữ nghĩa) Máy tìm kiếm Hakia “Hakia” công cụ tìm kiếm Internet Công ty phát minh công nghệ QDEXing, sở hạ tầng thay cho mục, sử dụng thuật toán SemanticRank, giải pháp kết hợp từ nguyên tắc ngữ nghĩa thể học, logic mờ, ngôn ngữ học tính toán, toán học Được thành lập vào năm 2004, công ty tổ chức có trụ sở thành phố New York Hakia thành lập Rıza Can Berkan, nhà khoa học hạt nhân theo hướng chuyên ngành trí tuệ nhân tạo logic mờ, Pentti Kouri, nhà kinh tế học đầu tư mạo hiểm Giáo sư Victor Raskin, người cha ngữ nghĩa thể quan quốc tế ghi nhận lĩnh vực ngôn ngữ học tính toán, phục vụ cố vấn khoa học hakia Máy tìm kiếm Wolfram|Alpha Wolfram|Alpha (hay viết WolframAlpha Wolfram Alpha) máy trả lời Wolfram Research phát triển Đây dịch vụ trực tuyến có nhiệm vụ trả lời câu hỏi nhập vào trực tiếp cách tính toán câu trả lời từ liệu có cấu trúc, không cung cấp danh sách tài liệu trang có web chứa câu trả lời cách máy tìm kiếm thường làm Website Stephen Wolfram công bố vào tháng năm 2009, phát hành cho công chúng ngày 15 tháng năm 2009 Máy tìm kiếm Exalead Exalead công ty phần mềm, thành lập vào năm 2000, cung cấp tảng tìm kiếm ứng dụng tìm kiếm dựa search-based applications (SBA) cho người tiêu dùng người dùng doanh nghiệp Công ty có trụ sở Paris, Pháp, công ty Dassault Systèmes CÁC VẤN ĐỀ LỚN HIỆN NAY CỦA IR ĐẠO – ĐẠT – HÀ – DUY - TÙNG 35 TRUY HỒI THÔNG TIN User interaction – giao tiếp người dùng Hiện tại, người dùng thường giao tiếp với hệ thống IR cách nhập văn hệ thống trả kết dạng văn Xu hướng IR tiếp nhận yêu cầu giọng nói, cử chỉ… trả kết da dạng Effective ranking – hiệu xếp hạng Document and query representation – Tài liệu truy vấn đại diện Testing and measuring – Kiểm tra đo lường Tài liệu tham khảo [1] Christopher D Manning, An Introduction to Information Retrieval, 2009 [2] Internet ĐẠO – ĐẠT – HÀ – DUY - TÙNG 36 [...].. .TRUY HỒI THÔNG TIN Sắp xếp các từ chỉ mục ĐẠO – ĐẠT – HÀ – DUY - TÙNG 11 TRUY HỒI THÔNG TIN Sau đó, những từ chỉ mục giống nhau sẽ được nhóm lại, sau khi nhóm sẽ tách thành Dictionary và Postings ĐẠO – ĐẠT – HÀ – DUY - TÙNG 12 TRUY HỒI THÔNG TIN Ví dụ: Xét truy vấn đơn giản: Brutus AND Caesa Xác định Brutus trong Dictionary bằng cách truy tìm những posting của “Brutus” Tương... dịch vụ tương tự Tìm kiếm thông tin (information retrieval) : Đặt câu hỏi và chương trình tự tìm ra nội dung phù hợp nhất Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết Việc khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc biệt thông tin đó phải đáng tin cậy Các máy tìm kiếm dựa... trong Dictionary bằng cách truy tìm những posting của “Caesar” ĐẠO – ĐẠT – HÀ – DUY - TÙNG 13 TRUY HỒI THÔNG TIN Trộn hai danh sách các posting Thuật toán trộn như sau: Hình 3 - Thuật toán trộn posting Kết quả sau khi trộn: 4.2 Mô hình không gian vector Nói một cách ngắn gọn, Vector space model (Mô hình không gian vector) là một mô hình đại số (algebraic model) thể hiện thông tin văn bản như một vector,... cho truy vấn “gold silver truck” Bước1: Đánh trọng số thuật ngữ và xây dựng ma trận term-doc A và ma trận truy vấn: ĐẠO – ĐẠT – HÀ – DUY - TÙNG 23 TRUY HỒI THÔNG TIN Tách ma trận A thành tích của các ma trận và tìm các ma trận U, S, V, trong đó: Bước 3: Thực hiện giảm chiều vector bằng cách giữ lại các cột đầu tiên của U và V và các cột và hàng đầu tiên của S ĐẠO – ĐẠT – HÀ – DUY - TÙNG 24 TRUY HỒI THÔNG... HÀ – DUY - TÙNG 21 TRUY HỒI THÔNG TIN - P(rel): Xác suất tính phù hợp của tài liệu P(nonrel): Xác suất tính không phù hợp của tài liệu a1 : Giá trị kết hợp với việc truy tìm tài liệu không liên quan a2 : Giá trị kết hợp với việc không truy tìm tài liệu liên quan Vì việc truy tìm tài liệu không phù hợp hết a1P(nonrel) và loại bỏ các tài liệu phù hợp hết a2P(rel), tổng số thời gian truy tìm sẽ tối ưu... TÙNG 14 TRUY HỒI THÔNG TIN Mỗi từ trong không gian vector sẽ có một trọng số, có nhiều phương pháp xếp hạng khác nhau, nhưng tf-idf (term frequency–inverse document frequency) là một phương pháp phổ biến để đánh giá và xếp hạng một từ trong một tài liệu MySQL fulltext search cũng sử dụng phương pháp này Về cơ bản thì tf-idf là một kỹ thuật (cụ thể là ranking function) giúp chuyển đổi thông tin dưới... ĐẠO – ĐẠT – HÀ – DUY - TÙNG 16 TRUY HỒI THÔNG TIN Ví dụ người dùng search từ khóa “capricious person”, idf làm cho sự xuất hiện của từ capricious được tính nhiều hơn trong kết quả xếp hạng tài liệu cuối cùng, so với từ “person” vì từ này phổ biến hơn Câu truy vấn cũng được xem như một vector Để tìm một cụm từ trong tập hợp các tài liệu sẵn có (giống khi thực hiện một câu truy vấn full-text), thì chúng... TRUY HỒI THÔNG TIN Bước 4: Tìm các toạ độ vector tài liệu mới trong không gian 2 chiều rút gọn này Các hàng của V giữ các giá trị vector đặc trưng Đây là các tọa độ của các vectors tài liệu riêng, vì vậy d1(-0.4945, 0.6492) d2(-0.6458, -0.7194) d3(-0.5817, 0.2469) Bước 5: Tìm các tọa độ véc tơ truy vấn mới trong không gian 2 chiều rút gọn ĐẠO – ĐẠT – HÀ – DUY - TÙNG 25 TRUY HỒI THÔNG TIN Bước 6: Sắp... liệu theo thứ tự giảm dần của giá trị tương đồng cosin giữa câu truy vấn và tài liệu Sắp xếp các tài liệu theo thứ tự giảm dần của giá trị tương đồng: d2>d3>d1 Chúng ta có thể thấy rằng tài liệu d2 có giá trị tương đồng cao hơn d3 và d1 Vector của nó gần với vector truy vấn hơn các vector khác ĐẠO – ĐẠT – HÀ – DUY - TÙNG 26 TRUY HỒI THÔNG TIN Kỹ thuật tách giá trị đơn (SVD): Ý tưởng của kỹ thuật tách... ĐẠO – ĐẠT – HÀ – DUY - TÙNG 20 TRUY HỒI THÔNG TIN qi là trọng số tf-idf của từ i trong câu truy vấn di là là trọng số tf-idf của từ i trong tài liệu cos(q⃗ ,d⃗ ) là sự tương đồng cosine giữa q⃗ và d⃗ hay là cosine của góc giữa q⃗ và d⃗ Đối với những vector đã được chuẩn hóa về độ dài, sự tương đồng cosine chỉ đơn giản là tích vô hướng của hai vector (scalar product) Khi truy tìm, danh sách cho lại sẽ

Truy hồi thông tin Information Retrieval

Thông tin tài liệu

Từ khóa liên quan

Mục lục

1. CÁC KHÁI NIỆM CƠ BẢN VỀ TRUY HỒI THÔNG TIN

Khái niệm truy tìm thông tin

Các khái niệm liên quan

2. LỊCH SỬ HÌNH THÀNH VÀ PHÁT TRIỂN CỦA IR

3. CẤU TRÚC CỦA MỘT HỆ THỐNG IR

4. CÁC PHƯƠNG PHÁP TRUY HỒI THÔNG TIN

4.1. Mô hình boolean

Kỹ thuật chỉ mục ngược

4.2. Mô hình không gian vector

4.3. Mô hình xác suất

4.4. Mô hình lập chỉ mục ngữ nghĩa tiềm ẩn

4.5. Mô hình xử lý ngôn ngữ tự nhiên

5. MỘT VÀI SẢN PHẨM NỔI TIẾNG CỦA LĨNH VỰC IR

6. CÁC VẤN ĐỀ LỚN HIỆN NAY CỦA IR

Tài liệu tham khảo

Tài liệu cùng người dùng

Tài liệu liên quan