Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm văn bản

38 979 1
Bài giảng cơ sở dữ liệu chỉ mục và tìm kiếm văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN PGS.TS. Đặng Văn Đức dvduc@ioit.ac.vn Hà Nội - 2005/14 Nội dung        dvduc-2005/14 Hệ thống DBMS IR Mô hình tìm kiếm thông tin Bool Mô hình tìm kiếm thông tin không gian véctơ Mô hình tìm kiếm thông tin theo xác suất Độ đo hiệu Môtơ tìm kiếm WWW Kết luận Bài 4: Chỉ mục tìm kiếm văn 2/37 Nhắc lại kiến trúc MMDBMS Answer Query Multimedia Query Engine Document Index dvduc-2005/14 Image Index Bài 4: Chỉ mục tìm kiếm văn Audio Index Video Index 3/37 1. Hệ thống DBMS hệ thống IR   DBMS  Bản ghi có cấu trúc đồng  Mỗi ghi đặc trưng tập thuộc tính  Tìm kiếm sở đối sánh xác câu truy vấn giá trị thuộc tính ghi  Mọi kết truy vấn liên quan đến câu truy vấn có ích người sử dụng Hệ thống IR (Information Retrieval System)  Các ghi cấu trúc, tệp văn thông thường  Không chứa thuộc tính cố định  Tài liệu mục từ khóa hay khái niệm mục  Truy vấn sở đối sánh tương tự  Các Items xem phù hợp với hệ thống không phù hợp với người sử dụng dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 4/37 Tiến trình tìm kiếm tài liệu Off-line On-line Query Tài liệu văn Xử lý Xử lý Đại diện Đại diện query tài liệu Đối sánh (tính toán mức độ tương đồng) Tài liệu truy vấn Đánh giá mức độ thích hợp phản hồi dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 5/37 Tiến trình tìm kiếm tài liệu    Xử lý off-line:  Xử lý tài liệu để có đại diện (mô tả, đặc trưng).  Các đại diện lưu trữ với tài liệu. Quá trình truy vấn (on-line)  Đưa câu truy vấn, xử lý để có đại diện.  Đối sánh đại diện truy vấn với đại diện tài liệu.  Các tài liệu tương đồng kết truy vấn. Đánh giá tài liệu:   Quyết định tài liệu phù hợp. Phản hồi thích hợp  Sử dụng thông tin để điều chỉnh truy vấn, đại diện truy vấn, hoặc/và đại diện tài liệu.  Tiến trình phản hồi truy tìm thực lặp vài lần. dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 6/37 2. Mô hình Bool sở      Mô hình Bool hình thành sở lý thuyết tập hợp đại số Bool Các tài liệu (documents /records) tập từ khóa/thuật ngữ đại diện (gọi index terms). Các câu truy vấn biểu thức Bool hình thành khái niệm. Các toán tử Bool hay sử dụng: AND, OR NOT Ví dụ sử dụng toán tử:  Term1 OR Term2  Term1 AND Term2  Term1 AND NOT Term2 dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 7/37 Cấu trúc tệp mục   Cấu trúc tệp sử dụng CSDL đa phương tiện  Cấu trúc tệp phẳng: Không mục, tìm kiếm sở text-pattern.  Tệp chữ ký: mẫu bit làm đại diện tài liệu.  Tệp mục: Hay sử dụng nhất. Cấu trúc tệp mục (còn gọi inverted file)  Mỗi đầu vào chứa keyword/term danh tài liệu/bản ghi  Ví dụ: Term1: Record1, Record3 Term2: Record1, Record2 Term3: Record2, Record3, Record4  Qui tắc truy vấn Term4: Record1, Record2, Record3, Record4  (Term i AND Term j)  (Term i OR Term j)  (Term i AND NOT Term j) (Term1 AND Term3)=? (Term1 OR Term2)=? (Term1 AND NOT Term4)=? dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 8/37 Mở rộng tệp mục  Cần quan tâm đến yếu tố quan trọng tài liệu   Mở rộng thao tác tệp mục (inverted file)  Bổ sung hai tham số “within sentence” “adjacency”  Ví dụ:   Vị trí (gần kề) trọng số terms (vd. tần số xuất hiện).  (Term i within sentence Term j) – Term i j câu.  (Term i adjacency Term j) – Term i j gần kề tài liệu. Dạng tổng quát tệp mục (sau bổ sung thông tin vị trí) sau: Termi: Record no., Paragraph no., Sentence no., Word no. Ví dụ tìm kiếm tệp mục:  Hãy tìm kết truy vấn (information within sentence retrieval) tệp mục: information: R99, 10, 8, 3; R15, 15, 3, 6; R166, 2, 3, retrieval: R77, 9, 7, 2; R99, 10, 8, 4; R166, 10, 2, dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 9/37 Chỉ mục tự động tài liệu  Nhận xét tài liệu:   Không phải từ tài liệu quan trọng. Thao tác với thuật ngữ  Loại bỏ từ dừng (stop)  Xác định gốc từ (stem) retriev: retrieval, retrieving, retrieve  dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn Từ đồng nghĩa - từ điển 10/37 6. Độ đo hiệu  Các tham số đo hiệu  Tốc độ: Tốc độ cao, hiệu cao  Độ trung thực (Recall):    Đo công suất tìm kiếm mục thông tin liên quan từ CSDL.  Xác định tỷ lệ tổng số mục liên quan tìm toàn số mục liên quan CSDL.  Recall cao hiệu cao Độ xác (Precision):  Đo độ xác truy tìm.  Xác định tỷ lệ số mục mà liên quan với tổng số mục tìm thấy.  Precision cao hiệu hệ thống cao. Recall, Precision phải xem xét đồng thời  Recall cao Precision thấp: Cho lại danh sách dài, có mục không liên quan  Ngược lại, nhiều mục liên quan không tìm ra. dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 23/37 Độ đo hiệu  P∩R ∈ [ 0,1] P Hai tiêu chuẩn đánh giá   Độ trung thực (Recall): P∩R ∈ [ 0,1] R Độ xác (Precision): Pert – Tập tài liệu phù hợp thực tế Retr - Tập tài liệu mà hệ thống tìm Các tài liệu phù hợp (đối với users) Precision Các tài liệu tìm thấy (của hệ thống) Recall (0,0) Tập tài liệu dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 24/37 Độ đo hiệu năng: Ví dụ  CSDL có 1000 tài liệu, có 10 tài liệu liên quan đến câu truy vấn.  Giả sử câu truy vấn cho lại danh sách sau: R, R, I, I, R, R, I, I, R, I, R, R, I, I, R (user đinh I hay R)  Hãy tính toán độ trung thực độ xác hệ thống. Tổng số Recall Precision 1/10 1/1 2/10 2/2 2/10 2/3 2/10 1/2 3/10 3/5 … … … 15 8/10 8/15 item cho lại dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 25/37 7. Môtơ tìm kiếm WWW  Cấu hình đơn giản WWW Application programs CGI HTTP Client  Server Tìm kiếm thông tin Internet  URL: Protocol://Server-name[:port]//Document-name  Duyệt  Tìm kiếm dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 26/37 Đặc trưng trang Web  Hypertext  Tiệm cận quản lý thông tin liệu lưu trữ mạng node, chúng liên kết với links    Anchors (this is an anchor text) Hypermedia:  Là mở rộng hypertext,  Anchor node loại media text, đồ họa, ảnh, âm video. WWW  Là mở rộng mặt địa lý hypermedia  Anchors hay node liên kết đâu mạng. dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 27/37 Đặc trưng trang Web  Trọng số khái niệm trang web  Tần xuất xuất terms  Các node links (đến/đi) dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 28/37 Môtơ tìm kiếm WWW   Khác biệt hệ thống IR môtơ tìm kiếm WWW  Tài liệu phân tán  Tổng số tài liệu lớn  Tài liệu động không đồng  Tài liệu có cấu trúc Kiến trúc tổng quát môtơ tìm kiếm: thành phần   Spider (Crawler, Robot)  Duyệt trang Web, đọc nó, lần theo Link đến trang khác Site.  Duyệt theo chu ký thời gian (hàng tháng) để cập nhật thông tin. Chỉ mục (Index, Catalog)   dvduc-2005/14 Như sách khổng lồ chứa trang Web mà Spider tìm thấy Phần mềm tìm kiếm (Searcher)  Phần mềm tìm kiếm Catalog. Đối sánh, xếp hạng trang Web liên quan.  Các phần mềm tìm kiếm sử dụng tần suất , vị trí khái niệm để tính toán Bài 4: Chỉ mục tìm kiếm văn 29/37 Môtơ tìm kiếm WWW: Google URL Server Document Crawlers Information Anchor URL Resolver Compression Internet Indexer Repository Links Sorter Forward index Pagerank file Inverted file Searcher Web server dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 30/37 Môtơ tìm kiếm WWW: Google   Hai pha làm việc:  Thăm viếng Web (nạp trang Web), lập mục  Tìm kiếm tài liệu Pha thăm viếng Web lập mục  URL server gửi danh sách URL thu nhận đến Crawlers  Crawler thu nhận tài liệu (trang Web) chuyển đến Compression server để nén lưu trữ vào kho (Repository)  Bộ mục (Indexer) đọc tài liệu nén để giải nén phân tích cú pháp. Sinh tệp số thuận (Forward index file) sở diện, vị trí từ thuộc tính khác kích thước font chữ, chữ in (sắp xếp theo DocID)  Indexer phân tích liên kết trang Web lưu trữ thông tin quan trọng nguồn đích liên kết, text liên kết vào tệp anchor  dvduc-2005/14 . Bài 4: Chỉ mục tìm kiếm văn 31/37 Môtơ tìm kiếm WWW: Google  Pha thăm viếng Web lập mục (tt)  URL Resolver đọc URL từ Anchor file chuyển đổi URL tương đối sang URL tuyệt đối. Gửi Anchor text vào Forward index. Đồng thời sinh CSDL chứa Links.  Xếp hạng trang (PageRank) tài liệu tính toán sở CSDL liên kết.  Sorter phát sinh tệp số ngược (Inverted index) từ tệp số thuận (Forward index). Chỉ số ngược xếp theo WordID  Pha tìm kiếm tài liệu  User nhập câu truy vấn (các từ khóa) từ trình duyệt Web.  Chuyển câu truy vấn Google Web server, chuyển đến Google searcher  Bộ tìm kiếm (Searcher) tìm thông tin liên quan số thuận, tệp mục, tệp thông tin tài liệu tệp xếp hạng trang.  dvduc-2005/14 Xếp hạng tài liệu theo mức độ tương đồng với câu truy vấn. Bài 4: Chỉ mục tìm kiếm văn 32/37 Một vài đặc trưng môtơ tìm kiếm Google   Web Crawling  Chạy nhiều Crawlers (3) đồng thời  Tốc độ thăm viếng: 100 trang Web/s PageRanks Anchor Text  Trang quan trọng:  Nhiều trang khác liên kết (trỏ) đến  Một hay nhiều trang quan trọng trỏ đến  Xếp hạng trang trang A: PR(A) = (1-d) + d(PR(T1)/C(T1) + . + PR(Tn)/C(Tn)) d = [0,1] - tham số, T1 .Tn – trang Web liên kết đến A, C(Tn) – tổng liên kết khỏi trang Tn  Anchor Text   Có trọng số cao text thường. Searching  dvduc-2005/14 Bộ tìm kiếm nhận Query chuyển sang WordID đối sánh. Bài 4: Chỉ mục tìm kiếm văn 33/37 8. Kết luận     Các nhiệm vụ thiết kế CSDL văn  Trình diễn truy vấn tài liệu cách  So sánh độ tương tự câu truy vấn tài liệu Một vài mô hình tìm kiếm văn  Mô hình Bool  Mô hình không gian véctơ  Mô hình xác suất Mô tơ tìm kiếm WWW Cần có nghiên cứu để nâng cao hiệu tìm kiếm IR dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 34/37 Câu hỏi ôn tập    Mô hình tìm kiếm thông tin gì? Liệt kê mô hình tìm kiếm tổng quát. Chỉ mục gì? Tại mục làm tăng hiệu tìm kiếm thông tin hệ thống? Trong mô hình Bool, tài liệu tìm với câu truy vấn “keyword1 AND keyword2”, “keyword1 OR keyword2”, “keyword1 AND NOT keyword2”?   Tại thông tin vị trí thuật ngữ sử dụng để tăng cường độ xác tìm kiếm. Từ dừng, gốc từ từ đồng nghĩa gì? Tại sử dụng tiến trình mục tài liệu?  Xác định trọng số thuật ngữ cách nào? dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 35/37 Câu hỏi ôn tập  Tính toán mức độ tương đồng tài liệu câu truy vấn mô hình không gian vector nào?  Trong mô hình không gian véctơ, giả sử tài liệu đại diện D=[0.6, 0.8, 0, 0.2] đại diện câu truy vấn Q=[0.4, 0.6, 0.1]. Hãy tính toán tính tương đồng tài liệu câu truy vấn nhờ công thức hệ số cosin.   Đo hiệu hệ thống tìm kiếm thông tin đa phương tiện theo tham số nào? Giải thích thuật ngữ recall (độ trung thực) precision (độ xác). Sử dụng chúng nào? dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 36/37 Câu hỏi ôn tập  Giả sử có 10 mục liên quan đến truy vấn sở liệu 2000 mục. Hệ thống cho lại danh sách sau để đáp ứng câu truy vấn: R, R, I, R, I, R, R, I, R, R. Hãy tính toán cặp recall-precision cho giá trị recall 0.1, 0.3, ., 0.9 1.  Sự khác giống Hệ thống tìm kiếm thông tin WWW. dvduc-2005/14 Bài 4: Chỉ mục tìm kiếm văn 37/37 Câu hỏi? [...]... dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 27/37 Đặc trưng trang Web  Trọng số các khái niệm và trang web  Tần xuất xuất hiện các terms  Các node và links (đến/đi) dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 28/37 Môtơ tìm kiếm WWW  Khác biệt giữa hệ thống IR và môtơ tìm kiếm WWW   Tổng số tài liệu rất lớn  Tài liệu động và không đồng nhất   Tài liệu phân tán Tài liệu có cấu trúc... dvduc-2005/14 Bộ tìm kiếm nhận Query và chuyển sang WordID và đối sánh Bài 4: Chỉ mục và tìm kiếm văn bản 33/37 8 Kết luận  Các nhiệm vụ thiết kế chính của CSDL văn bản    Trình diễn và truy vấn tài liệu bằng cách nào So sánh độ tương tự giữa câu truy vấn và tài liệu như thế nào Một vài mô hình tìm kiếm văn bản   Mô hình không gian véctơ    Mô hình Bool Mô hình xác suất Mô tơ tìm kiếm WWW Cần... quan Các phần mềm tìm kiếm đều sử dụng tần suất , vị trí khái niệm để tính toán Bài 4: Chỉ mục và tìm kiếm văn bản 29/37 Môtơ tìm kiếm WWW: Google URL Server Document Crawlers Information Anchor URL Resolver Compression Internet Indexer Repository Links Sorter Forward index Pagerank file Inverted file Searcher Web server dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 30/37 Môtơ tìm kiếm WWW: Google... WWW Cần có các nghiên cứu tiếp theo để nâng cao hiệu năng tìm kiếm của IR dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 34/37 Câu hỏi ôn tập    Mô hình tìm kiếm thông tin là gì? Liệt kê 4 mô hình tìm kiếm tổng quát Chỉ mục là gì? Tại sao chỉ mục làm tăng hiệu năng tìm kiếm thông tin trong hệ thống? Trong mô hình Bool, tài liệu nào được tìm ra với câu truy vấn “keyword1 AND keyword2”, “keyword1... tài liệu  Nhận xét:  Nếu N=dfj thì thuật ngữ j không nên sử dụng làm chỉ mục vì trọng số của thuật ngữ j bằng 0 theo công thức trên  Các khái niệm làm chỉ mục tốt là khái niệm chỉ xuất hiện trong vài tài liệu (trọng số của nó cao hơn) dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 12/37 Tóm tắt tiến trình chỉ mục tài liệu        Nhận biết các từ trong tiêu đề, trong bảng tóm tắt, hoặc /và. .. dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 18/37 4 Mô hình tìm kiếm theo xác suất  Cho trước câu truy vấn q và tài liệu di trong tập tài liệu, mô hình tìm kiếm xác suất ước lượng xác suất mà người sử dụng tìm ra tài liệu di liên quan  Xác suất điều kiện  Sau lần truy vấn (sử dụng phương pháp nào đó, ví dụ cosine) với tập tài liệu huấn luyện ta có:  N – tổng số tài liệu,  R – tổng số tài liệu liên... Web), lập chỉ mục Tìm kiếm tài liệu Pha thăm viếng Web và lập chỉ mục  URL server gửi danh sách URL sẽ thu nhận đến Crawlers  Crawler thu nhận tài liệu (trang Web) và chuyển đến Compression server để nén và lưu trữ vào kho (Repository)  Bộ chỉ mục (Indexer) đọc tài liệu nén để giải nén và phân tích cú pháp Sinh tệp chỉ số thuận (Forward index file) trên cơ sở hiện diện, vị trí các từ và các thuộc... ω, α và β là các trọng số, β≤0 I – tập con tài liệu không liên quan Điều chỉnh tài liệu dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 22/37 6 Độ đo hiệu năng  Các tham số đo hiệu năng  Tốc độ: Tốc độ càng cao, hiệu năng càng cao  Độ trung thực (Recall):   Xác định bởi tỷ lệ giữa tổng số mục liên quan được tìm ra và toàn bộ số các mục liên quan trong CSDL   Đo công suất tìm kiếm các mục thông... trong bảng tóm tắt, hoặc /và tài liệu Loại bỏ từ dừng Nhận biết các từ đồng nghĩa Tìm gốc từ Đếm (tìm tần số) từ gốc trong mỗi tài liệu Tính toán trọng số các thuật ngữ hay từ gốc Tạo tệp mục lục dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 13/37 Nhận xét mô hình Bool  Ưu điểm của mô hình tìm kiếm Bool   Dễ hiểu và dễ cài đặt   Là mô hình rất đơn giản trên cơ sở lý thuyết tập hợp Được sử dụng... tích các liên kết trong từng trang Web và lưu trữ các thông tin quan trọng như nguồn và đích liên kết, text liên kết vào tệp anchor  dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 31/37 Môtơ tìm kiếm WWW: Google  Pha thăm viếng Web và lập chỉ mục (tt)  URL Resolver đọc các URL từ Anchor file và chuyển đổi URL tương đối sang URL tuyệt đối Gửi các Anchor text vào Forward index Đồng thời sinh CSDL . khác dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 18/37 dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản 4. Mô hình tìm kiếm theo xác suất  Cho trước câu truy vấn q và tài liệu d i trong tập tài liệu, . CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN Bài 4 PGS.TS. Đặng Văn Đức dvduc@ioit.ac.vn Hà Nội - 2005/14 dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản Nội dung  Hệ thống DBMS và IR  Mô hình tìm kiếm. dụng 4/37 dvduc-2005/14 Bài 4: Chỉ mục và tìm kiếm văn bản Tiến trình tìm kiếm tài liệu Off-line Tài liệu văn bản Đại diện query Đại diện tài liệu Xử lý Xử lý Đánh giá mức độ thích hợp và phản hồi Tài liệu truy

Ngày đăng: 27/09/2015, 08:13

Từ khóa liên quan

Mục lục

  • Slide 1

  • Nội dung

  • Nhắc lại kiến trúc MMDBMS

  • 1. Hệ thống DBMS và hệ thống IR

  • Tiến trình tìm kiếm tài liệu

  • Tiến trình tìm kiếm tài liệu

  • 2. Mô hình Bool cơ sở

  • Cấu trúc tệp chỉ mục

  • Mở rộng tệp chỉ mục

  • Chỉ mục tự động tài liệu

  • Chỉ mục tự động tài liệu

  • Chỉ mục tự động tài liệu

  • Tóm tắt tiến trình chỉ mục tài liệu

  • Nhận xét mô hình Bool

  • 3. Mô hình tìm kiếm không gian véctơ

  • Mô hình tìm kiếm không gian véctơ

  • Mô hình tìm kiếm không gian véctơ

  • Nhận xét mô hình tìm kiếm không gian véctơ

  • 4. Mô hình tìm kiếm theo xác suất

  • Mô hình tìm kiếm theo xác suất

Tài liệu cùng người dùng

Tài liệu liên quan