Mình sẽ tạo ra ba document

Mình tạo ba document (tài liệu) để mơ tả phần matching hoạt động Document Người lên ngựa kẻ chia bào Rừng phong thu nhốm màu quan san Document Ô hay buồn vương ngô đồng Vàng rơi vàng rơi thu mênh mông Document Một chiều bên bến sông thu Nghe tin em cưới đù Document câu thơ Truyện Kiều Nguyễn Du Document câu thơ thơ Tỳ Bà Bích Khê Document câu thơ thơ (mình khơng nhớ tên) Nguyễn Nhật Ánh Hãy tưởng tượng tìm kiếm data set Internet ( giả sử Internet có tài liệu này) với từ khóa nhập là: sơng thu Tìm kiếm free text query, nghĩa từ khóa gõ cách tùy ý tìm kiếm khơng có kết nối từ với Theo cách tìm kiếm này, nhập sơng thu hay thu sơng thuật tốn shows cho kết giống Hãy vào chi tiết bước để xem phần matching tìm kiếm hoạt động Bước : Term Frequency (TF – hay tần số xuất từ) Term Frequency (TF) tần số xuất từ văn Bên bảng chi tiết cho từ tần số chúng văn TF Document Document người lên ngự a kẻ chia bào rừng Term Frequency 1 1 1 phon g thu nhố m màu quan san 1 1 1 TF Document Document buồn vương ngô Term Frequency 1 1 1 đồng vàng rơi thu mênh mông 2 1 TF Document Document chiều bên bến sông thu Term Frequency 1 1 1 nghe tin em cưới đù 1 1 1 Trong thực tế, văn có kích thước (tổng số từ) khác Trong văn có kích thước lớn, tần số xuất từ nhiều so với văn có kích thước nhỏ Do đó, cần phải normalize (chuẩn hóa) tần số xuất từ văn dựa kích thước văn Một mẹo đơn giản chia số lần xuất từ cho tổng số từ văn Ví dụ Document 2, từ rơi xuất hai lần Tổng số từ Document 14 Do đó, tần số xuất chuẩn hóa (normalized TF) từ rơi 2/14 = 0.14 Từ đó, ta có tần số xuất chuẩn hóa từ tài liệu sau Normalized TF cho Document 1: Document người lên ngựa kẻ chia bào rừng Term Frequency 0.07 0.07 0.07 0.07 0.07 0.07 0.07 phon g thu nhốm màu quan san 0.07 0.07 0.07 0.07 0.07 0.07 0.07 Normalized TF cho Document 2: Document buồn vương ngô Term Frequency 0.07 0.07 0.07 0.07 0.07 0.07 đồng vàng rơi thu mênh mông 0.07 0.14 0.14 0.07 0.07 0.07 Normalized TF cho Document 3: Document chiều bên bến sông thu Term Frequency 0.07 0.07 0.07 0.07 0.07 0.07 0.07 nghe tin em cưới đù 0.07 0.07 0.07 0.07 0.07 0.07 0.07 Bước 2: Inverse Document Frequency (IDF – tần số nghịch từ data set) Mục đích việc tìm kiếm văn tìm văn data set (hoặc Internet nói chung) có nội dung liên quan với từ tìm kiếm người dùng Ở bước (TF), tất từ đánh giá quan trọng ngang nhau.Tuy nhiên, thực tế có số từ xuất q nhiều khơng có vai trò định việc tìm văn có nội dung liên quan với chủ đề mà người dùng tìm kiếm (trong tiếng Anh từ xuất nhiều quan trọng the, a, he, she, etc…) Chúng ta cần tìm cách để làm giảm trọng số từ xuất thường xuyên (trên Internet) tăng trọng số từ xuất (trên Internet) Và cơng cụ tốn học Logarithm (Lơgarit) giúp làm điều Chúng ta tính IDF cho từ chiều data set ( data set gồm văn bản: Document 1, Document Document 3) 1 IDF(chiều) = + ln(Tổng số văn data set/Số văn chứa từ chiều) Data set có văn : Document 1, Document Document Từ chiều xuất Document IDF(chiều) = + ln(3/1) = + 1.0986 = 2.0986 Bên bảng IDF tất từ data set Trong từ thu xuất văn nên có điểm số IDF thấp so với từ xuất văn Từ IDF người 2.0986 lên 2.0986 ngựa 2.0986 kẻ 2.0986 chia 2.0986 bào 2.0986 rừng 2.0986 phong 2.0986 thu 2.0986 nhốm 2.0986 màu 2.0986 quan 2.0986 san 2.0986 ô 2.0986 hay 2.0986 buồn 2.0986 vương 2.0986 2.0986 ngô 2.0986 đồng 2.0986 vàng 2.0986 rơi 2.0986 mênh 2.0986 mông 2.0986 2.0986 chiều 2.0986 2.0986 bên 2.0986 bến 2.0986 sông 2.0986 nghe 2.0986 tin 2.0986 em 2.0986 cưới 2.0986 2.0986 2.0986 đù 2.0986 Bước : Tính TF * IDF Hãy nhớ mục đích tìm văn có nội dung liên quan cho cụm từ tìm kiếm : sơng thu Trong từ cụm từ tìm kiếm, nhân giá trị normalized TF văn với giá trị IDF từ để tính giá trị TF*IDF từ văn Document Document Document sông 0 0.146902 thu 0.07 0.07 0.07 Bước : Vector Space Model – Cosine Similarity Chúng ta mô tả document vector Một data set xem tập hợp vector không gian vector Mỗi từ khơng gian vector có trục riêng Bằng cách sử dụng cơng thức phía dưới, tìm độ tương đồng tài liệu Cosine Similarity (d1, d2) = Dot product(d1, d2)/||d1|| * ||d2|| Dot product(d1, d2) = d1[0]*d2[0] + d1[1]*d2[1] + d1[n]*d2[n] ||d1|| = square root( d1[0]^2 + d1[1]^2 + + d1[n]^2 ) ||d2|| = square root( d2[0]^2 + d2[1]^2 + + d2[n]^2 ) Hình 2: khơng gian chiều sơng – thu Vector làm việc với số Trong viết làm việc với văn Đó lý sử dụng TF – IDF để chuyển đổi từ ngữ văn thành số để biểu diễn chúng dạng vector Cụm từ tìm kiếm người dùng xem vector Chúng ta tính giá trị TF * IDF cho cụm từ truy vấn TF IDF TF * IDF sông 0.5 2.0986 1.0493 thu 0.5 0.5 Bây tính cosine similarity (tương đồng cosine) cụm từ tìm kiếm (Query) Document 1 Cosine Similarity(Query, Document 1) = Dot Product(Query, Document 1)/||Query|| *|| Document 1|| Dot Product(Query, Document 1) = Query[TF*IDF(sông)] * Document 1[TF*IDF(sông)] + Query[TF*IDF(thu)]*Document 1[TF*IDF(thu)] = 1.0493*0 + 0.5*0.07 = 0.035 ||Query|| = square root(Query[TF*IDF(sông)]^2+ Query[TF*IDF(thu)]^2) = squareroot(1.0493^2 + 0.5^2) = 1.1623 ||Document 1|| = square root(Document 1[TF*IDF(sông)]^2+ Document 1[TF*IDF(thu)]^2) = squareroot(0^2 + 0.07^2) = 0.07 → Cosine Similarity(Query, Document 1) = 0.035/(1.1623*0.07) = 0.430167335 Bảng giá trị cosine similarity cụm từ tìm kiếm văn có data set Cosine Similarity Document Document Document 0.430167335 0.430167335 Chúng ta thấy Document có score cao Lý Document chứa đồng thời hai từ sơng thu Điều có nghĩa người dùng tìm kiếm với cụm từ sơng thu thuật tốn trả tài liệu có độ tương đồng cosine lớn với Document ... set gồm văn bản: Document 1, Document Document 3) 1 IDF(chiều) = + ln(Tổng số văn data set/Số văn chứa từ chiều) Data set có văn : Document 1, Document Document Từ chiều xuất Document IDF(chiều)... tìm kiếm (Query) Document 1 Cosine Similarity(Query, Document 1) = Dot Product(Query, Document 1)/||Query|| *|| Document 1|| Dot Product(Query, Document 1) = Query[TF*IDF(sông)] * Document 1[TF*IDF(sông)]... cụm từ tìm kiếm văn có data set Cosine Similarity Document Document Document 0.430167335 0.430167335 Chúng ta thấy Document có score cao Lý Document chứa đồng thời hai từ sông thu Điều có nghĩa