Phân cụm tập kết quả tìm kiếm web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn và fisher kernel

83 932 4
Phân cụm tập kết quả tìm kiếm web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn và fisher kernel

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI Trường Đại học Công nghệ ––––––––––oOo–––––––––– Nguyễn Thị Ngọc Thanh PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB THEO CÁCH TIẾP CẬN PHÂN TÍCH NGỮ NGHĨA TIỀM ẨN VÀ FISHER KERNEL LUẬN VĂN THẠC SỸ Hà Nội 1 MỤC LỤC DANH SÁCH HÌNH VẼ 4 DANH SÁCH BẢNG BIỂU 4 BẢNG TỪ VIẾT TẮT 5 TỪ KHÓA 5 MỞ ĐẦU 6 CHƢƠNG 1 - GIỚI THIỆU TỔNG QUAN 7 1.1 Động lực 7 1.2 Phạm vi công việc 9 1.3 Cấu trúc luận văn 11 CHƢƠNG 2 - VẤN ĐỀ TÌM KIẾM WEB VÀ PHÂN CỤM TÀI LIỆU 12 2.1 Máy tìm kiếm Web 12 2.1.1 Cấu trúc bên trong 12 2.1.2 Biểu diễn kết quả tìm kiếm 14 2.2 Phân cụm 16 2.2.1 Khái niệm phân cụm 17 2.2.2 Phân cụm tài liệu 18 2.2.2.1 Khái niệm 18 2.2.2.2 Ứng dụng vào Phân cụm kết quả tìm kiếm Web 18 2.2.3 Các bước thực hiện phân cụm 20 2.2.4 Mục tiêu phân cụm 20 2.2.5 Các vấn đề cần chú ý 20 2.2.6 Giải thuật phân cụm 21 2.2.6.1 Phương pháp phân cụm phân cấp 21 2.2.6.2 Phương pháp phân cụm phân hoạch 23 2.2.7 Đánh giá kết quả phân cụm 25 2.2.8 Ứng dụng phân cụm 25 2.3 Một số kĩ thuật phân cụm kết quả tìm kiếm Web hiện nay 26 2.3.1 Scather/Gather 26 2.3.2 Grouper 26 2.3.3 LINGO 26 2.4 Một số kĩ thuật xử lí tự động tài liệu văn bản 28 2.4.1 Phân tích từ vựng 28 2.4.2 Loại bỏ stop-words 28 2.4.3 Stemming 28 2 CHƢƠNG 3 - PHÂN TÍCH NGỮ NGHĨA TIỀM ẨN VÀ FISHER KERNEL 30 3.1 Mô hình không gian vectơ 30 3.1.1 Trọng số từ 31 3.1.2 Độ đo tương tự giữa các tài liệu 32 3.2 Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA) 33 3.2.1 Đặc điểm ngôn ngữ tự nhiên 34 3.2.2 Ý tưởng LSA 35 3.2.3 Mục tiêu LSA 36 3.2.4 Kĩ thuật LSA 36 3.2.4.1 Biểu diễn tập tài liệu dưới dạng bảng co_occurrence 36 3.2.4.2 SVD 37 3.2.4.2.1 Cơ sở toán học 38 3.2.4.2.2 Chi tiết kĩ thuật SVD 40 3.3 Fisher Kernel 50 3.3.1 Giới thiệu 50 3.3.2 Fisher Kernel 50 3.3.3 Xây dựng Fisher Kernel dựa trên LSA 51 CHƢƠNG 4 - GIẢI THUẬT PHÂN CỤM KẾT QUẢ TÌM KIẾM WEB THEO CÁCH TIẾP CẬN LSA VÀ FISHER KERNEL 55 4.1 Phân cụm tài liệu theo cách tiếp cận LSA và Fisher Kernel 55 4.1.1 Xác định phần tử đại diện nhóm 55 4.1.2 Giải thuật phân cụm phân hoạch theo LSA và Fisher Kernel (LSA- FK) 55 4.2 Phân cụm kết quả tìm kiếm Web theo cách tiếp cận LSA và Fisher Kernel 56 4.2.1 Tiền xử lí 58 4.2.2 Biểu diễn tập tài liệu dưới dạng bảng co_occurrence 59 4.2.2.1 Trích chọn từ đặc trưng 59 4.2.2.2 Đánh giá mức độ quan trọng của từ thông qua phương pháp trọng số từ 59 4.2.3 Khai phá các khái niệm ẩn bên trong tập tài liệu theo phương pháp LSA và tính độ tương tự giữa các tài liệu theo hàm đo độ tương tự Fisher Kernel 60 4.2.3 Phân cụm 60 4.2.5 Tạo nhãn 61 4.3 Mô hình thực hiện 62 4.3.1 Mô hình Carrot 2 62 4.3.2 Lí do chọn ngôn ngữ lập trình Java 64 3 CHƢƠNG 5 - ĐÁNH GIÁ THỰC NGHIỆM 66 5.1 Các phƣơng pháp đánh giá thực nghiệm 66 5.1.1 Sự thật (Ground truth) 66 5.1.2 Ý kiến người sử dụng 68 5.2 Đánh giá giải thuật LSA-FK 69 5.2.1 Giá trị k tối ưu 70 5.2.2 Ngưỡng tương tự 71 5.2.3 Tính tổng quát câu hỏi truy vấn 72 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO 75 PHỤ LỤC 79 4 DANH SÁCH HÌNH VẼ Hình 1.1 Sự mất cân xứng giữa ý tưởng và câu hỏi truy vấn của người sử dụng 8 Hình 1.2 Khai phá Web 10 Hình 2.1 Cấu trúc bên trong của của máy tìm kiếm Web 12 Hình 2.2 Cấu trúc dữ liệu inverted index 13 Hình 2.3 Giao diện biểu diễn kết quả tìm kiếm của Google 16 Hình 2.4 Mô phỏng phân cụm 17 Hình 2.5 Tiến trình phân cụm tài liệu 19 Hình 2.6 Phân cụm phân cấp 23 Hình 3.1 Biểu diễn hình học SVD 41 Hình 3.2 Biểu diễn hình học mô hình khái niệm (aspect model) 50 Hình 4.1 Kiến trúc Carrot2 63 Hình 4.2 Kiến trúc Carrot 2 theo dạng đường ống 63 Hình 4.3 Tiến trình phân cụm của Carrot2 64 Hình 5.1 Giao diện 70 Hình 5.2 Hình bên trái với q=0.77 , hình bên phải với q=0.90 71 Hình 5.3 Hình bên trái với ngưỡng tương tự 0.23 và bên phải 0.53 72 Hình 5.4 Bên trái câu hỏi “Clinton” và bên phải ““hillary rodham clinton” . 73 DANH SÁCH BẢNG BIỂU Bảng 3.1 Một số phép đo độ tương tự giữa hai vectơ tài liệu X, Y. Trong đó, x i , y i là trọng số thành phần thứ i của vectơ 33 Bảng 3.2 Ma trận biểu diễn quan hệ giữa các từ và các tài liệu 46 5 BẢNG TỪ VIẾT TẮT Từ hoặc cụm từ Từ viết tắt Từ tiếng Anh Phân tích ngữ nghĩa tiềm ẩn LSA Latent Semantic Analysis Phân tích trị đặc biệt SVD Singular Value Decomposition Phân cụm kết quả tìm kiếm Web theo cách tiếp cận LSA và Fisher Kernel. LSA-FK Latent Semantic Analysis and Fisher Kernel approach to Clustering of Web Search Results. Kết quả tìm kiếm Web Snippet Result Search Web Độ đo tương tự Fisher Kernel theo LSA K(LSA(d i ), R k ) TỪ KHÓA Phân cụm, Phân cụm tài liệu, Phân tích ngữ nghĩa tiềm ẩn (LSA), Phân tích trị đặc biệt (SVD), Fisher Kernel. 6 MỞ ĐẦU Hiện nay khai thác và tìm kiếm thông tin trên Internet là vấn đề được rất nhiều nhà nghiên cứu quan tâm. Chúng ta đều biết, khối lượng thông tin trên Web khổng lồ, câu hỏi truy vấn của người sử dụng thường ít chính xác, nên số kết quả trả về từ các máy tìm kiếm có thể lên đến hàng trăm hay hàng ngàn tài liệu. Do đó, tìm được chính xác tài liệu mình quan tâm là rất khó và đôi lúc là không thể. Một trong những cách tiếp cận để giải quyết vấn đề này là sử dụng kĩ thuật phân cụm tài liệu theo chủ đề tạo nên cách biểu diễn kết quả tìm kiếm Web cô động và rõ ràng. Trong luận văn này tôi xin mạnh dạn đề xuất giải thuật Phân cụm kết quả tìm kiếm Web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) và Fisher Kernel. Tư tưởng chính của giải thuật là, trước tiên phân tích ngữ nghĩa tiềm ẩn bên trong tập kết quả để tìm ra các khái niệm bao hàm trong đó, sau đó phân cụm tập kết quả theo tư tưởng giải thuật phân cụm K-means sử dụng hàm độ đo tương tự Fisher Kernel để nhóm các kết quả theo khái niệm chúng mô tả. Giải thuật được cài đặt trên mô hình Carrot 2 . Mặc dù bản thân đã nổ lực cố gắng, được sự tạo điều kiện nghiên cứu rất tốt của trường ĐH Công nghệ và sự hướng dẫn của thầy giáo Vũ Đức Thi, nhưng đề tài không tránh khỏi những thiếu sót, rất mong nhận được sự cộng tác của các chuyên gia, bạn bè và đồng nghiệp. 7 Chƣơng 1 - GIỚI THIỆU TỔNG QUAN 1.1 Động lực Ngày nay, cùng với sự bùng nổ thông tin và sự phát triển của mạng truyền thông, Word Wide Web trở thành nguồn tài nguyên thông tin khổng lồ và quý giá, luôn sẵn sàng phục vụ tất cả mọi người. Nếu không có nó mọi hoạt động diễn ra hàng ngày sẽ kém hiệu quả. Nhưng làm thế nào sử dụng nguồn tài nguyên ấy hiệu quả là vấn đề không đơn giản. Điều này phụ thuộc vào nhiều yếu tố như kinh nghiệm tìm kiếm, kiến thức cơ bản liên quan đến lĩnh vực cần nghiên cứu, hoặc là sự thành thạo về ngôn ngữ v.v… Mặc dù hiện nay đã có rất nhiều máy tìm kiếm như Google 1 1 , Altavista 2 2 , HotBot 3 3 , Lycos 4 4 , AllTheWeb 5 5 , v.v…giúp chúng ta rất nhiều trong việc tìm kiếm thông tin. Song hầu hết các máy này đều thực hiện việc tìm kiếm dựa trên phương pháp tính hạng liên quan (Document Ranking) và biểu diễn kết quả tìm kiếm theo thứ tự hạng xuất hiện. Tuy nhiên phương pháp này được đánh giá là không hiệu quả vì một vài nguyên nhân sau đây:  WWW là một kho dữ liệu khổng lồ và luôn được cập nhật thay đổi do tính động của các trang Web, nên máy tìm kiếm chỉ có thể xây dựng được một phần bảng chỉ số tài liệu 6 6 , do vậy không thể thực hiện tính hạng được cho tất cả các tài liệu.  Người sử dụng đặt câu hỏi truy vấn quá ngắn không đủ để thể hiện được mục đích của họ. Khi đó kết quả tìm kiếm là chung chung và có thể lên đến hàng trăm hoặc hàng ngàn kết quả. Theo thống kê cho 1 1 http://www.google.com 2 2 http://www.altavista.com 3 3 http://www hotbot.com 4 4 http://www.lycos.com 5 5 http://www.alltheweb.com 6 6 Theo thông tin Google năm 2001 bảng chỉ số có 1.35 tỷ trang, năm 2003 có trên 3.08 tỷ trang 8 biết không quá một nữa số người sử dụng duyệt quá trang thứ hai và chỉ có 3/4 người sử dụng duyệt hết 2 trang. Vậy đa số người sử dụng duyệt tối đa 10-30 kết quả (mặc định hiển thị 10 – 20 kết quả trên một trang), do đó bỏ qua một số kết quả tìm kiếm cần thiết nhất.  Đa số người sử dụng gặp khó khăn trong việc đặt câu hỏi truy vấn nên câu hỏi thường không đúng như mong muốn. Sở dĩ như vậy là vì khi có ý định tìm thông tin trên WWW, thì trong suy nghĩ của họ cũng hình thành khái niệm về cái họ cần tìm. Sau đó khái niệm này được chuyển thành một tập các từ và được sử dụng để đặt câu hỏi truy vấn. Tuy nhiên tính chính xác của việc chuyển đổi khái niệm thành tập các từ lại phụ thuộc vào nhiều nhân tố, chẳng hạn như kinh nghiệm tìm kiếm, kiến thức cơ bản liên quan đến khái niệm đó, hoặc là sự thành thạo về ngôn ngữ. Điều này tạo nên sự bất cân xứng giữa khái niệm và câu hỏi truy vấn. Máy tìm kiếm lại chỉ có thể tìm kiếm và sắp xếp kết quả theo các từ khóa trong câu hỏi truy vấn, nên thứ tự hạng xuất hiện của các kết quả không đúng như mong muốn người sử dụng. Hình 1.1 Sự mất cân xứng giữa ý tưởng và câu hỏi truy vấn của người sử dụng 9  Hơn nữa, phương pháp tính hạng yêu cầu quá khắt khe về mức độ liên quan giữa kết quả tìm kiếm với câu hỏi truy vấn và giả định rằng các kết quả luôn so sánh được với nhau. Tuy nhiên điều này là không đúng, vì đối với các câu hỏi truy vấn chung chung có những kết quả chỉ là chủ đề con nên việc so sánh giữa các kết quả không cân xứng. Ví dụ, đối với câu hỏi truy vấn “jaguar”, kết quả trả về có thể bao gồm những từ về jaguar cars, jaguar as a cat, Mac OS X Jaguar. v.v…  Ngoài ra phương thức này dễ bị Spam lợi dụng để đưa những trang Web xấu lên đầu. Do đó yêu cầu phát triển giao diện tương tác thông minh giữa người và máy, hỗ trợ người sử dụng trong việc tìm kiếm thông tin là cần thiết. Nó đang là một trong những vấn đề được nhiều nhà nghiên cứu quan tâm. Mặc dù gần đây đã có nhiều giải thuật được đưa ra, nhưng tôi vẫn mạnh dạn đề xuất giải thuật Phân cụm kết quả tìm kiếm Web theo cách tiếp cận LSA và Fisher Kernel, viết tắt là LSA-FK, với hy vọng đóng góp được một giải thuật phân cụm tốt xử lí được vấn đề từ đồng nghĩa và từ đa nghĩa trong ngôn ngữ tự nhiên với mức độ nhất định. 1.2 Phạm vi công việc Để đạt được mục đích trên, tôi sẽ phải thực hiện những công việc sau:  Tìm hiểu hướng nghiên cứu hiện tại đối với bài toán tìm kiếm thông tin, đặc biệt tập trung vào khai phá nội dung trang Web và tối ưu kết quả trả về;  Vận dụng lí thuyết đại số tuyến tính và kĩ thuật phân tích ma trận để rút gọn số chiều của vectơ biểu diễn nội dung tài liệu, từ đó xây [...]... quan và không liên quan với nhau, vì vậy hiệu quả thu thập tài liệu theo không gian nhóm được cải tiến đáng kể Thứ hai, là công cụ tiện ích hiệu quả khi duyệt tìm thông tin trong tập tài liệu lớn[11, 8] Gần đây nó được sử dụng để phân cụm kết quả tìm kiếm Web[ 30, 28] Hình 2.5 Tiến trình phân cụm tài liệu Khái niệm phân cụm kết quả tìm kiếm Web Phân cụm kết quả tìm kiếm web là tổ chức sắp xếp tập kết quả. .. kỹ thuật phân cụm và xử lí văn bản liên quan Chương 3 giới thiệu các khái niệm sử dụng trong giải thuật phân cụm kết quả tìm kiếm Web Đầu tiên, trình bày hai mô hình Không gian vectơ và Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA) được sử dụng nhiều trong bài toán tìm kiếm thông tin Sau cùng, trình bày về Fisher Kernel Chương 4 trình bày chi tiết về giải thuật phân cụm LSA-FK và cho ví... khai phá Web tiếp tục được phân thành một số lĩnh vực sau: + Khai phá sử dụng Web, phân tích mẫu truy cập và phân tích xu hướng cá nhân + Khai phá kết hợp cấu trúc Web, tập trung vào vấn đề phân tích các cấu trúc liên kết của Web + Cuối cùng khai phá nội dung Web, nghiên cứu các vấn đề tìm kiếm thông tin từ Internet Luận văn của tôi thuộc vào lĩnh vực sau cùng này KHAI PHÁ WEB Khai phá nội dung Web Khai... liệu lớn chứa các thông tin về thuộc tính và hành vi mua sắm của khách hàng  Sinh học: phân lớp động vật và thực vật theo tập thuộc tính của chúng  Thư viện: phân loại sách  Nghiên cứu trái đất: phân cụm để theo dõi các tâm động đất từ đó xác định được các vùng nguy hiểm  WWW: phân cụm kết quả tìm kiếm web, v.v… 25 2.3 Một số kĩ thuật phân cụm kết quả tìm kiếm Web hiện nay 2.3.1 Scather/Gather Scather/Gather... trang Web Khai phá cấu trúc Web Tối ưu kết quả trả về Khai phá sử dụng Web Khai phá các mẫu truy nhập Hình 1.2 Khai phá Web 10 Phân tích các xu hướng cá nhân 1.3 Cấu trúc luận văn Các phần còn lại của luận văn được tổ chức như sau: Chương 2 tóm tắt ngắn gọn về máy tìm kiếm Web Đồng thời khảo sát các cách tiếp cận biểu diễn kết quả tìm kiếm Web, trong đó đặc biệt chú ý cách biểu diễn theo chủ đề Phần tiếp. .. thuộc cụm này thì phi tương tự với các phần tử thuộc cụm khác Có thể định nghĩa phân cụm ở mức cơ bản nhất: Phân cụm là quá trình tổ chức các đối tượng thành các cụm sao cho các phần tử trong mỗi cụm tương tự nhau” Ví dụ, minh họa phân cụm Hình 2.4 Mô phỏng phân cụm Cho tập dữ liệu (hình bên trái), tiến hành thực hiện phân cụm tập dữ liệu 17 theo khoảng cách hình học Kết thúc quá trình phân cụm ta... quả trong việc tìm kiếm, ta nên biểu diễn kết quả tìm kiếm Web theo chủ đề vì nó có những ưu điểm sau:  Tên chủ đề giúp người sử dụng phát hiện được chủ đề chính trong tập kết quả và do đó có thể xác định nhanh chóng tài liệu cần tìm  Việc phân chia tập kết quả theo chủ đề giúp người sử dụng có thể nghiên cứu thêm các tài liệu liên quan đến những chủ đề khác mà nó thường bị bỏ qua khi duyệt kết quả. .. tồn tại các khái niệm ngữ nghĩa tiểm ẩn mà phương pháp phân tích ngữ nghĩa tiềm ẩn đã ra đời Có thể hiểu, phân tích ngữ nghĩa là đưa ra cách “hiểu” văn bản qua mối liên quan ngữ nghĩa của văn bản với tập khái niệm cho trước Khái niệm là ý chung và trừu tượng về một vật, do hoạt động của trí tuệ tạo nên qua các kinh nghiệm đúc kết thành Các khái niệm này biểu thị nghĩa thông qua tập từ khóa sử dụng trong... phương pháp tiếp cận có thể phân các giải thuật này thành hai loại: thứ nhất theo phương pháp phân cụm phân hoạch và thứ hai theo phương pháp phân cụm phân cấp 2.2.6.1 Phương pháp phân cụm phân cấp Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc dạng cây, cấu trúc này được xây dựng theo kĩ thuật đệ quy Theo kĩ... ứng dụng phân cụm tập tài liệu kích thước lớn Một vài điều kiện hội tụ thường được sử dụng trong phân cụm phân cấp [33] 24 2.2.7 Đánh giá kết quả phân cụm Làm thế nào để đánh giá được chất lượng cụm? Trong thực tế, không có một tiêu chuẩn tuyệt đối nào, tùy theo các mục đích phân cụm sẽ có các tiêu chuẩn cụm khác nhau phù hợp với yêu cầu sử dụng Các tiêu chuẩn này được người sử dụng đưa ra tùy theo từng . phân cụm kết quả tìm kiếm Web[ 30, 28]. Hình 2.5 Tiến trình phân cụm tài liệu Khái niệm phân cụm kết quả tìm kiếm Web Phân cụm kết quả tìm kiếm web là tổ chức sắp xếp tập kết quả tìm kiếm theo. thuật Phân cụm kết quả tìm kiếm Web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) và Fisher Kernel. Tư tưởng chính của giải thuật là, trước tiên phân tích ngữ nghĩa tiềm. ––––––––––oOo–––––––––– Nguyễn Thị Ngọc Thanh PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB THEO CÁCH TIẾP CẬN PHÂN TÍCH NGỮ NGHĨA TIỀM ẨN VÀ FISHER KERNEL LUẬN VĂN THẠC SỸ

Ngày đăng: 03/08/2015, 18:06

Từ khóa liên quan

Mục lục

  • Trang Bìa

  • MỤC LỤC

  • DANH SÁCH HÌNH VẼ

  • DANH SÁCH BẢNG BIỂU

  • BẢNG TỪ VIẾT TẮT

  • TỪ KHÓA

  • MỞ ĐẦU

  • Chương 1 - GIỚI THIỆU TỔNG QUAN

  • 1.1 Động lực

  • 1.2 Phạm vi công việc

  • 1.3 Cấu trúc luận văn

  • Chương 2 - VẤN ĐỀ TÌM KIẾM WEB VÀ PHÂN CỤM TÀI LIỆU

  • 2.1 Máy tìm kiếm Web

  • 2.1.1 Cấu trúc bên trong

  • 2.1.2 Biểu diễn kết quả tìm kiếm

  • 2.2 Phân cụm

  • 2.2.1 Khái niệm phân cụm

  • 2.2.2 Phân cụm tài liệu

  • 2.2.3 Các bước thực hiện phân cụm

  • 2.2.4 Mục tiêu phân cụm

Tài liệu cùng người dùng

Tài liệu liên quan