Luận văn:Link spam với đồ thị web và hạng trang web ppt

55 622 0
Luận văn:Link spam với đồ thị web và hạng trang web ppt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thu Trang Link spam với đồ thị web và hạng trang web Khoá luận tốt nghiệp đại học hệ chính quy Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: CN. Nguyễn Hoài Nam HÀ NỘI, 2006 Tóm tắt Bên cạnh sự phát triển của các máy tìm kiếm đặc biệt là các phương pháp tính hạng trang thì công nghệ spam nhằm đánh lừa máy tìm kiếm để nâng cao hạng của các trang web cũng phát triển không ngừng. Do vậy một vấn đề đặt ra là phải nhận diện các trang web là spam, đưa ra giải pháp tính hạng phù hợp chính xác hơn có loại bỏ spam. Khóa luận với đề tài LinkSpam với đồ thị web hạng trang web tập trung nghiên cứu các phương pháp nhận diện spam để nâng cao chất lượng hạng trang, và đề xuất giải pháp tính hạng có xử lý link spam. Khóa luận đã tiến hành thử nghiệm với máy tìm kiếm NUTCH cho các thuật toán LinkSpam thu được những kết quả khả quan ban đầu. Khóa luận cũng giới thiệu các kết quả nghiên cứu của chúng tôi đã được công bố trong [1, 2, 12]. ii Lời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo TS.Hà Quang Thụy CN. Nguyễn Hoài Nam, người đã tận tình hướng dẫn em trong quá trình thực hiện khóa luận tố t nghiệp. Em chân thành cảm ơn các thầy cô các cán bộ của trường Công Nghệ đã tạo cho em những điều kiện thuận lợi để học tập nghiên cứu. Em xin cảm ơn các thầy cô giáo trong bộ môn Các Hệ Thống Thông Tin, nhóm xemina Data Mining đã giúp đỡ, hỗ trợ em về kiến thức chuyên môn. Cuối cùng, em muốn cảm ơn gia đình bạn bè, đặc biệt là bố mẹ, những người luôn giành cho em tình yêu, niềm tin động viên giúp em hoàn thành đề tài. Sinh Viên Nguyễn Thu Trang iii Mục lục Tiêu đề i Tóm tắt ii Danh sách bảng vi Danh sách hình vẽ vii Danh sách các ký hiệu viii 1 Tổng quan về hạng trang web spam 3 1.1 Giới thiệu hạng trang spam . . . . . . . . . . . . . . . . . . . . . 3 1.2 Các công nghệ tạo Spam . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1 Spam văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.2 Spam liên kết . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.3 Công nghệ giả dạng . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Đồ thị Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.1 Biểu diễn đồ thị Web . . . . . . . . . . . . . . . . . . . . . . 10 1.3.2 Mô hình Markov . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4 Tổng kết chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2 Một số phương pháp tính hạng trang cơ bản 13 2.1 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.1 Phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.2 Tính hạng trang dựa vào tính chất hội tụ . . . . . . . . . . . 15 2.1.3 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 Phương pháp HITS . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.1 Thuật toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 iv MỤC LỤC v 2.3 Phương pháp CCP . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.1 Thuật toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3 Các phương pháp xác định LinkSpam 24 3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Phương pháp TrustRank . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2.1 Nội dung phương pháp . . . . . . . . . . . . . . . . . . . . . 26 3.2.2 Đánh giá phương pháp . . . . . . . . . . . . . . . . . . . . . 29 3.3 Phương pháp xác định Link Farm . . . . . . . . . . . . . . . . . . . 30 3.3.1 Nội dung phương pháp . . . . . . . . . . . . . . . . . . . . . 30 3.3.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.4 Đề xuất phương pháp cải tiến . . . . . . . . . . . . . . . . . . . . . 34 4 Thử nghiệm 36 4.1 Giới thiệu hệ thống NUTCH . . . . . . . . . . . . . . . . . . . . . . 36 4.2 Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2.1 Môi trường thử nghiệm . . . . . . . . . . . . . . . . . . . . . 37 4.2.2 Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Kết luận 40 Tài liệu tham khảo 41 A Mã chương trình 43 A.1 Phân tích liên kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 A.2 Lọc Spam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Danh sách bảng 4.1 Tập các site nhân của link farm . . . . . . . . . . . . . . . . . . . . 38 vi Danh sách hình vẽ 1.1 Một cấu trúc liên kết tối ưu nhằm tăng hạng trang . . . . . . . . . 6 1.2 Một dạng spam với trang gốc p 0 . . . . . . . . . . . . . . . . . . . . 8 1.3 Một cấu trúc liên kết giữa nhiều spam farm không theo quy luật . . 8 1.4 Hai spam farm có chia sẻ liên kết với nhau . . . . . . . . . . . . . . 9 1.5 Một cấu trúc gồm 3 spam farm liên kết theo dạng vòng . . . . . . . 9 1.6 Một đồ thị web đơn giản gồm 4 đỉnh, 4 cung . . . . . . . . . . . . . 10 2.1 Tốc độ hội tụ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2 Mô tả tính chất authority hub . . . . . . . . . . . . . . . . . . . 18 2.3 Mở rộng tập cơ sở T từ tập nhân S . . . . . . . . . . . . . . . . . . 19 3.1 Phương pháp phân phối giảm dần . . . . . . . . . . . . . . . . . . . 27 3.2 Phương pháp chia đều giá trị trust . . . . . . . . . . . . . . . . . . 28 3.3 Đồ thị gồm 7 trang web đã được đánh dấu trang tốt, xấu . . . . . . 28 3.4 Biểu đồ kết quả thử nghiệm TrustRank [13] . . . . . . . . . . . . . 29 3.5 Đồ thị Web nhỏ gồm 6 trang thuộc 6 domain khác nhau . . . . . . 31 3.6 Biểu đồ kết quả phân phối cá c trang spam [4] . . . . . . . . . . . . 34 vii Bảng ký hiệu từ viết tắt Ký hiệu Ý nghĩa MAP Modified Adaptive PageRank HITS Hypertext Induced Topic Search CCP Connected Component in PageRank SEOs Search Engine Optimizes viii Lời mở đầu Bài toán tính hạng các đối tượng trên Web (trang Web, tác giả, chủ đề ) nói chung, bài toán tính hạng trang Web nói riêng, có ý nghĩa quan trọng trong lĩnh vực khai phá Web. Trong thời gian gần đây, nhiều công trình nghiên cứu trên thế giới giải quyết bài toán tính hạng trang Web, chẳng hạn như [3-17], đã được công bố. Lớp thuật toán tính hạng trang điển hình nhất là lớp thuật toán khai thác mối liên kết giữa các trang Web trong một đồ thị Web. Một số kết quả nghiên cứu của chúng tôi về tính hạng trang web trong máy tìm kiếm tập trung vào việc đề xuất các cải tiến nhằm tăng tốc thuật toán tính hạng trang thi hành trên một máy tìm kiếm tiếng Việt đã được công bố trong [1, 2, 12]. Hướng người dùng đã trở thành xu hướng nghiên cứu nổi bật về hạng trang trong thời gian gần đây. Trong hai năm gần đây nhất, theo xu hướng đó là một số lượng đáng kể các công trình nghiên cứu liên quan tới khái niệm spam, điển hình nhất là [3, 4, 5, 8, 13, 14] , đã được công bố. Các công trình nghiên cứu này được phân thành hai lớp chính. Lớp thứ nhất đề cập tới các giải pháp nhằm làm tăng giá trị cơ sở của hạng trang khi tăng cường ngữ nghĩa của các liên kết giữa các trang Web nhằm làm phù hợp hơn với ngữ cảnh ứng dụng. Lớp thứ hai quan tâm tới các giải pháp tính hạng trang hiển thị khi trình diễn kết quả phù hợp hơn với ngữ cảnh tìm kiếm của người sử dụng. Khóa luận tốt nghiệp với đề tài LinkSpam với đồ thị web hạng trang web tiến hành việc khảo sát, phân tích các giải pháp xác định LinkSpam đã được đề xuất trong hai năm gần đây để từ đó đề xuất các cải tiến giải pháp vào việc tính hạng trang trong máy tìm kiếm. Khóa luận này gồm bốn chương nội dung được mô tả sơ bộ như dưới đây. Chương 1. Tổng quan về hạng trang spam giới thiệu những nội dung cơ bản nhất về bài toán tính hạng web sự xuất hiện của các công nghệ spam nhằm nâng cao hạng trang. Ngoài ra, chương này cũng giới thiệu về đồ thị web cơ sở của thuật toán tính hạng trang. Chương 2. Một số phương pháp tăng tốc tính hạng trang trình bày hai phương pháp tính hạng trang cơ bản, được đề xuất sớm nhất, đã trở thành cơ sở cho các thuật toán tính hạng xác định WebSpam sau này. Đồng thời, chương này cũng giới thiệu thuật toán tính h ạng trang theo khối dựa vào tính chất liên thông, một kết quả nghiên cứu đã được công bố của chúng tôi. Chương 3. Các phương pháp xác định LinkSpam khảo sát phân tích kỹ lưỡng các phương pháp xác định LinkSpam đưa ra những đánh giá về ưu nhược điểm của chúng trong việc xác định các trang web là spam hay không. Đồng thời, chương này cũng trình bày phương pháp xác định LinkSpam do tôi đề xuất dựa trên cơ sở các phân tích đánh giá nói trên. Chương 4. Thử nghiệm trên hệ thống NUTCH phân tích hệ thống NUTCH (một máy tìm kiếm mã nguồn mở) một số cài đặt cải tiến của chúng tôi, đặc biệt đối với thành phần tính hạng trang Web. Kết quả thử nghiệm đánh giá phương pháp cho thấy tính khả dụng của nói. . . . Phần kết luận tổng kết tóm lược nội dung chính của khóa luận. [...]... tính hạng trang dựa vào liên kết Đối với các phương pháp tính hạng trang như vậy, máy tìm kiếm có khả năng xác định hạng của trang web độc lập với yêu cầu của người dùng vì chỉ căn cứ vào liên kết trong đồ thị Web Tuy nhiên, điều đó cũng được những người tạo spam lợi dụng để nâng cao hạng trang theo cách thay đổi cấu trúc đồ thị web Đó là công nghệ link spam 4 hay spam liên kết Mục đích nhằm vào các... Việt) gọi là trang gốc6 , từ các trang đó tạo các liên kết đến các trang spam Ví dụ hình 1.2 với p0 là trang gốc, p1 là trang spam Các trang gốc chứa thông tin hữu ích nên có khả năng sẽ được nhiều trang khác trỏ tới sẽ có hạng cao Những trang gốc này không nhất thiết trùng chủ đề với các trang spam do mục tiêu nhằm có được các tranghạng cao phân chia hạng đó cho các trang spam qua các... 1.3.1 Đồ thị Web Biểu diễn đồ thị Web Web có thể được mô hình như là một đồ thị có hướng G = (V, E) với tập các đỉnh V là các trang web (V có n trang, được đánh chỉ số từ 1 tới n) , tập các cung E là tập các cạnh mà mỗi cạnh ứng với một siêu liên kết giữa hai trang web: E={(i, j) |nếu có liên kết từ i trỏ đến j} Hình 1.6: Một đồ thị web đơn giản gồm 4 đỉnh, 4 cung Trong thực tế từ một trang web p... mục tiêu như vậy, người tạo trang web cố gắng đưa ra các công nghệ để cải thiện thứ hạng của trang trong máy tìm kiếm Vì vậy đã xuất hiện khái niệm spam đối với máy tìm kiếm hay web spam 1 , được Monika Henzinger, Rajeev Motwani Craig Silverstein đưa ra trong [7], trang web sử dụng các kỹ thuật spam đó được gọi là web spam Đồng thời, các dịch vụ tối ưu hạng trang web tương ứng, một ngành mới... thì trang web đó là quan trọng Do vậy giá trị cơ sở của hạng trang được tính toán dựa trên mối liên kết giữa các trang web Phương pháp tính hạng PageRank HITS [6, 9] là những thuật toán tính hạng cơ bản, 1.1 GIỚI THIỆU HẠNG TRANG SPAM 4 nền tảng đã được áp dụng hiệu quả vào các máy tìm kiếm như Google,Yahoo! Chúng tôi [1, 2, 12] đã đề xuất một số cải tiến tính hạng trang Web trong [9] áp... kiếm Trong thực tế đồ thị Web không liên thông tồn tại rất nhiều trang web không có liên kết đến hoặc liên kết ra Do vậy ma trận kề biểu diễn đồ thị Web thường là ma trận thưa Do vậy với các phương pháp tính hạng trên, dù dựa vào tốc độ hội tụ của các trang nhưng quá trình tính toán trên toàn đồ thị Web vẫn chưa tối ưu Chúng tôi đã nghiên cứu đề xuất một phương pháp tính hạng với việc phân tích... thức tính hạng trang tùy theo cấu trúc liên kết trong các nhóm đó Các phương pháp này tập trung vào phân tích các cấu trúc liên kết tức các trang liên kết với nhau như thế nào để quyết định một trangspam hay không thay đổi giá trị hạng trang của chúng 2 Xác định spam bằng cách đánh giá độ tốt của các trang thay vì tìm các trang xấu, hạng các trang web được phân phối từ hạng của các trang trong... dừng (hay bất biến) của xích Markov với ma trận xác suất chuyển P Với giả thiết đồ thị web là liên thông, khi đó tính chất trên được thỏa mãn Tức xác suất được duyệt tới của các trang trong đồ thị web là ổn định, giá trị đó được coi là hạng trang theo phương pháp PageRank[9] 1.4 Tổng kết chương 1 Xác định loại bỏ ảnh hưởng của web spam đối với bài toán tính hạng trang là một vấn đề quan trọng trong... véctơ hạng các trang web, với thành phần πi là hạng của trang i Từ (2.2) cho thấy véctơ hạng trang π chính là véctơ riêng của ma trận chuyển P tương ứng với giá trị riêng λ = 1 Do tính chất của chuỗi Markov, để tính véctơ riêng của P thuật toán giả thiết rằng đồ thị trang Web là liên thông, tức với cặp hai trang Web i, j bất kì luôn có đường đi từ i tới j ngược lại Tuy nhiên thực tế trên World Wide Web. .. crawl về với những gì sẽ được 1.3 ĐỒ THỊ WEB 10 hiển thị cho người dùng Hơn nữa, kỹ thuật này cũng hướng tới sự khác nhau giữa các lần crawl khác nhau của máy tìm kiếm Việc kết hợp với các kỹ thuật spam văn bản spam liên kết cũng được áp dụng cho các trang web trả về cho máy tìm kiếm để nâng cao hạng trang Vì vậy máy tìm kiếm bị đánh lừa về nội dung của trang web đưa ra đánh giá hạng trang không . trang web là spam, và đưa ra giải pháp tính hạng phù hợp chính xác hơn có loại bỏ spam. Khóa luận với đề tài LinkSpam với đồ thị web và hạng trang web tập trung nghiên. dung của trang web và đưa ra đánh giá hạng trang không chính xác. 1.3 Đồ thị Web 1.3.1 Biểu diễn đồ thị Web Web có thể được mô hình như là một đồ thị có hướng

Ngày đăng: 05/03/2014, 18:20

Từ khóa liên quan

Mục lục

  • Tiu

  • Tóm tt

  • Danh sách bang

  • Danh sách hình ve

  • Danh sách các ký hiu..

  • Tng quan v hang trang và web spam

    • Gii thiu hang trang và spam

    • Các cng ngh tao Spam

      • Spam vn ban

      • Spam lin kt

      • Cng ngh gia dang

      • Ð thi Web

        • Biu din thi Web

        • M hình Markov

        • Tng kt chng 1

        • Mt s phng pháp tính hang trang c ban

          • Phng pháp PageRank

            • Phng pháp

            • Tính hang trang da vào tính cht hi tu

            • Ðánh giá

            • Phng pháp HITS

              • Thut toán

              • Ðánh giá

              • Phng pháp CCP

                • Thut toán

                • Ðánh giá

                • Các phng pháp xác inh LinkSpam

                  • Gii thiu

Tài liệu cùng người dùng

Tài liệu liên quan