Phát hiện trùng lặp văn bản và xây dựng chỉ mục hiệu quả cho WebCrawler

Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Phạm Nguyễn Tuấn Anh Điện thoại liên lạc 01234870864 Email: pnta1986@yahoo.com.vn Lớp: Công nghệ phần mềm – K49 Hệ đào tạo: Chính quy Đồ án tốt nghiệp thực tại: trường Đại học Bách Khoa Hà Nội Thời gian làm ĐATN: Từ ngày 1/3/2009 đến 31/ 5/2009 Mục đích nội dung ĐATN Mục đích đồ án: nghiên cứu hướng tiếp cận việc phát văn trùng lặp Search Engine Áp dụng kết nghiên cứu, xây dựng chương trình tìm kiếm văn trùng lặp đánh giá kết Các nhiệm vụ cụ thể ĐATN      Tìm hiểu mô hình Search Engine Nghiên cứu kỹ thuật mục ngược Search Engine Nghiên cứu hướng tiếp cận việc phát văn trùng lặp Xây dựng chương trình cài đặt kỹ thuật phát văn trùng lặp So sánh đánh giá kỹ thuật Lời cam đoan sinh viên: Tôi - Phạm Nguyễn Tuấn Anh - cam kết ĐATN công trình nghiên cứu thân hướng dẫn Tiến sỹ Nguyễn Khanh Văn Các kết nêu ĐATN trung thực, chép toàn văn công trình khác Hà Nội, ngày 24 tháng năm 2009 Tác giả ĐATN Phạm Nguyễn Tuấn Anh Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày tháng năm Giáo viên hướng dẫn TS Nguyễn Khanh Văn Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Các văn trùng lặp xuất phổ biến, đặc biệt văn Web Vấn đề phát văn trùng lặp có ý nghĩa quan trọng nhiều hệ thống Trong Search Engine, việc phát văn trùng giúp làm tăng hiệu lưu trữ nâng cao chất lượng kết tìm kiếm Chính thế, phát văn trùng lặp trở thành hướng tập trung nhà nghiên cứu nhiều năm qua Ở Việt Nam, mà Search Engine bắt đầu xuất vài năm gần đây, vấn đề tương đối bước đầu quan tâm Đồ án tập trung tìm hiểu, so sánh đánh giá hướng tiếp cận để giải vấn đề phát văn trùng lặp Mặt khác, áp dụng phương pháp phát văn trùng lặp vào thực tế, ta phải xử lí lượng văn lớn Vì thế, đồ án này, người viết nêu giải pháp để giải vấn đề Có hai hướng tiếp cận trình bày đồ án: “Phát văn gần trùng” “Phát tái sử dụng đoạn văn cục bộ”, người viết tập trung vào hướng tiếp cận thứ hai Hướng tiếp cận không cho phép ta xác định độ giống hai văn bản, mà đoạn văn chung chúng Các phương pháp kỹ thuật lấy dấu vân tay hướng tiếp cận mô tả, cài đặt đánh giá để ưu nhược điểm chúng Để giải vấn đề quy mô cuả tập văn bản, kỹ thuật mục ngược áp dụng Đây kỹ thuật lưu trữ Search Enigne, giúp cho việc tìm kiếm nhanh chóng văn tập lớn Cuối cùng, với lý thuyết trên, người viết thử nghiệm xây dựng chương trình phát văn trùng lặp tập văn thực tế Các kết có từ chương trình sở để so sánh đánh giá kỹ thuật chống trùng văn Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler ABSTRACT OF THESIS Duplícate documents, especially Web documents, are abundant Duplicate detection problem is very important for many systems In Search Engines, successful duplicate detection will increase storing efficiency and enhance quality of search results Therefore, duplicate document detection has been a focus of researchers for many years In Vietnam, when Search Engines have just appeared in the recent years, this problem is still new but has begun to be received attention The thesis will focus on studying, comparing and assessing approaches to solve duplicate document detection problem Otherwise, when applying detecting methods in practice, we must handle a huge number of documents Therefore, in this thesis, the writer will also give a solution to this problem There are two approaches which will be represented in this thesis: “Near-Duplicate Detection” and “Local Text Reuse Detection”, and the latter one will be focused by the writer This approach allows us not only to identify the similarity of two documents, but also to locate the same text between them Methods and fingerprinting techniques in this approach will be described, setup and assessed to show their own advantages and disadvantages In order to solve the issue of document collection’s scale, inverted index will be applied This is the basic storing technique in Search Engines, which allows for rapid searching documents in a big collection Finally, with the above theories, the writer will construct a duplicate detecting program for a real document collection Results from program will be base to compare and assess the fingerprinting techniques Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler LỜI CẢM ƠN LỜI CẢM ƠN Trước hết, em xin chân thành gửi lời cảm ơn sâu sắc tới thầy cô giáo trường Đại học Bách Khoa Hà Nội nói chung thầy cô khoa Công nghệ Thông tin, môn Công nghệ phần mềm nói riêng tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu suốt năm học tập rèn luyện trường Đại học Bách Khoa Hà Nội Em xin gửi lời cảm ơn đến TS Nguyễn Khanh Văn - Giảng viên môn Công nghệ phần mềm, khoa Công nghệ Thông tin, trường Đại học Bách Khoa Hà Nội hết lòng giúp đỡ, hướng dẫn dạy tận tình trình em làm đồ án tốt nghiệp Em xin gửi lời cảm ơn đến anh công ty NaiSCorp giúp đỡ em nhiều mặt chuyên môn liệu để em hoàn thành đồ án Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành đồ án tốt nghiệp Hà Nội, ngày 24 tháng 05 năm 2009 Phạm Nguyễn Tuấn Anh Lớp CNPM – K48 Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler MỤC LỤC TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP ABSTRACT OF THESIS LỜI CẢM ƠN MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG 10 DANH MỤC TỪ VIẾT TẮT 11 ĐẶT VẤN ĐỀ 12 Chương I : TỔNG QUAN VỂ SEARCH ENGINEError! Bookmark not defined Search Engine gì? Error! Bookmark not defined Kiến trúc tổng quát Error! Bookmark not defined 2.1 Sự khác Web tập liệu tổ chứcError! Bookmark not defined 2.2 Kiến trúc tổng quát Error! Bookmark not defined 2.3 Các cấu trúc liệu .Error! Bookmark not defined 2.4 Crawling the Web Error! Bookmark not defined 2.5 Đánh mục Web Error! Bookmark not defined 2.6 Tìm kiếm Error! Bookmark not defined 2.7 Hệ thống xếp hạng (Ranking System) .Error! Bookmark not defined Chương II : CHỈ MỤC VĂN BẢN Error! Bookmark not defined Chỉ mục văn Error! Bookmark not defined 1.1 Các lý thuyết Inverted File .Error! Bookmark not defined 1.2 Đánh mục vị trí từ Error! Bookmark not defined Xây dựng mục Error! Bookmark not defined 2.1 Đảo ngược nhớ Error! Bookmark not defined 2.2 Đảo ngược xếp Error! Bookmark not defined 2.3 Đảo ngược trộn Error! Bookmark not defined Duy trì mục Error! Bookmark not defined Chương III : PHÁT HIỆN CÁC VĂN BẢN GẦN TRÙNG (NEAR - DUPLICATES DETECTION)Error! Bookmark not defined Giới thiệu Error! Bookmark not defined Lấy dấu vân tay với simhash Error! Bookmark not defined Bài toán khoảng cách Hamming Error! Bookmark not defined 3.1 Định nghĩa .Error! Bookmark not defined 3.2 Giải thuật cho trường hợp truy vấn trực tuyến: Error! Bookmark not defined 3.3 Nén dấu vân tay Error! Bookmark not defined 3.4 Giải thuật cho truy vấn nhóm Error! Bookmark not defined Các kết thực nghiệm Error! Bookmark not defined 4.1 Lựa chọn tham số Error! Bookmark not defined 4.2 Sự phân tán dấu vân tay .Error! Bookmark not defined 4.3 Khả mở rộng Error! Bookmark not defined Khảo sát vấn đề phát văn trùng lặpError! Bookmark not defined Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler 5.1 Nguồn gốc tập văn Error! Bookmark not defined 5.2 Tại lại phải phát văn trùng lặp? – Mục đích cuối cùng.Error! Bookmark n 5.3 Tập đặc trưng văn Error! Bookmark not defined Chương IV : PHÁT HIỆN SỰ TÁI SỬ DỤNG ĐOẠN VĂN BẢN (LOCAL TEXT REUSE DETECTION)Error! Bookmark not defined Các khái niệm Error! Bookmark not defined 1.1 Dấu vân tay .Error! Bookmark not defined 1.2 Biểu diễn lượng văn chung Error! Bookmark not defined 1.3 Phân loại tái sử dụng văn .Error! Bookmark not defined Kỹ thuật lấy dấu vân tay cho việc phát tái sử dụng đoạn văn Error! Bookmark not defined Phương pháp chồng Error! Bookmark not defined 3.1 Kỹ thuật kgram: .Error! Bookmark not defined 3.2 Kỹ thuật 0modp: Error! Bookmark not defined 3.3 Kỹ thuật Winnowing: Error! Bookmark not defined 3.4 Karp-Rabin String Matching – Tham khảo Error! Bookmark not defined Phương pháp không chồng Error! Bookmark not defined 4.1 Kỹ thuật Hashbreaking Error! Bookmark not defined 4.2 Kỹ thuật DCTFingerprinting .Error! Bookmark not defined So sánh kỹ thuật lấy dấu vân tay Error! Bookmark not defined Kết luận Error! Bookmark not defined Chương V : XÂY DỰNG CHƯƠNG TRÌNH TÌM KIẾM VĂN BẢN TRÙNG LẶP Error! Bookmark not defined Mô tả chương trình Error! Bookmark not defined Lấy dấu vân tay văn Error! Bookmark not defined 2.1.Chọn tham số cho kỹ thuật .Error! Bookmark not defined 2.2 Hàm băm Error! Bookmark not defined 2.3 Xây dựng hàm băm cho khúc .Error! Bookmark not defined Xây dựng mục ngược cho dấu vân tay tập văn – IndexingError! Bookma 3.1 Phương thức lưu trữ dấu vân tay .Error! Bookmark not defined 3.2 Quá trình xây dựng mục .Error! Bookmark not defined 3.3 Duy trì mục Error! Bookmark not defined 3.4 Đánh giá chi phí Error! Bookmark not defined Tìm kiếm văn trùng lặp – Searching Error! Bookmark not defined 4.1 Giải thuật tìm kiếm Error! Bookmark not defined 4.2 Đánh giá chi phí tìm kiếm Error! Bookmark not defined Chương VI : ĐÁNH GIÁ KẾT QUẢ THỰC TẾError! Bookmark not defined Đánh giá độ xác Error! Bookmark not defined 1.1 Kỹ thuật kgram: .Error! Bookmark not defined 1.2 Kỹ thuật 0modp: Error! Bookmark not defined 1.3 Kỹ thuật Winnowing: Error! Bookmark not defined 1.4 Kỹ thuật Hashbreaking: Error! Bookmark not defined 1.5 Kỹ thuật DCTFingerprinting .Error! Bookmark not defined Đánh giá tính hiệu Error! Bookmark not defined 2.1 Số lượng dấu vân tay Error! Bookmark not defined 2.2 Thời gian tìm kiếm Error! Bookmark not defined Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler Kết luận Error! Bookmark not defined Chương VII: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂNError! Bookmark not de Tổng kết Error! Bookmark not defined Hướng phát triển Error! Bookmark not defined Tài liệu tham khảo Error! Bookmark not defined Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler DANH MỤC HÌNH VẼ Hình 1: Một ví dụ cho kết tìm kiếm trùng lặp tìm kiếm Google 13 Hình 2: Mô hình kiến trúc cấp cao Search Engine Error! Bookmark not defined Hình 3: Cấu trúc liệu kho chứa Error! Bookmark not defined Hình 4: Các mục tiến, mục ngược, từ điển Error! Bookmark not defined Hình 5: Quá trình trộn mục Error! Bookmark not defined Hình 6: Đồ thị Precision Recall theo giá trị k khác với Simhash 64-bitError! Bookmark not def Hình 7: Phân tích phân bố dấu vân tay Error! Bookmark not defined Hình 8: Ví dụ biến đổi Cosine rời rạc hàm gần giống nhauError! Bookmark not defined Hình 9: Giá trị băm từ segment biểu diễn đồ thịError! Bookmark not defined Hình 10: Biến đổi DCT chuỗi giá trị hình 9, lượng tử hoá kết Dãy bit hình kết nhận .Error! Bookmark not defined Hình 11: Một định dạng dâu vân tay 32 bit Error! Bookmark not defined Hình 12: Ví dụ độ vững DCTFingerprinting, số bên cạnh dấu vân tay đoạn Error! Bookmark not defined Hình 13: Sự hiệu kỹ thuật lấy dấu vân tay F1 m điểm F1 trung bình loại tái sử dụng đoạn văn số lượng dấu vân tay trung bình văn bảnError! Bookmark not define Hình 14: Sự hiệu kỹ thuật lấy dấu vân tay phát văn gần trùng F1 m điểm F1 trung bình loại C1, C2 C4; số dấu vân tay trung bình văn .Error! Bookmark not defined Hình 15: Sự hiệu kỹ thuật lấy dấu vân tay việc phát tái sử dụng đoạn văn cục F1 m điểm F1 trung bình loại C3, C5 C6 số dấu vân tay trung bình văn Error! Bookmark not defined Hình 16: Mô hình phần chương trình: Indexing SearchingError! Bookmark not defined Hình 17: Các dấu vân tay (DVT) danh sách đảo tương ứng lưu trữ file: Indexed File Inverted File Error! Bookmark not defined Hình 18: Kết tìm kiếm sử dụng kỹ thuật kgram Error! Bookmark not defined Hình 19: Một kết khác có từ kgram Error! Bookmark not defined Hình 20: Kết tìm kiếm sử dụng kỹ thuật 0modp Error! Bookmark not defined Hình 21: Kết tìm kiếm sử dụng kỹ thuật Winnowing Error! Bookmark not defined Hình 22: Kết tìm kiếm sử dụng kỹ thuật Hashbreaking Error! Bookmark not defined Hình 23: Đoạn văn đầu vào trước thay đổi .Error! Bookmark not defined Hình 24: Đoạn văn sau thay đổi (từ "hai" thay từ "bốn")Error! Bookmark not defined Hình 25: Kết tìm kiếm Hashbreaking văn bị thay đổiError! Bookmark not defined Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler Hình 26: Kết tìm kiếm DCTFingerprinting văn bị thay đổiError! Bookmark not defined Hình 27: Số lượng dấu vân tay sinh kỹ thuật: kgram, 0modp, WinnowingError! Bookmark not de Hình 28: Số lượng dấu vân tay sinh kỹ thuật: Hashbreaking, DCTFingerprinting, Winnowing Error! Bookmark not defined Hình 29: Thời gian tìm kiếm trung bình với văn đầu vào kỹ thuật: kgram, 0modp Winnowing Error! Bookmark not defined Hình 30: Thời gian tìm kiếm trung bình với văn đầu vào kỹ thuật: Hashbreaking, DCTFingerprinting Winnowing Error! Bookmark not defined Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler DANH MỤC BẢNG Bảng 1: Inverted File cấp văn sở liệu Keeper .Error! Bookmark not defined Bảng 2: Giải thuật đảo ngược nhớ Error! Bookmark not defined Bảng 3: Giải thuật đảo ngược trộn Error! Bookmark not defined Bảng 4: Định nghĩa mức hàm lượng A có B .Error! Bookmark not defined Bảng 5: Các loại tái sử dụng văn .Error! Bookmark not defined Bảng 6: Code hàm băm Newhash ngôn ngữ C Error! Bookmark not defined Bảng 7: Quá trình xây dựng mục cho dấu vân tay tập văn sử dụng kỹ thuật đảo ngược trộn Error! Bookmark not defined Bảng 8: Quá trình trộn mục đĩa mục nhớ để có mục đĩa mớiError! Bookmark Bảng 9: Giải thuật tìm kiếm văn trùng lặp Error! Bookmark not defined Bảng 10: Giải thuật trộn danh sách đảo .Error! Bookmark not defined Bảng 11: Ưu, nhược điểm kỹ thuật lấy dấu vân tay .Error! Bookmark not defined Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM 10 Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler DANH MỤC TỪ VIẾT TẮT Số TT Từ Giải nghĩa NVLV Người viết luận văn SE Search Engine DVT Dấu vân tay NDD Near-Duplicates Detection LTRD Local Text Reuse Detection DCT Discrete Cosine Transform FFT Fast Fourier Transform Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM 11 Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler ĐẶT VẤN ĐỀ Hiện tượng văn trùng lặp tượng phổ biến đời thường Các văn hay đoạn văn nhiều nguyên nhân thường bị chép lại, chúng xuất nhiều nguồn khác Các blogger thường lấy tin từ báo điện tử; người gửi thư trả lời thường trích lại phần hay toàn thư trước; sinh viên viết luận văn chép số phần từ luận văn năm trước… Vì nhiều lí khác mà người ta muốn tìm phát văn trùng Ví dụ, hệ thống lưu trữ liệu, văn trùng lặp làm tốn tài nguyên lưu trữ mà giá trị thông tin mang lại không nhiều Hay tổ chức làm việc liên quan đến quyền tác giả, họ cần phải tìm văn (tác phẩm văn chương, báo khoa học…) có sử dụng lại cách trái phép tác phẩm trước Chính vậy, người ta quan tâm nhiều đến vấn đề phát văn trùng lặp Việc phát văn trùng lặp có ý nghĩa lớn Search Engine (SE) Trong trình lấy liệu, Crawl Engine (bộ máy lấy liệu từ Internet) phải bỏ qua trang Web mà trùng gần trùng với trang Web lấy trước Bởi đường link từ trang Web không khác so với trang Web trước, nên việc phân tích ý nghĩa Điều giúp tiết kiệm băng thông, tránh việc phải gửi request nhiều đến host tương ứng Mặt khác, SE thường lưu trữ số lượng khổng lồ văn bản, dung lượng đến hàng terabyte, mà phần đáng kể số văn trùng lặp Điều làm cho hệ thống trở nên hiệu Tuy nhiên, ảnh hưởng văn trùng lớn đến chất lượng kết tìm kiếm, mối quan tâm hàng đầu SE Người sử dụng tìm kiếm muốn kết mong muốn đưa đầu tiên, không muốn có nhiều kết bị trùng lặp Nếu có nhiều kết trùng, lượng thông tin người dùng nhận ít, chất lượng kết trả thấp Chính lí mà việc phát văn trùng lặp vấn đề trọng tâm mà công ty chuyên SE nghiên cứu Bài toán phát văn trùng lặp toán khó Nếu văn trùng hoàn toàn với (bị chép hoàn toàn, không thay đổi) cần phép kiểm tra đơn giản ta phát Tuy nhiên, phát văn trùng lặp vấn đề khó nhiều Các dạng trùng lặp vô đa dạng Một văn chép toàn hay phần Các phần văn chép bị thay đổi (thêm, xoá bị xáo trộn) nằm vị trí văn Văn sau chép sai khác với văn cũ vài phần nhỏ, ví dụ trang Web khác đoạn text ghi thời gian hay số người truy nhập…, không giống bao Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM 12 Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler nhiêu, phần chung chúng vài câu hay đoạn văn nhỏ Chính đa dạng việc chép văn mà có giải thuật hay kỹ thuật đo cách xác giống văn Hình 1: Một ví dụ cho kết tìm kiếm trùng lặp tìm kiếm Google Khi xây dựng hệ thống chống trùng văn bản, SE phải đối mặt với khó khăn Khó khăn lớn quy mô tập văn bản: SE lưu trữ lượng văn khổng lồ, lên tới vài chục triệu trang Web Thứ hai, SE ngày tải hàng nghìn trang Web mới, chúng phải chống trùng trước lưu trữ vào kho Do đó, toán đặt cho SE phải nhanh xác định trang Web có trùng gần trùng với trang Web có tập hay không Đây vấn đề không dễ giải quyết, cần có cách xử lí đặc biệt để giải toán Các kỹ thuật phát văn trùng lặp tồn phong phú, có chung nét bản: chúng chia văn thành đoạn nhỏ, dùng phép biến đổi (thường dùng hàm băm) để lấy “chữ ký” đoạn văn “Chữ ký” toàn văn xây dựng từ “chữ ký” phận Phép so sánh văn tiến hành việc đối sánh “chữ ký” văn Mức độ sai khác “chữ ký” thước đo cho sai khác văn Nói chung, kết so sánh xác, “chữ ký” văn phải biểu diễn nội dung văn nhiều Hiện có hướng tiếp cận việc phát văn trùng lặp: Phát văn gần trùng (Near-Duplicates Detection - NND) Phát tái sử dụng đoạn văn cục (Local Text Reuse Detection - LTRD) Đây hai số Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM 13 Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler phương pháp phát văn trùng lặp mà nhà nghiên cứu đưa Chúng kiểm nghiệm cho độ xác cao nhiều loại văn Ý tưởng phương pháp NND sử dụng hàm băm đặc biệt để băm văn thành giá trị băm tương ứng với văn Giá trị băm “chữ ký” đại diện cho văn Các giá trị băm gọi dấu vân tay văn Hàm băm sử dụng simhash Đây hàm băm đặc biệt có tính chất với văn gần trùng dấu vân tay tương ứng chúng sai khác số lượng nhỏ bit Với tính chất này, việc đo độ giống hai văn đơn giản xác định số bit khác hai dấu vân tay tương ứng Khác với NND, LTRD, “chữ ký” văn tập dấu vân tay Mỗi dấu vân tay giá trị băm đoạn văn Việc so sánh văn thay so sánh tập dấu vân tay tương ứng Số lượng dấu vân tay chung tập định độ giống văn Điểm mạnh LTRD việc xác định mối quan hệ văn bản, phương pháp xác đoạn văn chung văn Để giải vấn đề quy mô tập văn SE, phương pháp phát văn trùng khác có cách làm khác nhau, tuỳ thuộc vào chất phương pháp Nhưng nhìn chung, phương pháp tìm cách tổ chức việc lưu trữ “chữ ký” văn cách tối ưu để cho với “chữ ký” văn số lượng “chữ ký” văn có tập chọn để so sánh Đối với phương pháp NDD, ta xây dựng thành nhiều bảng, với bảng tập dấu vân tay hoán vị dấu vân tay có ứng với phép hoán vị Số lượng bảng tính toán kỹ để cho trung hoà yêu cầu thời gian tìm kiếm với yêu cầu dung lượng lưu trữ Đối với phương pháp LTRD, tập dấu vân tay văn lưu trữ dạng mục ngược (Inverted Index), kỹ thuật lưu SE Kỹ thuật lưu trữ đơn giản mang lại hiệu cao mặt thời gian Mục đích luận văn đồ án trình bày lý thuyết hướng tiếp cận trên, với trọng tâm hướng tiếp cận thứ hai: “Local Text Reuse Detection” Các phương pháp kỹ thuật hướng tiếp cận phân tích, so sánh đánh giá để thấy rõ ưu nhược điểm chúng Ngoài ra, luận văn đồ án trình bày kỹ thuật lưu trữ mục ngược, kỹ thuật sử dụng để lưu trữ tập dấu vân tay văn Cuối cùng, người viết áp dụng lý thuyết nêu để xây dựng chương trình tìm kiếm văn trùng lặp Chương trình sử dụng kỹ thuật phát văn trùng lặp khác nhau, sử dụng kỹ thuật mục ngược để lưu trữ dấu vân tay Chương trình cho phép tìm kiếm văn trùng lặp với văn đầu vào với tập văn tìm kiếm lớn thời gian tìm kiếm Từ kết có Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM 14 Phát trùng lặp văn xây dựng mục hiệu cho WebCrawler từ chương trình, người viết đưa so sánh đánh giá với kỹ thuật để thấy rõ ưu nhược điểm chúng Với nội dung trình bày trên, luận văn đồ án bao gồm chương, chương tóm tắt sau: Chương I: Giới thiệu tổng quan mô hình SE Chương II: Trình bày kỹ thuật lưu trữ theo mục SE Chương III: Chương trình bày hướng tiếp cận: “Phát văn gần trùng” Chương IV: Chương trình bày hướng tiếp cận: “Phát tái sử dụng đoạn văn cục bộ” Chương V: Trên sở lý thuyết trên, chương trình bày bước để xây dựng chương trình tìm kiếm văn trùng lặp Chương VI: Từ kết có từ chương trình, người viết đưa so sánh đánh giá cho kỹ thuật phát văn trùng lặp Chương VII: Tổng kết công việc làm nêu lên hướng phát triển để tài Vấn đề phát văn trùng lặp vấn đề Trên giới, nhà nghiên cứu quan tâm đến vấn đề từ lâu Trong khoảng 10 năm trở lại đây, số lượng công trình nghiên cứu liên quan đến vấn đề nhiều Nguyên nhân chủ yếu phát triển nhanh chóng SE Trong thập kỷ qua, SE tăng nhanh số lượng quy mô SE Đối với SE lớn Google, Yahoo, LiveSearch,… vấn đề chống trùng văn coi vấn đề ưu tiên cần nghiên cứu, ảnh hưởng trực tiếp tới chất lượng kết tìm kiếm Rộng nữa, kết nghiên cứu lĩnh vực phát văn trùng lặp áp dụng cho mục đích khác như: phân cụm văn (document clustering), truy xuất liệu có cấu trúc, phát SPAM… Tuy mới, Việt Nam chưa có nhiều người quan tâm tới vấn đề phát văn trùng lặp Sở dĩ động lực để nghiên cứu vấn đề không nhiều Vài năm gần đây, mà SE nội bắt đầu xuất vấn đề ý hơn, mức kế thừa kết nghiên cứu trước Với đề tài đồ án tốt nghiệp “Phát trùng lặp văn ứng dụng vào mục hiệu cho WebCrawler”, người viết luận văn mong đem đến nhìn cho người đọc hướng tiếp cận nhằm giải vấn đề mẻ thú vị Sinh viên thực hiện: Phạm Nguyễn Tuấn Anh – Khóa 49 Lớp CNPM 15

Phát hiện trùng lặp văn bản và xây dựng chỉ mục hiệu quả cho WebCrawler

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan