Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

74 975 5
Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hằng PHƯƠNG PHÁP PHÂN CỤM TÀI LIỆU WEB VÀ ÁP DỤNG VÀO MÁY TÌM KIẾM LUẬN VĂN THẠC SỸ Hà Nội – 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hằng PHƯƠNG PHÁP PHÂN CỤM TÀI LIỆU WEB VÀ ÁP DỤNG VÀO MÁY TÌM KIẾM Ngành: Cơng nghệ thơng tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY Hà Nội - 2007 Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 Những lời Với dịng chữ này, xin dành để gửi lời cảm ơn chân thành sâu sắc tới thầy giáo, tiến sỹ Hà Quang Thụy - người tận tình hướng dẫn, bảo tạo cho điều kiện tốt từ bắt đầu hồn thành cơng việc Đồng thời xin cảm ơn tất người thân yêu gia đình tơi tồn thể bạn bè, người ln giúp đỡ động viên vấp phải khó khăn, bế tắc Cuối cùng, xin chân thành cảm ơn đồng nghiệp Trung tâm CNTT, NHNo&PTNT VN người đem đến cho lời khun vơ bổ ích để giúp tháo gỡ khó khăn, vướng mắc q trình làm luận văn -1- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 01 tháng 11 năm 2007 Nguyễn Thị Thu Hằng -2- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 MỤC LỤC DANH MỤC CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ, BẢNG BIỂU MỞ ĐẦU CHƯƠNG - KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU WEB 1.1 Khai phá liệu Web 1.1.1 Giới thiệu Khai phá liệu 1.1.2 Dữ liệu Web nhu cầu khai thác thông tin 11 1.1.3 Đặc điểm liệu Web 12 1.1.4 Các hướng tiếp cận khai phá liệu Web 13 1.1.5 Nhu cầu Phân cụm tài liệu Web 14 1.2 Mô hình tìm kiếm thơng tin 15 1.2.1 Giới thiệu 15 1.2.2 Quy trình tìm kiếm thơng tin hệ thống 15 1.2.3 Ứng dụng phân cụm vào hệ thống tìm kiếm 18 1.3 Kết luận chương 19 CHƯƠNG - THUẬT TOÁN PHÂN CỤM WEB 20 2.1 Một số nội dung thuật toán phân cụm tài liệu 20 2.2 Tiêu chuẩn đánh giá thuật toán phân cụm 22 2.3 Các đặc tính thuật toán phân cụm web 24 2.3.1 Mơ hình liệu 24 2.3.2 Độ đo tương tự 27 2.3.3 Mơ hình phân cụm 29 2.4 Một số kỹ thuật Phân cụm Web điển hình 30 2.4.1 Phân cụm theo thứ bậc 30 2.4.2 Phân cụm cách phân mảnh 33 2.5 Các yêu cầu thuật toán phân cụm Web 35 2.5.1 Tách thông tin đặc trưng 35 2.5.2 Phân cụm chồng lặp 36 2.5.3 Hiệu suất 36 2.5.4 Khả khử nhiễu 36 2.5.5 Tính tăng 37 2.5.6 Việc biểu diễn kết 37 2.6 Bài toán tách từ tự động tiếng Việt 37 2.6.1 Một số khó khăn phân cụm trang Web tiếng Việt 37 2.6.2 Tiếng Từ tiếng Việt 39 2.6.3 Phương pháp tách từ tự động tiếng Việt fnTBL 39 2.6.4 Phương pháp Longest Matching 43 2.6.5 Kết hợp fnTBL Longest Matching 44 2.7 Kết luận chương 44 CHƯƠNG - THUẬT TOÁN PHÂN CỤM CÂY HẬU TỐ VÀ THUẬT TOÁN CÂY PHÂN CỤM TÀI LIỆU 45 3.1 Giới thiệu thuật tốn phân cụm trang Web có tính tăng 45 3.2 Thuật toán phân cụm hậu tố 46 3.2.1 Mô tả 46 3.2.2 Thuật toán STC 47 -3- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007 3.3 Thuật tốn phân cụm sử dụng phân cụm tài liệu 51 3.3.1 Giới thiệu 51 3.3.2 Trích chọn đặc trưng phân cụm tài liệu 51 3.3.3 Cây phân cụm tài liệu –DC Tree 55 3.4 Kết luận chương 60 CHƯƠNG - PHẦN MỀM THỬ NGHIỆM VÀ KẾT QUẢ THỰC NGHIỆM 61 4.1 Giới thiệu 61 4.2 Thiết kế sở liệu 62 4.3 Chương trình thử nghiệm 65 4.4 Kết thực nghiệm 66 4.5 Kết luận chương 69 -4- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 DANH MỤC CHỮ VIẾT TẮT AHC: Phân cụm tích tụ theo thứ bậc (Agglomerative Hierarchical Clustering) CSDL: Cơ sở liệu DF: tần suất xuất tài liệu (Document Frequency) DC-tree: Cây phân cụm tài liệu (Document Clustering Tree) fnTBL: Học dựa biến đổi (Fast Transformation-based learning) FCM: Fuzzy C-means FCMdd: Fuzzy C-Medoids IR: Mô hình tìm kiếm thơng tin (Information Retrieval) IDF: tần suất nghịch đảo tài liệu (inverse document frequency) KDD: Khai phá tri thức (Knowledge Discovery in Databases) STC: Phân cụm hậu tố (Suffix tree clustering) TF: tần suất xuất (term frequency) UPGMA: (Unweighter Pair-Group Method using Arithmetic averages) -5- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 DANH MỤC HÌNH VẼ, BẢNG BIỂU -6- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 MỞ ĐẦU World Wide Web kho thông tin khổng lồ với tiềm coi khơng có giới hạn Khai phá Web vấn đề nghiên cứu thời thời gian gần đây, thu hút nhiều nhóm nhà khoa học giới tiến hành nghiên cứu, đề xuất mơ hình, phương pháp nhằm tạo công cụ hiệu hỗ trợ người dùng việc tổng hợp thơng tin tìm kiếm tri thức từ tập hợp trang Web khổng lồ Internet Phân cụm tài liệu Web tốn điển hình khai phá Web, nhằm phân hoạch tập văn thành tập có tính chất chung, tốn phân cụm trang Web kết trả từ máy tìm kiếm hữu dụng [4-6, 8-15, 18, 19, 22, 24] Như biết, tập hợp trang Web đáp ứng câu hỏi trả từ máy tìm kiếm nói chung lớn, vậy, thuật tốn phân cụm văn cần có tính chất quan trọng tính "tăng" theo nghĩa thuật tốn phân cụm khơng phải thực tồn tập liệu mà thực theo cách từ phận liệu tới toàn liệu [4, 6, 11, 14, 15, 24] Điều cho phép thuật tốn tiến hành giai đoạn máy tìm kiếm đưa trang web kết Luận văn tập trung khảo sát phương pháp phân cụm Web có tính chất tăng thực số thử nghiệm tích hợp kết nghiên cứu nói vào phần mềm tải trang Web theo dạng máy tìm kiếm Đồng thời, luận văn triển khai số bước việc áp dụng phân cụm cho trang Web tiếng Việt Luận văn xây dựng phần mềm thử nghiệm tiến hành thử nghiệm phân cụm Web tiếng Việt Ngoài Phần Mở đầu, Phần Kết luận Phụ lục, nội dung luận văn chia thành chương chính: Chương – Khái quát khai phá liệu Web Chương giới thiệu nội dung nhất, cung cấp nhìn khái quát Khai phá liệu Web Đồng thời, luận văn mô tả sơ hệ thống thơng tin tìm kiếm nhu cầu phân cụm áp dụng cho hệ thống -7- Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007 Chương – Thuật toán phân cụm Web Chương trình bày cách khái qt thuật tốn phân cụm Web, đặc trưng yêu cầu thuật toán phân cụm Web Những yêu cầu độ đo áp dụng cho thuật toán phân cụm Web trình bày chương Một số kiến thức tiếng Việt giới thiệu Chương – Thuật toán phân cụm hậu tố thuật toán phân cụm tài liệu Chương sâu vào phân tích thuật tốn phân cụm Web có tính chất tăng Luận văn tập trung vào hai thuật toán phân cụm Web có tính “tăng” thuật tốn STC thuật tốn phân cụm có sử dụng cấu trúc DC (DC-tree) Chương – Phần mềm thử nghiệm kết thực nghiệm Chương trình bày kết thực nghiệm phân cụm Web theo phần mềm thử nghiệm sở thuật tốn phân cụm DC-tree Chương trình cài đặt thử nghiệm viết ngơn ngữ lập trình C# tảng Net Framework Microsoft sử dụng SQL Server 2000 để lưu trữ sở liệu Phần mềm hoạt động, cho kết phân cụm, nhiên, thời gian hạn chế nên luận văn chưa tiến hành đánh giá kết phân cụm cách thống Phần Kết luận trình bày tổng hợp kết thực luận văn phương hướng nghiên cứu nội dung luận văn Luận văn đạt số kết khả quan bước đầu việc nghiên cứu triển khai thuật tốn phân cụm Web có tính chất tăng, nhiên, luận văn khơng tránh khỏi sai sót Rất mong đóng góp ý kiến, nhận xét để tác giả hồn thiện kết nghiên cứu -8- ... yếu vào nội dung “khai phá phá nội dung trang Web? ?? định hướng vào phân cụm tập trang web kết tìm kiếm máy tìm kiếm 1.1.5 Nhu cầu phân cụm tài liệu Web Một toán quan trọng lĩnh vực khai phá Web. .. thống đưa tài liệu theo tập hợp, cụm, tập hợp chứa tài liệu tương tự Phân cụm Web – hiểu cách đơn giản - phân cụm tập tài liệu lấy từ Web Có hai tình phân cụm tài liệu Tình thứ việc phân cụm tồn... Chương – Thuật toán phân cụm hậu tố thuật toán phân cụm tài liệu Chương sâu vào phân tích thuật tốn phân cụm Web có tính chất tăng Luận văn tập trung vào hai thuật toán phân cụm Web có tính “tăng”

Ngày đăng: 18/01/2013, 14:54

Hình ảnh liên quan

Hình 1. Các bước trong KDD - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

Hình 1..

Các bước trong KDD Xem tại trang 12 của tài liệu.
Hình 2. Mô hình hệ thống tìm kiếm thông tin - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

Hình 2..

Mô hình hệ thống tìm kiếm thông tin Xem tại trang 18 của tài liệu.
2.4. Một số kỹ thuật Phân cụm Web điển hình - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

2.4..

Một số kỹ thuật Phân cụm Web điển hình Xem tại trang 32 của tài liệu.
Hình 4. Quá trình học - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

Hình 4..

Quá trình học Xem tại trang 44 của tài liệu.
Hình 5. Giai đoạn xác định từ cho tài liệu mới - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

Hình 5..

Giai đoạn xác định từ cho tài liệu mới Xem tại trang 45 của tài liệu.
Hình 6. Cây hậu tố cho xâu BANANA - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

Hình 6..

Cây hậu tố cho xâu BANANA Xem tại trang 48 của tài liệu.
- Các node của cây hậu tố được vẽ bằng hình tròn - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

c.

node của cây hậu tố được vẽ bằng hình tròn Xem tại trang 50 của tài liệu.
Bảng 1: Sáu node từ hình 14 và các cụm cơ sở tương ứng. - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

Bảng 1.

Sáu node từ hình 14 và các cụm cơ sở tương ứng Xem tại trang 51 của tài liệu.
Hãy xem minh họa tiếp theo của ví dụ trong Hình 7. Ở đây mỗi node là các cụm cơ sở. Hai node được nối với nhau khi độ tương tự là 1 - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

y.

xem minh họa tiếp theo của ví dụ trong Hình 7. Ở đây mỗi node là các cụm cơ sở. Hai node được nối với nhau khi độ tương tự là 1 Xem tại trang 52 của tài liệu.
(xem hình 8). Một nút lá DC cũng môt ảm ột cụm cấu tạo nên tất cả các cụm con - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

xem.

hình 8). Một nút lá DC cũng môt ảm ột cụm cấu tạo nên tất cả các cụm con Xem tại trang 58 của tài liệu.
Cơ sở dữ liệu của chương trình được thiết kế như trong hình phía dưới. Trong đó chức năng của các bảng được mô tả như sau:  - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

s.

ở dữ liệu của chương trình được thiết kế như trong hình phía dưới. Trong đó chức năng của các bảng được mô tả như sau: Xem tại trang 64 của tài liệu.
DocID Int Là khóa chính của bảng. - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

oc.

ID Int Là khóa chính của bảng Xem tại trang 65 của tài liệu.
Dưới đây là sơ đồ liên kết thực thể giữa các bảng: - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

i.

đây là sơ đồ liên kết thực thể giữa các bảng: Xem tại trang 67 của tài liệu.
Hình: Màn hình hỗ trợ chức năng cập nhật chỉnh sửa Từ điển - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến hành lấy  - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

nh.

Màn hình hỗ trợ chức năng cập nhật chỉnh sửa Từ điển - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến hành lấy Xem tại trang 68 của tài liệu.
Hình: Màn hình chức năng hỗ trợ lấy dữ liệu từ Internet - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

nh.

Màn hình chức năng hỗ trợ lấy dữ liệu từ Internet Xem tại trang 69 của tài liệu.
Hình: Màn hình hỗ trợ chức năng Phân cụm với dữ liệu đã lấy về từ - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

nh.

Màn hình hỗ trợ chức năng Phân cụm với dữ liệu đã lấy về từ Xem tại trang 70 của tài liệu.
Hình: Màn hình chức năng hỗ trợ Tìm kiếm. - Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm

nh.

Màn hình chức năng hỗ trợ Tìm kiếm Xem tại trang 71 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan