Phân cụm Web và các thuật toán phân cụm Web

1 Báo Cáo Phân cụm Web & các thuật toán phân cụm Web? Thành viên thực hiện: 1.Nguyễn Hoàng An 2.Nguyễn Mạnh Cường 3.Bùi Thị Thu Thủy 4.Nguyễn Thị Thu Vân 2 Nội dung 1. Phân cụm Web 2. Các thuật toán phân cụm Web 1. Phân cụm Phân cụm là nhóm các đối tượng lại thành cụm sao cho thỏa mãn:  Các đối tượng trong mỗi cụm là giống nhau hoặc gần nhau được xác định bằng độ tương tự.  Những đối tượng không cùng 1 cụm thì không tương tự nhau.  Cần phân biệt giữa phân cụm với phân lớp.  Phân cụm web: là sắp xếp các web thành các nhóm chủ đề riêng theo từng nội dung Web. 3 2. Các thuật toán phân cụm Web Thuật toán phân cụm hướng tới 2 mục tiêu: chất lượng được khám phá và tốc độ của thuật toán. Các thuật toán được phân thành các loại cơ bản sau: 1. Phân cụm phân hoạch 2. Phân cụm phân cấp 3. Phân cụm dựa trên mật độ 4. Phân cụm dựa trên lưới 5. Phân cụm dựa trên mô hình 4 2.1 Phân cụm phân hoạch  Ý tưởng chính của kỹ thuật này là phân một tập dữ liệu có n phần tử cho trước thành k nhóm dữ liệu sao cho mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi nhóm dữ liệu có tối thiểu ít nhất một phần tử dữ liệu.  các thuật toán được áp dụng nhiều trong thực tế như k-means, PAM, CLARA, CLARANS. Sau đây là một số thuật toán kinh điển được kế thừa sử dụng rộng rãi. 5 2.1.1. Thuật toán K- means  Thuật toán phân cụm k-means do MacQueen đề xuất trong lĩnh vực thống kê năm 1967.  Đến nay, đã có rất nhiều thuật toán kế thừa tư tưởng của thuật toán k-means áp dụng trong KPDL để giải quyết tập dữ liệu có kích thước rất lớn đang được áp dụng rất hiệu quả và phổ biến như thuật toán k-medoid, PAM, CLARA, CLARANS, k- prototypes, … 6 Các bước của thuật toán K-means 7 2.1.2. Thuật toán PAM  Thuật toán PAM (Partitioning Around Medoids) được Kaufman và Rousseeuw đề xuất 1987, là thuật toán mở rộng của thuật toán k-means, nhằm có khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc các phần tử ngoại lai. Thay vì sử dụng các trọng tâm như k-means, PAM sử dụng các đối tượng medoid để biểu diễn cho các cụm dữ liệu, một đối tượng medoid là đối tượng đặt tại vị trí trung tâm nhất bên trong của mỗi cụm. 8 Các bước thực hiện thuật toán PAM 9 2.1.3. Thuật toán CLARA  CLARA (Clustering LARge Application) được Kaufman và Rousseeuw đề xuất năm 1990, thuật toán này nhằm khắc phục nhược điểm của thuật toán PAM trong trường hợp giá trị của k và n lớn. 10 [...].. .Các bước thực hiện thuật toán 11 2.1.4 Thuật toán CLARANS  Thuật toán CLARANS (A Clustering Algorithm based on RANdomized Search) được Ng & Han đề xuất năm 1994, nhằm để cải tiến chất lượng cũng như mở rộng áp dụng cho tập dữ liệu lớn CLARANS là thuật toán PCDL kết hợp thuật toán PAM với chiến lược tìm kiếm kinh nghiệm mới 12 Các bước thực hiện thuật toán: 13 2.2 Phân cụm phân cấp Phân cụm phân. .. dụng các đại lượng thống kê này để áp dụng một số kỹ thuật phân cụm thí dụ như k-means và tạo ra một khởi tạo cho phân cụm 18 Bước 4: - Phân phối các đối tượng bằng cách dùng các đối tượng trọng tâm cho các cụm từ bước 3 - Duyệt lại dữ liệu và gán nhãn lại cho các đối tượng tới trọng tâm gần nhất - Bước này nhằm để gán nhãn cho các dữ liệu khởi tạo và loại bỏ các đối tượng ngoại lai 19 2.2.2 Thuật toán. .. được phân thành n'/(pq )cụm (với q>1)  22 Bước 4: Khi các cụm được hình thành cho đến khi số các cụm giảm xuống một phần so với số các cụm ban đầu Sau đó, trong trường hợp các phần tử ngoại lai được lấy mẫu cùng với quá trình pha khởi tạo mẫu dữ liệu, thuật toán sẽ tự động loại bỏ các nhóm nhỏ  Bước 5: Phân cụm các cụm không gian: Các đối tượng đại diện cho các cụm di chuyển về hướng trung tâm cụm. .. CLIQUE  Thuật toán CLIQUE do Agrawal, Gehrke, Gunopulos, Raghavan đề xuất năm 1998, là thuật toán tự động phân cụm không gian con với số chiều lớn, nó cho phép phân cụm tốt hơn không gian nguyên thủy 33 Các bước thực hiện thực toán: Bước 1: Phân hoạch tập dữ liệu thành các hình hộp chữ nhật và tìm các hình hộp chữ nhật đặc (nghĩa là các hình hộp này chứa một số các đối tượng dữ liệu trong số các đối... mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất cơ bản  Các thuật toán phân cụm dựa trên mô hình có hai tiếp cận chính: Mô hình thống kê và Mạng Nơron Một số thuật toán điển hình như EM, COBWEB,  35 2.5.1 Thuật toán EM Thuật toán EM (Expectation - Maximization) được nghiên cứu từ 1958 bởi Hartley và được nghiên cứu đầy đủ bởi Dempster, Laird và Rubin... trong cụm, LS là tổng các giá trị thuộc tính của các đối tượng trong cụm và SS là tổng bình phương các giá trị thuộc tính của các đối tượng trong cụm  15 Các bước thực hiện thuật toán: INPUT: CSDL gồm n đối tượng, ngưỡng T  OUTPUT: k cụm dữ liệu Bước 1: - Duyệt tất cả các đối tượng trong CSDL xây dựng một cây CF - Một đối tượng được chèn vào nút lá gần nhất tạo thành cụm con - Nếu đường kính của cụm. .. cho đến khi tất cả các đối tượng được xử lý  26 2.3.2 Thuật toán OPTICS Thuật toán OPTICS (Ordering Points To Identify the Clustering Structure) do Ankerst, Breunig, Kriegel và Sander đề xuất năm 1999, là thuật toán mở rộng cho thuật toán DBSCAN, bằng cách giảm bớt các tham số đầu vào  Thuật toán DBSCAN và OPTICS tương tự với nhau về cấu trúc và có cùng độ phức tạp: O(nLogn) (n là kích thước của tập... PCDL của thuật toán OPTICS: 28 2.3.3 Thuật toán DENCLUE Thuật toán DENCLUE (DENsity - Based CLUstEring) được đề xuất bởi Hinneburg và Keim năm 1998, đây là thuật toán PCDL dựa trên một tập các hàm phân phối mật độ Ý tưởng chính của thuật toán này như sau : Ảnh hưởng của một đối tượng tới láng giềng của nó được xác định bởi hàm ảnh hưởng Mật độ toàn cục của không gian dữ liệu được mô hình phân tích... tổng tất cả các hàm ảnh hưởng của các đối tượng 29 2.4 Phân cụm dựa trên lưới Kỹ thuật phân cụm dựa trên mật độ không thích hợp với dữ liệu nhiều chiều, để giải quyết cho đòi hỏi này, người ta đã sử dụng phương pháp phân cụm dựa trên lưới  Đây là phương pháp dựa trên cấu trúc dữ liệu lưới để phân cụm dữ liệu, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian  Một số thuật toán như:... Thuật toán STING  STING (STatistical INformation Grid) do Wang, Yang và Muntz đề xuất năm 1997, nó phân rã tập dữ liệu không gian thành số hữu hạn các cell sử dụng cấu trúc phân cấp chữ nhật Có nhiều mức khác nhau cho các cell trong cấu trúc lưới, các cell này hình thành nên cấu trúc phân cấp như sau: Mỗi cell ở mức cao được phân hoạch thành các cell mức thấp hơn trong cấu trúc phân cấp 31 2.4.1 Thuật . cụm Web Thuật toán phân cụm hướng tới 2 mục tiêu: chất lượng được khám phá và tốc độ của thuật toán. Các thuật toán được phân thành các loại cơ bản sau: 1. Phân cụm phân hoạch 2. Phân cụm phân. 1 cụm thì không tương tự nhau.  Cần phân biệt giữa phân cụm với phân lớp.  Phân cụm web: là sắp xếp các web thành các nhóm chủ đề riêng theo từng nội dung Web. 3 2. Các thuật toán phân cụm. Cáo Phân cụm Web & các thuật toán phân cụm Web? Thành viên thực hiện: 1.Nguyễn Hoàng An 2.Nguyễn Mạnh Cường 3.Bùi Thị Thu Thủy 4.Nguyễn Thị Thu Vân 2 Nội dung 1. Phân cụm Web 2. Các thuật toán

Phân cụm Web và các thuật toán phân cụm Web

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Báo Cáo Phân cụm Web & các thuật toán phân cụm Web?

Nội dung

1. Phân cụm

2. Các thuật toán phân cụm Web

2.1 Phân cụm phân hoạch

2.1.1. Thuật toán K- means

Các bước của thuật toán K-means

2.1.2. Thuật toán PAM

Các bước thực hiện thuật toán PAM

2.1.3. Thuật toán CLARA

Các bước thực hiện thuật toán

2.1.4. Thuật toán CLARANS

Các bước thực hiện thuật toán:

2.2 Phân cụm phân cấp

2.2.1. Thuật toán BIRCH

Slide 16

PowerPoint Presentation

Slide 18

Slide 19

2.2.2. Thuật toán CURE

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan