KHO dữ LIỆU và KHAI PHÁ dữ LIỆU

15 346 0
KHO dữ LIỆU và KHAI PHÁ dữ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục Lục I Giới thiệu phương pháp phân cụm K-mean Đặc điểm thuật toán K-mean - Là cách tiếp cận phân cụm dạng phân mảnh Mỗi cụm liên quan tới tâm điểm Mỗi điểm gán tới cụm mà có tâm điểm gần với Số lượng cụm K phải xác định cụ thể từ đầu Ý tưởng thuật toán thể dạng mã giả sau B1 Lựa chọn k điểm làm tâm điểm khởi tạo cụm B2: lặp lại công việc sau: - Hình thành K cụm cách gán tất tới tâm điểm gần với - Tính toán lại tâm điểm cụm - Khi tâm điểm không thay đổi dừng lại Nhận xét thuật toán - Tâm điểm khởi tạo thường chọn cách ngẫu nhiên thực tế thấy cụm sinh thay đổi lần chạy thuật toán khác - Tâm điểm thường kết trung bình điểm cụm - Đặc tính gần thường đo khoảng cách clit, giống cosin, độ tương hỗ… - Thuật toán K-mean hội tụ hầy hết độ đo tương tự phổ biến đề cập đến - Hầu hết hội tụ xảy vài vòng lặp Thông thường điều kiện dừng chuyển thành “tới điểm thay đổi cluster” - Độ phức tạp thuật toán là: Trong đó: N = Số điểm không gian xét K = Số cluster ấn định khởi tạo I = Số vòng lặp D = số thuộc tính liệu Độ đo lỗi K-mean Khi chạy thuật toán K- mean, kết khác cho dù số lần chạy tâm điểm khởi tạo chọn ngẫu nhiên nên lần chạy sinh giá trị khác Xét ví dụ minh họa hình vẽ để thấy kết khác sinh chạy k-mean tập liệu y x Điểm ban đầu y x Cụm tối ưu y x Cụm tối ưu Để đánh giá cụm tìm thấy phương pháp K-mean dùng độ đo lỗi phổ biến tổng bình phương lỗi (Sum of Squared Error - SSE) - Đối với điểm, lỗi tính khoảng cách tới cụm gần - Để tính SSE, lỗi tính bình phương lên lấy tổng chúng, theo công thức đây: Trong đó: x: Là điểm liệu cụm Là điểm đại diện cho cluster Nếu kết chạy thuật toán cho cụm ta thường chọn cụm với lỗi nhỏ - Để thu cách phân cụm tốt có thể, cách đơn giản giảm SSE cách tăng số lượng cụm Khi K tăng SSE giảm điều ý nghĩa thực tế tăng K lên giá trị lớn lỗi SSE nhỏ Vì lưu ý cách phân cụm tốt với số cụm K nhỏ có lỗi SSE nhỏ phân cụm tồi với số lượng K lớn Vấn đề chọn điểm khởi tạo Việc chọn điểm khởi tạo ảnh hưởng đến kết chạy Một số giải pháp thực để giải vấn đề là: a Chạy nhiều lần b Lấy mẫu sử dụng phương pháp phân cụm dạng phân cấp để xác đinh tâm điểm khởi tạo ban đầu c Có thể lựa chọn nhiều K tâm điểm ban đầu sau lựa chọn số tâm khởi tạo với độ phân tách rộng d Dùng phương pháp hậu xử lý liệu e Dùng phương pháp K-means dạng phân đôi: không dễ bị vấn đề thường xảy khởi tạo Giải vấn đề có cụm rỗng kết Thuật toán K-mean cho kết phân cụm cụm rỗng (cụm phần tử nào) Một số chiến lược sử dụng để loại bỏ cụm rỗng vô nghĩa là: - Lựa chọn điểm đóng góp nhiều tới tổng bình phương lỗi SSE đưa điểm vào cụm liệu rỗng - Lựa chọn điểm cụm có SSE cao đưa vào cụm rỗng để giảm SSE nhiều nhất, đồng thời làm cụm rỗng có phần tử - Nếu có nhiều cụm rỗng công việc lặp lại nhiều lần Quá trình tiền xử lý hậu xử lý phân cụm Cũng giống sử dụng số phương pháp chung khai phá liệu, ta cần lưu ý: Tiền xử lý liệu cần thiết trình phân cụm liệu liệu cần chuẩn hóa loại bỏ phần tử ngoại lai đưa vào thuật toán Hậu xử lý liệu cần thiết sử dụng trường hợp sau: - Cần loại bỏ cụm nhỏ chúng chứa phần tử ngoại lai, ý nghĩa ứng dụng thực tế - Phân chia cụm lỏng lẻo (mật đọ phần tử cụm không đều) hay nói cách khác cụm có tổng bình phương lỗi lớn thành cụm nhỏ - Trộn cụm có khoảng cách gần nhau, hay có tổng bình phương lỗi SSE thấp Phương pháp K-mean phân đôi Phương pháp K-mean phân đôi biến đổi K-mean mà sinh phân cụm có phân cấp phân cụm dạng phân mảnh Thuật toán thể qua bước sau: B1: Khởi tạo danh sách L cụm để chứa cụm tìm được, ban đầu chứa có cụm bao gồm tất điểm B2: lặp bước sau: - Chọn cụm danh sách L cụm For i = số lượng vòng lặp định trước Phân đôi cụm lựa chọn thành phân cụm phương pháp K-mean End for Thêm phân cụm kết lần phân đôi cụm với tổng bình phương lỗi SSE nhỏ vào danh sách cụm - Đến danh sách cụm chứa K cụm dừng Những hạn chế K-mean - Về kích cỡ: Nếu có cụm có kích cỡ lớn nhiều so với cụm khác dùng Kmean để phân cụm cho kết sai nhiều kích cỡ cụm kết thương tương đương - Về mật độ liệu: Khi mật độ liệu không đủ dày cụm khiến cho chúng bị phân tách thành nhiều cụm khác Khi sử dụng K-mean, ngược lại mật độ tương đối dày đặc cụm gần dễ bị ghép thành cụm - Hình dạng hình cầu: Với trường hợp điểm liệu phân bố theo hình dạng hình cầu gây ảnh hưởng lớn đến kết phương pháp K-mean - Dữ liệu chứa phần tử ngoại lai: Để giải vấn đề hạn chế phương pháp K-means có khác kích cỡ liệu mật độ điểm liệu cụm, giải pháp đưa sử dụng nhiều cụm, lúc cụm to kết phân thành nhiều phân cụm khác nhau, sau kết hợp chúng lại để thành cụm to ban đầu II Ví dụ minh họa Giả sử ta có loại thuốc A, B, C, D loại biểu diễn đặc trưng X Y sau: Đối tượng Khối lượng pH Thuốc A 1 Thuốc B Thuốc C Thuốc D Mục đích ta nhóm thuốc cho vào nhóm (K=2) dựa vào đặc trưng chúng Bước 1: khởi tạo tâm cho nhóm Giả sử ta chọn A tâm nhóm thứ (), B tâm nhóm thứ ( ) 5 y Thuộc tính pH 10 Thuộc tính khối lượng x Bước 2: tính khoảng cách từ đối tượng đến tâm nhóm (theo khoảng cách euclid) với A B C D Mỗi cột ma trận khoảng cách D đối tượng Hàng thứ ma trận khoảng cách biểu diễn khoảng cách đối tượng dến tâm nhóm thứ () hàng thứ ma trận khoảng cách biểu diễn khoảng cách từ đối tượng đến tâm nhóm thứ () Ví dụ khoảng cách từ loại thuốc C = (4, 3) đến tâm (1, 1) 3.61 đến tâm 2.83 tính sau: (1, 1) (2, 1) Bước 3: nhóm đối tượng vào nhóm gần Nhóm Nhóm Ta thấy nhóm sau vòng lặp thứ gồm có đối tượng A nhóm gồm có đối tượng B, C, D Bước 4: tính tọa độ tâm cho nhóm dựa vào tọa độ đối tượng nhóm Nhóm có đối tượng A nên tâm nhóm không đổi, Tâm nhóm tính sau: 11 Thuộc tính pH 5 y 12 x Thuộc tính khối lượng Bước 5: tính lại khoảng cách đến tâm với Bước 6: nhóm đối tượng vào nhóm Bước 7: tính Nhóm Nhóm lại tâm cho nhóm 13 5 y Thuộc tính pH 14 Thuộc tính khối lượng x Bước 8: tính lại khoảng cách từ đối tượng đến tâm với Bước 9: nhóm đối tượng vào nhóm Nhóm Nhóm Ta thấy =, thay đổi nhóm đối tượng nên thuật toán dừng kết phân nhóm sau: Đối tượng Thuốc A Thuốc B Thuốc C Thuốc D III Khối lượng pH 1 Nhóm (kết quả) 1 2 Sử dụng ứng dụng weka để giải toán phân cụm 15

Ngày đăng: 01/07/2016, 12:54

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan