Các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa luận văn ths công nghệ thông tin 60 48 01 03

51 550 0
Các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa   luận văn ths  công nghệ thông tin  60 48 01 03

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHAN MINH HẢI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG TÍNH TOÁN TIẾN HÓA Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS BÙI THU LÂM Hà Nội, 2014 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu thân, xuất phát từ yêu cầu giáo viên hướng dẫn đề để hình thành hướng nghiên cứu Các số liệu có nguồn gốc rõ ràng tuân thủ nguyên tắc kết trình bày luận văn thu thập trình nghiên cứu trung thực chưa công bố trước Hà Nội, tháng 10 năm 2014 Tác giả luận văn Phan Minh Hải LỜI CẢM ƠN Luận văn thực hướng dẫn PGS.TS Bùi Thu Lâm – Học viện Kỹ thuật Quân Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy hướng dẫn có ý kiến dẫn quý báu trình em làm luận văn Em xin chân thành cảm ơn Thầy giáo môn Công nghệ phần mềm Em xin cảm ơn thầy cô giáo Khoa, cán thuộc phòng Khoa học Đào tạo sau Đại học, Trường Đại học Công nghệ tạo điều kiện trình học tập nghiên cứu Trường Cuối xin bày tỏ lòng cảm ơn tới người thân gia đình, bạn bè động viên giúp đỡ để hoàn thành luận văn Hà Nội, Tháng 10 năm 2014 Học viên thực Phan Minh Hải LỜI CAM ĐOAN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ CHƯƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ GIẢI THUẬT DI TRUYỀN 10 1.1 Tổng quan khám phá tri thức khai phá liệu 10 1.1.1 Giới thiệu chung khám phá tri thức khai phá liệu 10 1.1.2 Quá trình khám phá tri thức 10 1.1.3 Các phương pháp khai phá liệu 12 1.1.4 Các lĩnh vực ứng dụng thực tiễn KPDL 12 1.1.5 Các hướng tiếp cận kỹ thuật áp dụng KPDL 13 1.1.6 Các yêu cầu phân cụm 13 1.1.7 Phân cụm với giải thuật Kmean 15 1.2 Tổng quan giải thuật tiến hóa 16 1.2.1 Giải thuật di truyền 16 1.2.1.1 Lịch sử phát triển 18 1.2.1.2 Các bước áp dụng giải thuật di truyền 19 1.2.1.2.1 Mã hóa liệu 19 1.2.1.2.2 Khởi tạo quần thể 19 1.2.1.2.3 Xác định hàm thích nghi 19 1.2.1.2.4 Quá trình lai ghép 20 1.2.1.2.5 Quá trình đột biến 21 1.2.1.2.6 Quá trình chọn lọc 21 1.2.1.3 Các tham số giải thuật di truyền 21 1.2.1.4 Sơ đồ trình tính toán giải thuật di truyền 22 1.2.2 Giải thuật tiến hóa vi phân 25 1.2.2.1 Nguyên lý hoạt động 25 1.2.2.2 Sơ đồ giải thuật tiến hóa vi phân 25 1.3 Kết luận 28 CHƯƠNG GIẢI THUẬT PHÂN CỤM DỰA TRÊN LAI GHÉP GIẢI THUẬT TIẾN HÓA VÀ KMEANS 29 2.1 Giải thuật phân cụm tính toán tiến hóa 29 2.1.1.Giải thuật tổng quát cho phân cụm sử dụng giải thuật di truyền 29 2.1.2 Biểu diễn cá thể 30 2.1.3 Tính toán độ thích nghi 30 2.1.4 Phép chọn (Selection) 31 2.1.5 Crossover (lai ghép) 32 2.1.6 Mutation (Đột biến) 33 2.1.7 Kmeans sử dụng giải thuật di truyền 34 2.1.8 Minh họa phân cụm Kmeans sử dụng giải thuật di truyền 35 2.1.9 Phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân 37 2.2 So sánh giải thuật Kmeans Kmeans sử dụng giải thuật di truyền 38 2.3 Kết luận 38 CHƯƠNG CÀI ĐẶT VÀ THỬ NGHIỆM 40 3.1 Chuẩn bị liệu 40 3.2 Kết phân tích 41 3.2.1 Thí nghiệm giải thuật Kmeans, Genetic Kmean DE Kmean 41 3.2.1.1 Thí nghiệm giải thuật Kmeans 41 3.2.1.2 Thí nghiệm giải thuật Genetic Kmean 42 3.2.1.3 Thí nghiệm giải thuật DE Kmean 43 3.2.1.4 Thí nghiệm giải thuật Kmean, Genetic Kmean, DE Kmean với Northwin 44 3.2.2 Phân tích kết 45 3.3 Đánh giá kết thử nghiệm chung 46 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 50 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CDL Cụm liệu CNTT Công nghệ thông tin CSDL Cơ sở liệu DE Giải thuật tiến hóa vi phân DL Dữ liệu GA Giải thuật di truyền KPDL Khai phá liệu KPTT Khai phá thông tin PCDL Phân cụm liệu NST Nhiễm sắc thể Differential Evolution Genetic Algorithm DANH MỤC CÁC BẢNG Bảng 2.1: Bộ liệu số nguyên gồm phần tử 35 Bảng 2.2: Khởi tạo NST tính độ thích nghi 35 Bảng 2.3: Các NST thu cách sử dụng chọn lọc, lai ghép, đột biến, 36 Bảng 2.4: Các NST đầu vào độ thích nghi hệ thứ 36 Bảng 2.5: Các NST đầu vào độ thích nghi hệ thứ 36 Bảng 3.1: Bộ liệu tự sinh có trường liệu 40 Bảng 3.2: Bộ liệu Customers Northwind 40 Bảng 3.3: Kết thử nghiệm với giải thuật Kmeans 41 Bảng 3.4: Kết thử nghiệm với giải thuật Genetic Kmean 42 Bảng 3.5: Kết thử nghiệm với giải thuật DE Kmean 43 Bảng 3.6: Kết thử nghiệm giải thuật với số cụm 44 DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1: Quá trình KPTT 11 Hình 1.2: Ví dụ mã hóa nhiễm sắc thể 19 Hình 1.3: Lai ghép hai cá thể 20 Hình 1.4: Đột biến nhiễm sắc thể 21 Hình 1.5: Sơ đồ trình tính toán giải thuật di truyền 23 Hình 1.6: Sơ đồ giải thuật tiến hóa vi phân 26 Biểu đồ 3.1: Tổng hợp kết giải thuật với giá trị trung bình trường hợp (hình a) trường hợp (hình b) 45 MỞ ĐẦU Phân cụm liệu trình nhóm tập đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc cụm tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu không đòi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học không giám sát (unsupervised learning) Các Kỹ thuật phân cụm ứng dụng nhiều lĩnh vực tài ngân hành để phân lọai nhóm khách hàng khác Ngoài phân cụm liệu sử dụng bước tiền xử lý cho giải thuật khai phá liệu khác phân loại mô tả đặc điểm, có tác dụng phát cụm Theo nghiên cứu cho thấy chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc CSDL Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc CSDL, với cách thức biểu diễn khác có giải thuật phân cụm thích nghi Vì phân cụm liệu vấn đề khó mở, phải giải nhiều vấn đề cách trọn vẹn thích nghi với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn KPDL Một điểm khác hàm mục tiêu giải thuật phân cụm K-means thường tồn nhiều điểm tối ưu cục Do mà đề tài tập trung vào tìm hiểu “Các kỹ thuật phân cụm khai phá liệu sử dụng tính toán tiến hóa”; kỹ - giải thuật tiến hóa thiết kế để khắc phục tính chất cục giải thuật phân cụm Luận văn gồm có chương chính: Chương 1: Tổng quan khám phá tri thức, khai phá liệu giải thuật di truyền Chương 2: Giải thuật phân cụm dựa lai ghép giải thuật tiến hóa Kmeans Chương 3: Cài đặt thử nghiệm Kết luận định hướng phát triển kết nghiên cứu 10 CHƯƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ GIẢI THUẬT DI TRUYỀN 1.1 Tổng quan khám phá tri thức khai phá liệu 1.1.1 Giới thiệu chung khám phá tri thức khai phá liệu Nếu cho rằng, điện tử truyền thông chất khoa học điện tử, liệu, thông tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thường, coi liệu chuỗi bits, số ký hiệu “đối tượng” với ý nghĩa gửi cho chương trình dạng định Các bits thường sử dụng để đo thông tin, xem liệu loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trưng cách cho liệu Tri thức xem thông tin tích hợp, bao gồm kiện mối quan hệ chúng, nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức coi liệu mức độ cao trừu tượng tổng quát[2] Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mô hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu Khai phá liệu bước trình khám phá tri thức, gồm giải thuật khai thác liệu chuyên dùng số qui định hiệu tính toán chấp nhận để tìm mẫu mô hình liệu Nói cách khác, mục tiêu Khai phá liệu tìm kiếm mẫu mô hình tồn CSDL ẩn khối lượng lớn liệu 1.1.2 Quá trình khám phá tri thức Quá trình khám phá liệu chia thành giai đoạn sau, xem hình 1.1 [3]: Giai đoạn Trích chọn liệu: Đây bước trích chọn tập liệu cần khai phá từ tập liệu lớn ban đầu theo số tiêu chí định Giai đoạn Tiền xử lý liệu: Đây bước làm liệu (xử lý liệu không đầy đủ, nhiễu, không quán, ), rút gọn liệu (sử dụng hàm 37 2.1.9 Phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân Input: Số cụm k, kích thước quần thể, tập liệu D chứa n đối tượng, số hệ muốn tạo tMax Output: Một tập hợp K cụm Begin Bước : Khởi tạo Mỗi phần tử quần thể ban đầu DE thực miền tham số thực với công thức (1.4) k trọng tâm cụm Bước 2: For t =1 to tMax 1, Đối với nhiễm sắc thể a, Đưa phần tử D vào cụm với trọng tâm cụm gần b, Tính toán lại k trọng tâm cụm trung bình k cụm vừa tạo thay vào nhiễm sắc thể c, Tính toán độ thích nghi cho nhiễm sắc thể 2, Tạo hệ nhiễm sắc thể sử dụng phép toán đột biến, lai ghép, chọn lọc tái sinh biểu thức (1.5); (1.6); (1.7) Trong trình tái sinh, tính toán độ thích nghi cho nhiễm sắc thể so sánh với độ thích nghi nhiễm sắc thể ban đầu Cá thể có độ thích nghi lớn đưa vào quần thể Bước 3: In kết Tách k cụm nhiễm sắc thể quần thể hệ tạo sau có độ thích nghi lớn Điều kiện dừng: Lặp lại bước hệ t = tMax Hoặc hệ, kiểm tra theo biểu thức (1.8), thỏa mãn điều kiện dừng giải thuật End Dựa vào giải thuật phân cụm Kmeans sử dụng giải thuật tiến hóa vi phân ta thấy, giải thuật giống giải thuật Kmean dựa giải thuật di truyền giải thuật có thêm điều kiện dừng giải thuật hệ xét thỏa mãn biểu thức (1.8) Để tính toán độ thích nghi cho nhiễm sắc thể tại, ta sử dụng công thức (2.1), (2.2) 38 2.2 So sánh giải thuật Kmeans Kmeans sử dụng giải thuật di truyền Phân cụm Kmeans Phương pháp phân hoạch Kmeans sử dụng giải thuật di truyền (GA) Phương pháp tiến hóa Đầu vào: K, Dữ liệu, Quần thể P, Chọn Đầu vào: K, Dữ liệu, k trọng tâm cụm nhiễm sắc thể P ngẫu nhiên, số hệ ngẫu nhiên tmax Mục tiêu: Tối thiểu hóa khoảng cách từ Mục tiêu: Tối thiểu hóa tổng bình điểm liệu tới trọng tâm cụm phương khoảng cách Điều kiện dừng: Không có thay đổi Điều kiện dừng: Số hệ lớn trọng tâm cụm Giải thuật phân cụm có tính tối ưu cục Giải thuật di truyền dựa phương pháp tìm kiếm toàn cục Độ phức tạp tính toán: O(n*k*d*i) n: Số điểm liệu Độ phức tạp tính toán: O(tmax*p*n*d*k) k: Số cụm n: Số điểm liệu d: Kích thước liệu p: Kích thước quần thể i: Số vòng lặp d: Kích thước liệu k: Số cụm tmax: Số hệ lớn Đối với giải thuật Genetic Kmean giải thuật DE Kmean đặc điểm giống chỗ phương pháp tiến hóa, mục tiêu tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm hệ Nhưng giải thuật DE Kmean dừng giải thuật hệ xét thỏa mãn điều kiện (1.8) 2.3 Kết luận Phân cụm với giải thuật Kmean thể tính chất tối ưu cục Vì giải thuật tính lại trọng tâm cụm mà thay đổi trọng tâm cụm giải thuật dừng lại, khoảng cách từ trọng tâm cụm tới điểm liệu chưa nhỏ Còn giải thuật Genetic K.mean luôn tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm giải thuật 39 phải duyệt qua hết hệ yêu cầu Với giải thuật DE Kmean tối thiểu hóa khoảng cách từ điểm liệu tới trọng tâm cụm giải thuật không hoàn toàn phải duyệt qua hệ yêu cầu Hơn nữa, so hình dạng cụm khám phá giải thuật Kmeans có ưu điểm khám phá cụm hình cầu, giải thuật GA Kmeans DE Kmeans khám phá cụm có hình dạng đa dạng có đột biến trình phân tách cụm 40 CHƯƠNG CÀI ĐẶT VÀ THỬ NGHIỆM 3.1 Chuẩn bị liệu Chương trình thực Demo hai liệu: Bộ liệu tự sinh liệu Northwind có sẵn SQLServer 2005 Chương trình thực nghiệm với liệu có kiểu liệu số - Bộ liệu tự sinh: Dữ liệu trường dạng số Chương trình thực Demo liệu này, đồng thời mô trục tọa độ đề XOY Nội dung liệu thực Demo bảng 3.1: Bảng 3.1: Bộ liệu tự sinh có trường liệu - Bộ liệu Northwind SQLServer: Sử dụng bảng Customers, bảng có 91 ghi thông tin khách hàng Chương trình thực phân cụm liệu có nhiều trường, nhiều kiểu liệu khác Bảng 3.2: Bộ liệu Customers Northwind 41 Chương trình chạy thử nghiệm trường hợp: Trường hợp 1: Các NST giải thuật Genetic Kmean DE Kmean chọn hoàn toàn ngẫu nhiên Trường hợp 2: NST giải thuật Genetic Kmean DE Kmean tạo phải thỏa mãn giá trị cho trước Trường hợp NST hai thuật thoán gán kết Kmean Và trình di truyền chọn NST có giá trị thích nghi lớn giá trị thích nghi giải thuật Kmean gán vào giải thuật Genetic Kmean DE Kmean 3.2 Kết phân tích 3.2.1 Thí nghiệm giải thuật Kmeans, Genetic Kmean DE Kmean 3.2.1.1 Thí nghiệm giải thuật Kmeans Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12 thực test với số lần 10 Sau test xong, thu kết bảng 3.3 Trong đó, giao số lần test Số cụm trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 10 lần chạy thử nghiệm Số cụm Số lần test 10 11 12 134,44 77.35 56.61 46.93 38.43 32.14 27.53 18.20 12.84 12.72 4.24 134,44 75.53 66.96 56.93 42.32 30.83 27.33 21.98 13.80 8.26 4.47 134,44 77.35 62.78 53.83 44.35 34.08 29.21 18.20 13.96 10.80 4.47 134,44 77.35 65.75 55.49 42.32 30.29 24.59 16.00 11.76 9.57 4.12 134,44 75.53 58.32 52.76 37.72 35.07 28.78 17.85 12.29 9.34 3.16 134,44 75.53 56.61 49.82 39.44 35.07 26.05 19.06 15.88 10.57 4.12 134,44 77.35 65.88 56.56 38.32 35.94 24.50 18.08 12.29 10.57 6.32 134,44 77.35 63.55 58.72 41.27 27.75 23.30 17.85 13.73 8.37 4.24 134,44 77.35 56.61 49.82 41.27 32.37 29.61 16.00 15.79 9.57 4.47 10 134,44 75.53 62.78 50.83 42.32 34.38 23.51 16.98 12.50 8.71 3.16 Trung bình 134,44 76.62 61.59 53.17 40.78 32.79 26.44 18.02 13.48 9.85 4.28 Bảng 3.3: Kết thử nghiệm với giải thuật Kmeans 42 Nhận xét: Dựa vào kết bảng 3.3, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm - Với số cụm 12 tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị nhỏ Vì lúc điểm trọng tâm cụm nó, tổng khoảng cách tất điểm - Với số cụm lớn tổng khoảng cách tất điểm cụm tới trọng tâm cụm nhỏ - Kết lần phân cụm khác hay không thống nhất, trừ trường hợp số cụm (số cụm nhất) số cụm 12 (số cụm nhiều nhất) 3.2.1.2 Thí nghiệm giải thuật Genetic Kmean Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12; số hệ test 10; số cá thể quần thể 6; thực test với số lần 10 Sau test xong, thu kết bảng 3.4 Trong đó, giao Trung bình 10 lần chạy trường hợp Số cụm trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 10 lần chạy thử nghiệm Trung bình 10 lần Số cụm 10 11 12 Trường hợp 134,44 75.89 57.72 47.82 37.23 30.47 23.29 17.22 12.51 7.63 3.38 Trường hợp 134,44 71.95 52.82 43.22 35.42 28.53 22.26 16.28 11.20 6.97 3.16 chạy Bảng 3.4: Kết thử nghiệm với giải thuật Genetic Kmean Với số cụm =1, cụm =12, qua lần test tổng khoảng cách từ trọng tâm cụm tới điểm liệu không thay đổi giải thuật phải chạy qua hết hệ 43 Nhận xét: Dựa vào kết bảng 3.4, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm Nhưng chương trình phải chạy qua hết hệ định trước - Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới thành viên cụm trường hợp có nhiều giá trị nhỏ trường hợp 3.2.1.3 Thí nghiệm giải thuật DE Kmean Với liệu tự sinh, thực test với số cụm thay đổi từ đến 12; số hệ test 10; số cá thể quần thể 6; thực test với số lần 10 Sau test xong, thu kết bảng 3.5 Trong đó, giao Số lần test Số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu Trung bình 10 lần chạy Trường hợp Trường hợp Số cụm 10 11 134.44 76.16 57.24 46.93 38.67 29.26 24.22 17.86 13.38 8.68 4.12 134.44 71.95 52.56 42.97 34.68 27.90 21.07 16.65 11.73 7.82 4.04 12 Bảng 3.5: Kết thử nghiệm với giải thuật DE Kmean Nhận xét: Dựa vào kết bảng 3.5, ta thấy: - Với số cụm tổng khoảng cách từ trọng tâm cụm tới điểm liệu đạt giá trị lớn Vì phải tính tổng khoảng cách tất điểm cụm tới trọng tâm cụm Nhưng chương trình chạy qua hệ định trước - Giải thuật dừng hệ xét thỏa mãn yêu cầu Epsilon theo biểu thức (1.5) 44 - Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới thành viên cụm trường hợp có nhiều giá trị nhỏ trường hợp 3.2.1.4 Thí nghiệm giải thuật Kmean, Genetic Kmean, DE Kmean với Northwin Bằng cách thí nghiệm tương tự mục 3.2.1.1, 3.2.1.2, 3.2.1.3 sử dụng liệu Northwin với bảng Customers kết thu khác tổng trung bình khoảng cách từ trọng tâm cụm tới điểm liệu Trung bình khoảng cách từ trọng tâm cụm tới điểm liệu Genetic Kmean DE Kmean nhỏ so với Kmean Thời gian chạy chương trình Genetic Kmean DE Kmean lâu so với Kmean Nhưng thời gian chạy DE Kmean nhanh so với Genetic Kmean DE Kmean dừng hệ xét thõa mãn điều kiện Epsilon Trung bình lần chạy Kmean Genetic Kmean DE Kmean Trường hợp 4727295589 4741303553 4986328630 Trường hợp 4715671225 4673201339 4663873523 Bảng 3.6: Kết thử nghiệm giải thuật với số cụm Nhận xét: Dựa vào kết bảng 3.6, ta thấy: - Trong trường hợp 1, giải thuật Genetic Kmean DE Kmean có chọn cá thể tốt để phân tách cụm nhìn chung giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu lớn so với giải thuật Kmeans - Trong trường hợp 2, giải thuật Genetic Kmean DE Kmean chọn cá thể tốt để phân tách cụm giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu nhỏ so với giải thuật Kmean - Giải thuật DE Kmean có kết thay đổi rõ ràng Tổng khoảng cách từ trọng tâm cụm tới điểm liệu nhỏ nhiều so với DE Kmean trường hợp nhỏ so với giải thuật Genetic Kmean 45 3.2.2 Phân tích kết Tổng hợp kết Bảng 3.3, Bảng 3.4 Bảng 3.5, ta kết sau: Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 160 Hình a 140 120 100 Kmean 80 Genetic Kmean DE Kmean 60 40 20 10 11 Số cụm Giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu 160 Hình b 140 120 100 Kmean 80 Genetic Kmean DE Kmean 60 40 20 10 11 Số cụm Biểu đồ 3.1: Tổng hợp kết giải thuật với giá trị trung bình trường hợp (hình a) trường hợp (hình b) 46 Nhận xét: - Dựa vào biểu đồ, ta thấy trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Kmean lớn so với giải thuật Genetic Kmean giải thuật DE Kmean Và vậy, giải thuật Genetic Kmean DE Kmean phân tách cụm có độ thích nghi cao so với giải thuật Kmean - Giải thuật Genetic Kmean giải thuật DE Kmean gần có trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu xấp xỉ Và giải thuật DE Kmean có giá trị trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu thấp so với giải thuật Genetic Kmean chút - Đối chiếu hình a hình b biểu đồ 3.1, ta thấy khoảng cách đường biểu diễn trung bình tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Kmean không thay đổi, đường biểu diễn giải thuật Genetic Kmean DE Kmean có thay đổi thấp đường biểu diễn giải thuật Kmean nhiều Trong trường hợp 1, giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Genetic Kmean DE Kmean không ổn định, phải phụ thuộc vào trình khởi tạo NST ngẫu nhiên, tạo nên NST có giá trị thích nghi cao thấp so với giải thuật Kmean Trong trường hợp 2, giá trị tổng khoảng cách từ trọng tâm cụm tới điểm liệu giải thuật Genetic Kmean DE Kmean ổn định nhiều, giá trị thích nghi thu lớn so với Kmean Để đạt điều này, giải thuật cài đặt thêm bước: Gán giá trị trọng tâm cụm giải thuật Kmean cho NST quần thể trình tạo quần thể (Nếu khởi tạo NST mà so sánh thỏa mãn điều kiện độ thích nghi NST lớn độ thích nghi Kmean độ phức tạp thời gian xử lý lớn) 3.3 Đánh giá kết thử nghiệm chung Qua kết thử nghiệm giải thuật trên, ta thấy cụm liệu kiểu số với số thuộc tính nhỏ giải thuật GA Kmean DE Kmean cho kết tối ưu so với Kmean Song sử dụng giải thuật GA DE kết hợp với Kmean nên giải thuật GA Kmean DE Kmean không tránh khỏi số giới hạn Kmean như: Kmean áp dụng với liệu có thuộc tính số khám hình cầu, k-means nhạy cảm với nhiễu phần tử ngoại lai liệu Nhưng giải thuật làm giảm số hạn chế 47 Kmean, hình dạng cụm đa dạng bớt nhạy cảm với nhiễu nhờ trình lai ghép, đột biến, chọn lọc giải thuật di truyền Trong hệ giải thuật di truyền, số cá thể quần thể lớn có nhiều lựa chọn cho trình di truyền Và số lượng hệ ảnh hưởng tới trình di truyền Nếu số lượng hệ nhỏ không phát huy hết ưu điểm giải thuật di truyền, số lượng hệ lớn làm tăng mức độ phức tạp giải thuật 48 KẾT LUẬN A Những nội dung luận văn Trong chương 1: ♦ Giới thiệu khái niệm sở lý thuyết khai phá liệu, khai phá tri thức ♦ Giới thiệu khái niệm giải thuật di truyền lập trình tiến hóa ♦ Trình bày sơ lược giải thuật di truyền giải thuật tiến hóa vi phân: Các trình giải thuật di truyền, tham số giải thuật di truyền, lưu đồ giải thuật Trong chương 2: ♦ Tìm hiểu giải thuật chung cho việc kết hợp giải thuật phân cụm sử dụng giải thuật tiến hóa, cụ thể giải thuật di truyền giải thuật tiến hóa vi phân ♦ So sánh giải thuật phân cụm cụ thể Kmeans giải thuật phân cụm Kmeans có sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Trong chương 3: ♦ Xây dựng chương trình chạy thử nghiệm để kiểm tra giải thuật phân cụm Kmeans giải thuật phân cụm Kmeans sử dụng giải thuật di truyền ♦ Tiến hành chạy thử nghiệm liệu kiểu số Trong liệu tự sinh liệu CSDL Northwind SQL Server 2005 ♦ Tiến hành chạy thử nghiệm với 10000 điểm liệu ngẫu nhiên phân cụm ảnh 49 B Các kết đạt Sau thời gian thực đề tài với nỗ lực, cố gắng thân với hướng dẫn nhiệt tình PGS.TS Bùi Thu Lâm, luận văn thu số kết sau: Trình bày khái niệm sở lý thuyết khai phá liệu, khai phá tri thức, tính toán tiến hóa Giới thiệu giải thuật chung cho giải thuật phân cụm sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Thực cài đặt thử nghiệm giải thuật phân cụm Kmeans giải thuật Kmeans sử dụng giải thuật di truyền giải thuật tiến hóa vi phân với liệu chiều, ảnh bảng CSDL với thuộc tính khác C Hướng nghiên cứu Trên sở kết đạt được, tiếp tục nghiên cứu số vấn đề sau: Tiếp tục nghiên cứu số giải thuật phân cụm sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Xây dựng tiếp chương trình chạy thử nghiệm giải thuật phân cụm giải thuật phân cụm có sử dụng tính toán tiến hóa Tìm thêm cách thức ứng dụng giải thuật vào thực tiễn Mặc dù cố gắng thời gian hiểu biết lĩnh vực khai phá liệu hạn chế nên luận văn không tránh khỏi khiếm khuyết định Trong tương lai, em cố gắng để khắc phục hạn chế, tiếp tục nghiên cứu vấn đề nêu Rất mong nhận ý kiến đóng góp quý thầy cô độc giả để luận văn hoàn thiện 50 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Đình Thúc (2000), Trí tuệ nhân tạo - Lập trình tiến hóa, NXB Giáo dục Tài liệu tiếng Anh [2] Ho Tu Bao, Knowledge Discovery and Data mining, 2000 [3] J Han, M Kamber, and Jian Pei (2011) Data Mining: Concepts and Techniques (3rd edition), Morgan Kaufmann [4] Rui Xu, Survey of Clustering Algorithms, IEEE transactions on neural networks, vol 16, no 3, may 2005 [5] Eduardo R Hruschka, Ricardo J G B Campello, Alex A Freita, André C P L F de Carvalho, A Survey of Evolutionary Algorithms for Clustering, To appear in IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews [6] David A.Coley, an introduction to genetic algorithms for scientists and enginer, Copyright Q 1999 by World Scientific Publishing Co Pte Ltd [7] Ujjwal Maulik, Sanghamitra Bandyopadhyay, Genetic algorithm-based clustering technique, Pattern Recognition 33 (2000) 1455-1465 [8] Rajashree Dash and Rasmita Dash, comparative analysis of k-means and genetic algorithm based data clustering, International Journal of Advanced Computer and Mathematical Sciences, ISSN 2230-9624 Vol 3, Issue 2, 2012, pp 257-265 [9] Bashar Al-Shboul, and Sung-Hyon Myaeng, Initializing K-Means using Genetic Algorithms, World Academy of Science, Engineering and Technology 54 2009 [10] K Krishna and M Narasimha Murty, Genetic K-Means Algorithm, IEEE transactions on systems, man, and cybernetics—part b: cybernetics, vol 29, no 3, june 1999 [11] Kenneth Price, Rainer Storn, Jouni Lampinen, Differiential Evolution A Practical Approach to Global Optimization, Springer, Verlag, 2005 51 [12] Zbigniew Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs, ISBN 3-540-60676-9 Springer-Verlag Berlin Heidelberg New York [13] P Berkhin,2002 Survey of Clustering Data Mining Techniques Ttechnical report, Accrue Software, San Jose, Cailf [14] Sai Hanuman, Dr Vinaya Babu, Dr Govardhan, Dr S C Satapathy, Data Clustering Using Almost Parameter Free Differential Evolution Technique, International Journal of Computer Applications (0975 – 8887) Volume 8– No.13, October 2010 [15] Guojun Gan, Chaoqun Ma, Jianhong Wu, Data Clustering Theory, Algorithms, and Applications, ASA-SIAM Series on Statistics and Applied Probability, SIAM, Philadelphia, ASA, Alexandria, VA, 2007 [16] Rainer Storn, Kenneth Price, Jouni Lampinen Differential Evolution – A Practical Approach to Global Optimization , Springer, Verlag, 2005 [17] M Mitchell, an Introduction to Genetic Algorithms MIT Press 1998 [...]... lượng của phân cụm Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những CSDL thực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai Một số giải thuật phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, ... KPDL, thuật giải di truyền và giải thuật tiến hóa vi phân 29 CHƯƠNG 2 GIẢI THUẬT PHÂN CỤM DỰA TRÊN LAI GHÉP GIẢI THUẬT TIẾN HÓA VÀ KMEANS 2.1 Giải thuật phân cụm trong tính toán tiến hóa Giải thuật di truyền là tìm kiếm ngẫu nhiên và các kỹ thuật tối ưu hóa theo các nguyên tắc của sự tiến hóa và di truyền tự nhiên, có một lượng lớn số song song tiềm ẩn Giải thuật di truyền thực hiện tìm kiếm trong. .. các giá trị trung bình của cụm bằng cách tính toán giá trị trung bình của các đối tượng trong mỗi cụm (5) Đến khi trọng tâm cụm không thay đổi 1.2 Tổng quan về giải thuật tiến hóa Thuật ngữ Chương trình tiến hóa (cấu trúc dữ liệu + giải thuật di truyền) là khái niệm dùng để chỉ các chương trình máy tính có sử dụng giải thuật tìm kiếm và tối ưu hóa dựa trên nguyên lý tiến hóa tự nhiên Ta gọi chung các. .. dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm có thể cần được giải thích ý nghĩa và ứng dụng rõ ràng 1.1.7 Phân cụm với giải thuật Kmean Cho tập dữ liệu D gồm n đối tượng trong không gian Euclidean Phương pháp này sẽ phân hoạch các đối tượng trong D vào trong. .. nhóm và tính tổng, các phương pháp nén dữ liệu, lấy mẫu, ), rời rạc hóa dữ liệu Flat files: Những tệp dữ liệu không có mối quan hệ về cấu trúc Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và được rời rạc hóa Giai đoạn 3 Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở bước sau Giai đoạn 4 Khai phá dữ liệu: Đây... gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định Đánh giá và biểu diễn Khai phá dữ liệu Các mẫu Lựa chọn và biến đổi Kho dữ liệu Làm sạch và tích hợp Cơ sở dữ liệu Flat files Hình 1.1: Quá trình khám phá tri thức Tri thức 12 1.1.3 Các phương pháp khai phá dữ liệu Với hai mục đích khai phá dữ liệu là Mô... nghi với các kiểu thuộc tính khác nhau: Nhiều giải thuật được thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểu số) Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhị phân, kiểu tường minh (định danh - không thứ tự), và dữ liệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu này Khám phá các cụm với hình dạng bất kỳ: Nhiều giải thuật phân cụm xác... KPDL[2]: - Phân tích dữ liệu và hỗ trợ ra quyết định - Phân lớp văn bản, tóm tắt văn bản, phân lớp các trang Web và phân cụm ảnh màu - Chuẩn đoán triệu chứng, phương pháp trong điều trị y học - Tìm kiếm, đối sánh các hệ Gene và thông tin di truyền trong sinh học - Phân tích tình hình tài chính, thị trường, dự báo gía cổ phiếu trong tài chính, thị trường và chứng khoán - Phân tích dữ liệu marketing, khách... trong phần trình bày dưới đây sẽ mô tả giải thuật di truyền và giải thuật tiến hóa vi phân 1.2.1 Giải thuật di truyền Giải thuật di truyền là một kỹ thuật của khoa học máy tính nhằm tìm kiếm giải pháp thích hợp cho các bài toán tối ưu tổ hợp (combinatorial optimization) Giải thuật di truyền là một phân ngành của giải thuật tiến hóa vận dụng các nguyên lý của tiến hóa như di truyền, đột biến, chọn lọc tự... quả thông tin quá khứ để có được những kết quả mới đạt kết quả như mong muốn Các cải tiến trong việc sử dụng giải thuật di truyền đã làm tăng thêm hiệu quả của việc sử dụng giải thuật trong các bài toán phức tạp Điều này thể hiện ở việc giảm thời gian tính toán ngày càng hiệu quả mà ta sẽ tìm hiểu cụ thể hơn ở dưới đây 1.2.1.1 Lịch sử phát triển Năm 1954, GP bắt đầu với giải thuật tiến hóa, nó được sử ... trung vào tìm hiểu Các kỹ thuật phân cụm khai phá liệu sử dụng tính toán tiến hóa ; kỹ - giải thuật tiến hóa thiết kế để khắc phục tính chất cục giải thuật phân cụm Luận văn gồm có chương chính:... MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CDL Cụm liệu CNTT Công nghệ thông tin CSDL Cơ sở liệu DE Giải thuật tiến hóa vi phân DL Dữ liệu GA Giải thuật di truyền KPDL Khai phá liệu KPTT Khai phá thông tin. .. giải thuật phân cụm sử dụng giải thuật di truyền giải thuật tiến hóa vi phân Xây dựng tiếp chương trình chạy thử nghiệm giải thuật phân cụm giải thuật phân cụm có sử dụng tính toán tiến hóa Tìm

Ngày đăng: 19/12/2015, 00:51

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan