Luận văn khảo sát một số thuật toán phân cụm đa mô hình cho bài toán phân cụm ảnh viễn thám

62 509 0
Luận văn khảo sát một số thuật toán phân cụm đa mô hình cho bài toán phân cụm ảnh viễn thám

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu độc lập riêng tôi, không chép công trình luận văn, luận án tác giả khác Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình khác Các trích dẫn, số liệu kết tham khảo dùng để so sánh có nguồn trích dẫn rõ ràng Tôi xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, tháng 04 năm 2016 Tác giả luận văn Bùi Văn Chung LỜI CẢM ƠN Để hoàn thành tốt luận văn này, em xin bày tỏ lòng biết ơn chân thành sâu sắc đến Tiến sĩ Lê Hoàng Sơn, ngƣời tận tình trực tiếp hƣớng dẫn em suốt trình triển khai nghiên cứu đề tài, tạo điều kiện để em hoàn thành luận văn Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể thầy cô giáo khoa Công nghệ thông tin, trƣờng Đại học Công nghệ Hà Nội, Đại học Quốc gia Hà Nội dạy bảo tận tình em suốt trình em học tập khoa Thứ ba, em xin đƣợc gửi lời cảm ơn tới thầy cô, anh chị bạn Trung tâm Tính toán Hiệu cao, trƣờng Đại học Khoa học tự nhiên giúp đỡ suốt thời gian làm luận văn Cuối xin chân thành cảm ơn tới gia đình, bạn bè, đồng nghiệp bên em cổ vũ, động viên, giúp đỡ em suốt trình học tập thực luận văn Mặc dù cố gắng hoàn thành luận văn phạm vi khả cho phép nhƣng chắn không tránh khỏi thiếu sót Em mong đƣợc góp ý chân thành thầy cô bạn để em hoàn thiện luận văn Luận văn đƣợc thực dƣới tài trợ đề tài NAFOSTED, mã số: 102.05-2014.01 Xin chân thành cảm ơn! Hà Nội, ngày 20 tháng năm 2016 Học viên Bùi Văn Chung MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH SÁCH HÌNH VẼ DANH MỤC CÁC KÝ HIỆU VIẾT TẮT LỜI MỞ ĐẦU ĐẶT VẤN ĐỀ MỤC ĐÍCH CỦA LUẬN VĂN BỐ CỤC CỦA LUẬN VĂN CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM 10 1.1 Khái quát phân cụm 10 1.2 Tổng quan thuật toán phân cụm tiêu biểu 11 1.2.1 Phân cụm cụm phân hoạch 11 1.2.2 Phân cụm phân cấp 14 1.2.3 Phân cụm dựa mật độ 15 1.2.5 Phân cụm mờ 18 1.3 Độ đo phân cụm 22 1.3.1 Adjusted Rand Index 23 1.3.2 Jaccard Index 23 1.3.3 Modified Hubert’s Γ Index 24 1.3.4 Dunn’s Validity Index 24 1.3.5 Davies-Bouldin Validity Index 24 1.3.6 Normalized Mutual Information 25 1.3.7 Dunn's Index (DI) 25 1.3.8 Partition Coefficient (PC) 26 1.4 Kết luận chƣơng 26 CHƢƠNG II: PHÂN CỤM ĐA MÔ HÌNH 27 2.1 Tổng quan học đa mô hình phân cụm đa mô hình 27 2.1.1 Học đa mô hình 27 2.2 Thuật toán phân cụm đa mô hình CSPA (sCSPA) 28 2.3 Thuật toán phân cụm đa mô hình MCLA (sMCLA) 30 2.4 Thuật toán phân cụm đa mô hình HBGF (sHBGF) 32 2.5 Thuật toán MG 34 2.5.1 Phân cụm thuật toán đơn 34 2.5.2 Tổng hợp kết phân cụm đơn 34 2.5.3 Đi tìm trọng số thích hợp 35 2.5.4 Xác định kết cuối 36 2.5.5 Mã giả 38 2.6 Kết luận chƣơng 39 CHƢƠNG III: ỨNG DỤNG PHÂN ĐOẠN ẢNH VIỄN THÁM 40 3.1 Tổng quan ảnh viễn thám 40 3.1.1 Tổng quan 40 3.1.2 Nguyên lý viễn thám 40 3.1.3 Bộ cảm máy chụp ảnh 41 3.1.4 Phân loại ảnh viễn thám 42 3.2 Nhu cầu thực tế toán phân đoạn ảnh viễn thám 42 3.2.1 Nhu cầu thực tế 43 3.2.1 Mục đích ứng dụng 43 3.2.2 Tiêu chí đánh giá theo số thực vật 44 3.3 Đặc tả liệu 46 3.4 Các bƣớc phân đoạn ảnh 48 3.4.1 Tiền xử lý ảnh 48 3.4.2 Các bƣớc trình phân đoạn ảnh 49 3.5 Thiết kế hệ thống 49 3.5.1 Chức phân đoạn ảnh viễn thám 50 3.5.2 Chức xem chi tiết kết 51 3.5.3 Chức đánh giá chất lƣợng phân đoạn ảnh viễn thám 52 3.6 Minh họa chƣơng trình đánh giá tổng hợp 53 3.6.1 Giao diện ứng dụng 53 3.6.2 Chọn ảnh cần phân đoạn 54 3.6.3 Chọn tham số thuật toán phân đoạn ảnh 54 3.6.4 Kết phân đoạn ảnh độ đo 55 3.7 Kết ảnh thu đƣợc 56 3.7.1 Ảnh baolam.img 56 3.7.2 Ảnh thanhhoa.img 56 3.8 Đánh giá kết phân đoạn 57 3.9 Tổng kết chƣơng 58 KẾT LUẬN 59 Tài liệu tiếng Việt 60 Tài liệu tiếng Anh 60 DANH SÁCH HÌNH VẼ Hình 1: Các chiến lƣợc phân cụm phân cấp Hình 2: Thể sơ đồ nguyên lý thu nhận ảnh viễn thám Hình 3: Bản đồ số thực vật (NDVI) bề mặt trái đất theo MODIS Hình 4: Ảnh sử dụng phần mềm Envi chia kênh Hình 5.a: Ảnh khu huyện Bảo Lâm Hình 5.b: Ảnh khu vực tỉnh Thanh Hóa Hình 6: Các bƣớc trình phân đoạn ảnh Hình 7: Biểu diễn Ucase mô tả chức ứng dụng Hình 8: Biểu đồ trình tự chức phân đoạn ảnh Hình 9: Biểu đồ trình tự chức xem kết Hình 10: Biểu đồ trình tự chức đánh giá kết Hình 11: Giao diện phần mềm ứng dụng Hình 12: Chọn ảnh cần phân đoạn Hình 13: Chọn tham số thuật toán phân đoạn ảnh Hình 14: Kết phân đoạn ảnh độ đo Hình 15: Ảnh baolam.img trƣớc sau phân đoạn sử dụng sCSPA Hình 16: Ảnh baolam.img trƣớc sau phân đoạn sử dụng GM Hình 17: Ảnh baolam.img trƣớc sau phân đoạn GM Hình 18: Ảnh baolam.img trƣớc sau phân đoạn sCSPA DANH MỤC CÁC KÝ HIỆU VIẾT TẮT Từ cụm từ Tập mờ Từ viết tắt FS Phân cụm mờ C - Means FCM Phân cụm mờ K-Means KFCM Từ Tiếng Anh Fuzzy Set Fuzzy C – Means Kernel fuzzy C-means Thuật toán phân cụm GK Gustafson–Kessel Hệ thống thông tin địa lý GIS Geographic Information System Thuật toán phân cụm đa mô MCLA Meta-CLustering Algorithm CSPA Cluster-based Similarity hình Thuật toán phân cụm đa mô hình dựa tƣơng đồng Thuật toán xây dựng biểu đồ Partitioning Algorithm HBGF hỗn hợp Chỉ số thực vật Hybrid Bipartite Graph Formulation NDVI Normalized difference vegetation index Tỷ số số thực vật RVI Ratio vegetion index Chỉ số sai khác thực vật DVI Difference vegetion index Chỉ số màu xanh thực vật GVI Green vegetation index Chỉ số màu sáng thực vật LVI Light vegetation index Chỉ số úa vàng thực vật YVI Yellow vegetation index Chỉ số màu nâu thực vật BVI Brown vegetation index Chỉ số thực vật trồng CVI Crop vegetion index LỜI MỞ ĐẦU ĐẶT VẤN ĐỀ Trong năm gần đây, công nghệ thông tin có chuyển biến mạnh mẽ, tác động lớn đến phát triển xã hội Sự bùng nổ thông tin đem đến lƣợng liệu khổng lồ Chúng ta có nhu cầu khám phá kho liệu phục vụ cho nhu cầu ngƣời, điều đòi hỏi ngƣời phải biết khai thác liệu xử lý thông tin thành tri thức có ích Một kỹ thuật quan trọng trình khai phá liệu xử lý liệu lớn kỹ thuật phân cụm liệu Phân cụm đặc biệt hiệu ta thông tin cụm, ta quan tâm tới thuộc tính cụm mà chƣa biết biết thông tin Phân cụm đƣợc coi nhƣ công cụ độc lập để xem xét phân bố liệu, làm bƣớc tiền xử lý cho thuật toán khác Việc phân cụm liệu có nhiều ứng dụng nhƣ lập quy hoạch đô thị, nghiên cứu trái đất, địa lý, khai phá Web v.v Ngày nay, với kỹ thuật phân cụm kết hợp với lý thuyết mờ Zadeh phƣơng pháp phân cụm mờ phát triển đƣợc ứng dụng rộng rãi thực thực tiễn, phân đoạn ảnh, phân đoạn ảnh viễn thám, nhận dạng mặt ngƣời, nhận dạng cử điệu bộ, phân tích rủi ro, dự báo nguy phá sản cho ngân hàng nhiều toán khác Những vấn đề đƣợc quan tâm nhiều phân cụm nói chung phân mờ nói riêng nâng cao chất lƣợng phân cụm, tính toán thông qua số độ đo chất lƣợng cụ thể v.v đƣợc áp dụng phân đoạn ảnh viễn thám đa mô hình Và khuôn khổ luận văn tìm hiểu vấn đề sở khảo sát số thuật toán phân cụm đa mô hình cho toán phân cụm ảnh viễn thám, cụ thể thuật toán SCPA, MG MỤC ĐÍCH CỦA LUẬN VĂN Trong luận văn khảo sát môt số thuật toán phân cụm mờ, cụ thể thuật toán FCM, KFCM, MG, SCPA Các thuật toán đƣợc áp dụng cho toán phân cụm ảnh viễn thám đa mô hình Cụ thể với sở liệu mẫu ảnh vệ tinh số khu vực đƣợc khảo sát khu vực Bảo Lâm Thanh Hóa Qua đây, tính hiệu thuật toán đa mô hình cho toán phân cụm ảnh viễn thám theo tiêu chí chất lƣợng độ đo BỐ CỤC CỦA LUẬN VĂN Luận văn gồm chƣơng, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Các nội dung luận văn đƣợc trình bày theo cấu trúc nhƣ sau: Chƣơng 1: Tổng quan phân cụm Trong chƣơng này, luận văn trình bày tổng quan tập mờ, toán phân cụm phân cụm mờ thuật toán giải vấn đề phân cụm tập mờ thuật toán Fuzzy C – Means (FCM), KFCM Từ thuật toán đƣa thuật toán đa mô hình cho toán phân cụm ảnh viễn thám Chƣơng 2: Phân cụm đa mô hình Trong chƣơng này, tổng quan học đa mô hình phân cụm đa mô hình Tiếp theo, giới thiệu thuật toán đa mô hình SCPA, MCLA, HBGF MG Chƣơng 3: Ứng dụng phân đoạn ảnh viễn thám Trong chƣơng này, cài đặt đánh giá hiệu thuật toán đa mô hình: MG SCPA từ thấy hiệu thuật toán phân cụm đa mô hình cho ảnh viễn thám đƣợc khẳng định CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM 1.1 Khái quát phân cụm Phân cụm kỹ thuật quan trọng khai phá liệu, thuộc lớp phƣơng pháp học không giám sát học máy, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn quan trọng tập liệu lớn để từ cung cấp thông tin, tri thức cho việc định Có nhiều định nghĩa khác kỹ thuật này, nhƣng chất ta hiểu phân cụm qui trình tìm cách nhóm đối tƣợng cho vào cụm, cho đối tƣợng cụm tƣơng tự đối tƣợng khác cụm không tƣơng tự [1] Mục đích phân cụm tìm chất bên nhóm nội bên liệu nhãn Tuy nhiên, tiêu chí đƣợc xem tốt để đánh giá hiệu phân tích phân cụm, điều phụ thuộc vào mục đích cuối phân cụm liệu Do đó, ngƣời sử dụng phải cung cấp tiêu chuẩn, theo cách nhƣ mà kết phân cụm phù hợp với nhu cầu ngƣời sử dụng cần Định nghĩa 1.1 Cho X tập liệu gồm N vector:  x , x , , x N  Bài toán phân cụm chia tập liệu X , c cụm liệu c Thỏa mãn điều kiện sau:  zi   , i  1, 2, , c  X  Ui 1 zi  zi I z j   với i  j ; i, j  1, 2, , c c Phân cụm đƣợc đóng vai trò quan trọng nghành khoa học: Thƣơng mại: Phân cụm liệu giúp nhà cung cấp biết đƣợc nhóm khác hàng quan trọng có đặc trƣng tƣơng đồng đặc tả họ từ mẫu sở liệu khách hàng 10 Hình 5.a Ảnh khu huyện Bảo Lâm với diện tích tự nhiên 146.344 Đây khu vực đƣợc bao phủ lớp bao gồm nhƣ nƣớc, đá, đất, rừng nguyên sinh, rừng tự nhiên, đất canh tác Hình 5.b Ảnh khu vực tỉnh Thanh Hóa với diện tích tự nhiên 11.130,2 km² đƣợc bao phủ lớp bao gồm nhƣ nƣớc, đá, đất, rừng nguyên sinh, rừng tự nhiên, đất canh tác 3.4 Các bƣớc phân đoạn ảnh 3.4.1 Tiền xử lý ảnh Sử dụng phần mềm ENVI hệ thống xử lý ảnh mạnh ENVI đƣợc thiết kế để đáp ứng yêu cầu nhà nghiên cứu có nhu cầu sử dụng liệu ảnh viễn thám, bao gồm loại ảnh vệ tinh ảnh hàng không ENVI hỗ trợ hiển thị liệu phân tích liệu ảnh kích thƣớc nhiều kiểu định dạng khác Cho phép làm việc với kênh phổ riêng lẻ toàn ảnh Khi file ảnh đƣợc mở kênh phổ ảnh thao tác với tất chức có hệ thống Với file liệu đƣợc mở ta dễ dàng lựa chọn kênh từ file ảnh để xử lý Từ liệu ảnh ban đa ảnh đa kênh bao gồm kênh mô tả phân lớp ảnh ta sử dụng hai kênh để thực việc phân đoạn ảnh viễn thám 48 3.4.2 Các bƣớc trình phân đoạn ảnh Đọc ảnh đầu vào xử lý phân kênh Tính NDVI Chuyển ảnh đa mức xám Phân cụm đơn mô hình (FCM, KFCM) Phân đoạn ảnh đa mô hình sCSPA/GM Hiển thị kết Hình 6: Các bƣớc trình phân đoạn ảnh 3.5 Thiết kế hệ thống Hệ thống cho phép ngƣời dùng phân đoạn ảnh viễn thám, xem chi tiết kết nhƣ thời gian chạy độ đo đánh giá chất lƣợng phân cụm 49 Hình 7: Biểu diễn Usecase mô tả chức ứng dụng 3.5.1 Chức phân đoạn ảnh viễn thám - Tác nhân: Ngƣời dùng - Input: Ảnh viễn thám cần phân đoạn - Output: ảnh đƣợc phân đoạn - Mô tả chi tiết: + Ngƣời dùng chọn ảnh cần phân đoạn + Ngƣời dùng nhập tham số + Hệ thống kiểm tra tham số yêu cầu nhập lại thỏa mãn + Ngƣời dùng chọn phân đoạn ảnh + Hệ thống thực phân đoạn đa mô hình sCSPA/GM trả lại kết 50 - Biểu đồ trình tự: Hình 8: Biểu đồ trình tự chức phân đoạn ảnh 3.5.2 Chức xem chi tiết kết - Tác nhân: Ngƣời dùng - Input: Ảnh đƣợc phân đoạn ngƣời dùng chọn xem chi tiết kết phân cụm (phân đoạn) - Output: Kết chi tiết đƣợc hiển thị - Mô tả chi tiết: + Ngƣời dùng chọn chức xem chi tiết kết + Hệ thống hiển thị kết chi tiết 51 - Biểu đồ trình tự: Hình 9: Biểu đồ trình tự chức xem kết 3.5.3 Chức đánh giá chất lƣợng phân đoạn ảnh viễn thám - Tác nhân: Ngƣời dùng - Input: Ảnh đƣợc phân đoạn ngƣời dùng chọn độ đo đánh giá kết phân cụm (phân đoạn) - Output: Kết đánh giá đƣợc hiển thị - Mô tả chi tiết: + Ngƣời dùng chọn chức đánh giá kết + Hệ thống hiển thị kết đánh giá 52 - Biểu đồ trình tự: Hình 10: Biểu đồ trình tự chức đánh giá kết 3.6 Minh họa chƣơng trình đánh giá tổng hợp 3.6.1 Giao diện ứng dụng 53 Hình 11: Giao diện phần mềm ứng dụng 3.6.2 Chọn ảnh cần phân đoạn Hình 12: Chọn ảnh cần phân đoạn 3.6.3 Chọn tham số thuật toán phân đoạn ảnh 54 Hình 13: Chọn tham số thuật toán phân đoạn ảnh 3.6.4 Kết phân đoạn ảnh độ đo 55 Hình 14: Kết phân đoạn ảnh độ đo 3.7 Kết ảnh thu đƣợc 3.7.1 Ảnh baolam.img Ảnh ban đầu (kênh 3) Ảnh ban đầu (kênh 4) Ảnh sau phân đoạn sử dụng thuật toán sCSPA Hình 15: Ảnh baolam.img trƣớc sau phân đoạn sử dụng sCSPA Ảnh ban đầu (kênh 3) Ảnh ban đầu (kênh 4) Ảnh sau phân đoạn sử dụng thuật toán GM Hình 16: Ảnh baolam.img trƣớc sau phân đoạn sử dụng GM 3.7.2 Ảnh thanhhoa.img 56 Ảnh ban đầu (kênh 3) Ảnh ban đầu (kênh 4) Ảnh sau phân đoạn Hình 17: Ảnh baolam.img trƣớc sau phân đoạn GM Ảnh ban đầu (kênh 3) Ảnh ban đầu (kênh 4) Ảnh sau phân đoạn Hình 18: Ảnh baolam.img trƣớc sau phân đoạn sCSPA 3.8 Đánh giá kết phân đoạn Chƣơng trình đƣợc cài đặt Matlap Chƣơng trình đƣợc chạy thực nghiệm máy tính Laptop với thông số kỹ thuật: Intel(R) Core(TM) i32330M CPU @ 2.2GHz DDRam3 4Gb Kết phân đoạn ảnh thuật toán phân cụm đa mô hình sử dụng sCSPA, GM đƣợc đánh giá cách so sánh thời gian tính toán, độ đo PC, DI với số cụm đầu vào ảnh Ảnh PC Số cụm GM sCSPA 57 Thanhhoa1993 0.49957 0.32681 Thanhhoa2000 0.72774 0.33549 Thanhhoa2003 0.51785 0.46461 Thanhhoa2009 0.68921 0.35549 Thanhhoa2013 0.50017 0.32584 Bảng 3.1: Bảng giá trị PC Từ bảng so sánh ta thấy đƣợc qua số độ đo PC ta thấy thuật toán MG có giá trị lớn thuật toán sCSPA chứng tỏ thuật toán MG phân cụm tốt 3.9 Tổng kết chƣơng Chƣơng III mô tả trình xây dựng ứng dụng phân đoạn ảnh viễn thám phƣơng pháp phân cụm phân cụm đa mô hình, cụ thể thuật toán sCSPA, GM: từ đặc tả yêu cầu, thiết kế hệ thống đến triển khai cài đặt chƣơng trình Từ minh họa cách rõ ràng cách hoạt động, ứng dụng nhƣ hiệu thuật toán phân cụm đa mô hình phân đoạn ảnh viễn thám Một số kết ảnh phân đoạn đƣợc đƣa Đặc biệt có so sánh tính hiệu trình phân đoạn thuật toán sCSPA, GM từ cho thấy tính giá trị phân cụm đa mô hình ứng dụng phân đoạn ảnh viễn thám 58 KẾT LUẬN Với nhiều ý nghĩa thực tế, xử lý ảnh ngày thu hút quan tâm đặc biệt từ nhà khoa học giới, đặc biệt xử lý ảnh viễn thám Trong đó, phân đoạn ảnh đƣợc coi nhƣ bƣớc thiết yếu trƣớc áp dụng thao tác xử lý ảnh mức cao Đóng góp luận văn: - Tìm hiểu đƣợc kiến thức tổng quan phân cụm, phân cụm đa mô hình - Tổng hợp phƣơng pháp phân đoạn ảnh đa mô hình, với phƣơng pháp đƣa thuật toán, đánh giá trực quan thuật toán Từ cho có nhìn từ tổng thể đến chi tiết thuật toán đa mô hình phân đoạn ảnh viễn thám - Cài đặt thuật toán phân cụm mờ đơn FCM, KFCM thuật toán phân cụm đa mô hình sCSPA, GM để phân đoạn ảnh viễn thám Trong có đƣa độ đo PC thời gian chạy để đánh giá chất lƣợng kết thu đƣợc Từ cho thấy tính hiệu thuật toán phân cụm đa mô hình mờ ứng dụng việc phân đoạn ảnh viễn thám Dựa kết bƣớc đầu đạt đƣợc, tƣơng lai, đề tài đƣợc phát triển theo hƣớng nhƣ sau: - Tiếp tục cải tiến, xây dựng phƣơng pháp phân cụm đa mô hình mờ để đạt đƣợc hiệu phân đoạn ảnh cao - Phát triển hệ thống hỗ trợ, phân đoạn ảnh viễn thám phục vụ quan trọng khí tƣợng, đồ, nông – lâm nghiệp, địa chất, môi trƣờng, dự báo thời tiết, dự báo thiên tai liên quan đến biến đổi khí hậu Đây công cụ hữu hiệu cho ngành đồ, theo dõi biến đổi thảm phủ thực vật, độ che phủ rừng, theo dõi tốc độ sa mạc hóa, phân tích cấu trúc địa chất bề mặt 59 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Bùi Công Cƣờng, Nguyễn Doãn Phƣớc (2006) Hệ mờ, mạng nơron ứng dụng, Nhà xuất Khoa học kỹ thuật [2] Nguyễn Đình Dƣơng (1998) Bài giảng: Kỹ thuật phƣơng pháp viễn thám Trường ĐH Mỏ Địa Chất [3] Nguyễn Khắc Thời (2011) Giáo trình: Ảnh viễn thám Trường ĐH Nông nghiệp Hà Nội – 2011 Tài liệu tiếng Anh [4] Bezdek, J C (1981) Pattern recognition with fuzzy objective function algorithms Kluwer Academic Publishers [5] Bezdek, J C., Ehrlich, R., & Full, W (1984) FCM: The fuzzy c-means clustering algorithm Computers & Geosciences, 10(2), 191-203 [6] Dunn, J C (1974) "Well-separated clusters and optimal fuzzy partitions." Cybernetics and Systems 4(1): 95-104 [7] Davies, D L and Bouldin, D W (1979) "A cluster separation measure." IEEE Transactions on Pattern Analysis and Machine Intelligence 1(2): 95-104 [8] Halkidi, M., Batistakis, Y., et al (2001) "On clustering validation techniques." Journal of Intelligent Information Systems 17(2): 107-145 [9] Theodoridis, S., Koutroumbas, K., et al (1999) Pattern Recognition, Academic Press [10] Halkidi, M., Batistakis, Y., et al (2002) "Cluster validity methods: part I." ACM SIGMOD Record 31(2): 40-45 60 [11] Zhi-Hua Zhou: “Ensemble Methods Foundations and Algorithms”, pages 135–155.Ensemble [12] Dunn, J C (1974) "Well-separated clusters and optimal fuzzy partitions." Cybernetics and Systems 4(1): 95-104 [13] Lesot, M J., & Kruse, R (2006) Gustafson-Kessel-like clustering algorithm based on typicality degrees International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, IPMU (pp 1300-1307) [14] Davies, D L and Bouldin, D W (1979) "A cluster separation measure." IEEE Transactions on Pattern Analysis and Machine Intelligence 1(2): 95-104 [15] Vinh, N., Epps, J., et al (2009) Information theoretic measures for clusterings comparison: is a correction for chance necessary? in the Proceedings of the 26th International Conference on Machine Learning (ICML'09) [16] Son, L H., Thong, N T (2015) Intuitionistic Fuzzy Recommender Systems: An Effective Tool for Medical Diagnosis Knowledge-Based Systems [17] Srivastava, V., Tripathi, B K., & Pathak, V K (2013) Evolutionary fuzzy clustering and functional modular neural network-based human recognition Neural Computing and Applications, 22(1), 411-419 [18] Strehl, A., & Ghosh, J (2003) Cluster ensembles -a knowledge reuse framework for combining multiple partitions The Journal of Machine Learning Research, 3, 583-617 [19] Alexander Hinneburg, Daniel A Keim (1998) An Efficient Approach to Clustering in Large Multimedia Databases with Noise Knowledge-Based Systems [20] UC Irvine (2015) UCI Machine Learning Repository Available at: http://archive.ics.uci.edu/ml 61 [21] Vega-Pons, S., & Ruiz-Shulcloper, J (2011) A survey of clustering ensemble algorithms International Journal of Pattern Recognition and Artificial Intelligence, 25(03), 337-372 [22] Vendramin, L., Campello, RJ, & Hruschka, ER (2010) Relative clustering validity criteria: A comparative overview Statistical Analysis and Data Mining: The ASA Data Science Journal, 3(4), 209-235 [23] Zhang, D., & Chen, S (2002) Fuzzy clustering using kernel method 2002 International Conference on Control and Automation, 2002 ICCA, 2002 [24] Karypis G and Kumar V 1998 A fast and high quality multilevel scheme for partitioning irregular graphs SIAM Journal on Scientific Computing 20(1), 359–392 [25] D E Gustafson and W C Kessel: in Proc IEEE CDC, Vol.2, pp.761766(1979) [26] Le Hoang Son, Pham Van Hai (2016) A novel multiple fuzzy clustering method based on internal clustering validation measures with gradient descent Inernational Journal of Fuzzy Systems [27] J Valente de Oliveira and W Pedrycz: Advances in Fuzzy Clustering and Its Applications IEEE Press, Piscataway, NJ [28] Bojun Yan and Carlotta Domeniconi Subspace Metric Ensembles for Semi- supervised Clustering of High Dimensional Data IEEE Trans Pattern Anal Mach Intell (TPAMI) [29] Fern XZ and Brodley CE 2003 Random projection for high dimensional clustering: A cluster ensemble approach Proceedings of the Twentieth International Conference on Machine Learning ACM Press [30] Thomas G Dietterich: Ensemble Methods in Machine Learning Oregon State University Corvallis Oregon USA 62 [...]... độ đo phân cụm và một số độ đo tiêu biểu Trong chƣơng 2 luận văn sẽ trình bày các thuật toán phân cụm đa mô hình 26 CHƢƠNG II: PHÂN CỤM ĐA MÔ HÌNH 2.1 Tổng quan về học đa mô hình và phân cụm đa mô hình 2.1.1 Học đa mô hình Học đa mô hình là một phƣơng pháp học máy sử dụng nhiều nhóm học để giải quyết cùng một vấn đề Ngƣợc với cách tiếp cận của các phƣơng pháp học thông thƣờng là cố gắng tìm hiểu một. .. không thuật toán nào có thể làm việc hiệu quả trên mọi tập dữ liệu Phân cụm đa mô hình là cách tiếp cận trong đó kết hợp các giải pháp của các thuật toán phân cụm đơn nhằm thu đƣợc nghiệm có chất lƣợng tốt hơn nghiệm của các thuật toán đơn đó và phản ánh chính xác hơn phân bố của các điểm dữ liệu Các thuật toán phân cụm đa mô hình đƣợc xây dựng theo nhiều tiếp cận khác Các thuật toán phân cụm đa mô hình. .. nhƣ để hƣớng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Nhƣ vậy, ý tƣởng chính của thuật toán phân cụm phân hoạch tối ƣu cục bộ là sử dụng chiến lƣợc ăn tham để tìm kiếm nghiệm Một số thuật toán phân cụm theo tiếp cận phân hoạch: Thuật toán K-Means, thuật toán K-Medoids Thuật toán K-Means: Cho k là số cụm sau khi phân hoạch (1≤ k ≤ n, với n là số điểm trong không gian giữ liệu) Thuật toán k-means gồm... 19 end 20 Output: Phân cụm đa mô hình  ; 2.4 Thuật toán phân cụm đa mô hình HBGF (sHBGF) Xét một tập dữ liệu X  x1, x2 , , xn  Phân cụm đa mô hình là tập hợp các giải pháp S phân cụm: C  c1, c2 , , cs  Mỗi giải pháp phân cụm Cl trong  đó l  1, , S là một phân vùng của tập X , tức là Cl  Cl1 , Cl2 , , ClKl  trong đó K ClK  X Với tập hợp các giải pháp phân nhóm C và số cụm K Mục tiêu là... tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lƣợc phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình này để nhận dạng ra các phân hoạch Phƣơng pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu đƣợc tạo ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa... chứng minh là một lựa chọn tốt khi phải xử lý vấn đề phân tích cụm bao gồm việc tạo ra một tập hợp các cụm từ các số liệu tƣơng tự và kết hợp chúng thành một cụm đồng nhất Mục tiêu của quá trình kết hợp này là để nâng cao chất lƣợng phân cụm dữ liệu riêng lẻ Có nhiều phƣơng pháp phân cụm khác nhau đƣợc sử dụng nhƣ: phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ, phân cụm dựa trên lƣới,... vi là một trường hợp X ; v j là một cụm trong C;   6 then E  E  eij 7 wij  1; 8 9 % thêm cạnh eij  (vi , v j ) end end 33 10 G  V , E  ; 11   L  G  ; %Gọi các gói phân vùng đồ thị trên G 12 Output: Phân cụm đa mô hình 2.5  ; Thuật toán MG 2.5.1 Phân cụm bởi các thuật toán đơn Cho một tập dữ liệu X gồm N điểm dữ liệu trong kích thƣớc r Chia các số liệu vào các cụm C với một số tham số xác... và thuộc về một cụm quá lớn so với bộ nhớ và chúng sẽ đƣợc lƣu lại trong các trƣờng hợp còn lại 1.2.5 Phân cụm mờ Phân cụm dữ liệu đóng vai trò quan trọng trong giải quyết bài toán nhân biết mẫu và xác định mô hình mờ Thuật toán FCM phù hợp hơn với dữ liệu lớn hoặc nhỏ phân bố quanh tâm cụm Fuzzy C – Means là một phƣơng pháp phân nhóm cho phép một phần dữ liệu thuộc hai hay nhiều cụm Phân cụm N vector... giãn tốt hơn các thuật toán phân cụm đơn [18] Vững mạnh: Quá trình kết hợp phải có hiệu suất tốt hơn so với trung bình các thuật toán phân cụm đơn Tính nhất quán: Các kết quả của sự kết hợp nên bằng cách nào đó, rất giống với tất cả các kết quả kết hợp thuật toán phân nhóm duy nhất Mới lạ: Phân cụm đa mô hình phải cho phép tìm kiếm các giải pháp không thể đạt đƣợc bằng thuật toán phân cụm đơn Tính ổn... 1.2 Tổng quan các thuật toán phân cụm tiêu biểu Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hƣớng tới hai mục tiêu chung đó là chất lƣợng của các cụm khám phá đƣợc và tốc độ thực hiện của thuật toán [1] Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các cách tiếp cận chính sau: 1.2.1 Phân cụm cụm phân hoạch Kỹ thuật này phân hoạch một tập hợp dữ liệu

Ngày đăng: 20/11/2016, 19:29

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan