GOM CỤM DỮ LIỆU BẰNG THUẬT TOÁN K-MEANS & ỨNG DỤNG GOM CỤM ẢNH

30 1.2K 8
GOM CỤM DỮ LIỆU BẰNG THUẬT TOÁN K-MEANS & ỨNG DỤNG GOM CỤM ẢNH

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Bài thu hoạch môn học KHAI PHÁ DỮ LIỆU & KHO DỮ LIỆU Đề tài GOM CỤM DỮ LIỆU BẰNG THUẬT TOÁN K-MEANS & ỨNG DỤNG GOM CỤM ẢNH GIÁO VIÊN HƯỚNG DẪN: PGS.TS. ĐỖ PHÚC HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA LỚP: CAO HỌC CNTTQM KHÓA 6. MÃ SỐ HỌC VIÊN: CH1101016. TPHCM tháng 11/2012 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU LỜI NÓI ĐẦU Kỹ thuật khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Việc khai phá dữ liệu sẽ giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu khổng lồ khác.lồ khác. Nhưng để làm được điều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả là chìa khoá quan trọng. Trong đó, kỹ thuật thường dùng để khai phá dữ liệu chính là Gom cụm và giải thuật sử dụng để gom cụm chính là K-Means. Trong khuôn khổ bài thu hoạch nhỏ này, tôi xin trình về những kiến thức về Gom cụm (gom cụm) nói chung, sau đó tôi sẽ triển khai chi tiết về một thuật toán thường dùng trong gom cụm, đó là thuật toán K-Means. Cuối cùng, tôi xin trình bày về một ứng dụng nhỏ, sử dụng thuật toán K-Means để gom cụm màu sắc cho hình ảnh. Qua đây, tôi xin được gửi lời cảm ơn đến PGS – TS Đỗ Phúc, người đã tận tâm truyền đạt những kiến thức nền tảng cơ bản về môn học “Khai phá dữ liệu và kho dữ liệu”, định hướng cho tôi biết về nhiều hướng đi mới, cơ sở nghiên cứu mới mẻ trong kỹ thuật khai phá dữ liệu, giúp tôi có cơ sở kiến thức để có thể viết được bài thu hoạch này. Do kiến thức còn hạn hẹp, bài thu hoạch có thể có những sai sót nhất định, mong thầy và các bạn góp ý để bài thu hoạch ngày càng hoàn thiện hơn. Tôi xin tỏ lòng biết ơn sâu xa! Học viên thực hiện đề tài Nguyễn Văn Khoa HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 2 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU MỤC LỤC LỜI NÓI ĐẦU 2 MỤC LỤC 3 1. GOM CỤM TRONG KHAI PHÁ DỮ LIỆU 4 Gom cụm là gì 4 Ứng dụng của gom cụm 5 Các kiểu dữ liệu trong gom cụm 6 Một số phương pháp gom cụm điển hình 10 2. THUẬT TOÁN K-MEANS 14 Mô tả thuật toán 15 Ví dụ minh họa thuật toán 15 Đánh giá thuật toán K - Means 20 Các biến thể của K-Means 21 Ứng dụng của K - Means 24 3. ỨNG DỤNG GOM CỤM ẢNH BẰNG K- MEANS 25 Giới thiệu về phân đoạn ảnh bằng gom cụm 25 Cài đặt thử nghiệm 27 4. KẾT LUẬN 29 HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 3 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU 5. TÀI LIỆU THAM KHẢO 30 1. GOM CỤM TRONG KHAI PHÁ DỮ LIỆU Gom cụm là gì Gom cụm dữ liệu (Data Clustering) hay gom cụm, cũng có thể gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự. Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trong một cụm và phi tương tự với các đối tượng trong các cụm khác. Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng. Gom cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning (học không giám sát) trong Machine Learning (học máy). Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu gom cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau. Mục đích của gom cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. Các thuật toán gom cụm (Clustering Algorithms) đều sinh ra các cụm (clusters). Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân tích gom cụm, điều này phụ thuộc vào mục đích của gom cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection. Tóm lại, gom cụm là quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu thỏa mãn: • Các đối tượng trong 1 cụm “tương tự” nhau. • Các đối tượng khác cụm thì “không tương tự” nhau. Mục đích của gom cụm là: • Xác định được bản chất của việc nhóm các đối tượng trong 1 tập dữ liệu không có nhãn. HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 4 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU • Gom cụm không dựa trên 1 tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người dùng cung cấp trong từng trường hợp. Hình 1. Mô tả trừu tượng về gom cụm dữ liệu Ứng dụng của gom cụm Gom cụm là một trong những phân tích được sử dụng thường xuyên nhất trong biểu diễn dữ liệu gene. Dữ liệu biểu diễn gene là một tâp hợp các phép đo được lấy từ DNA microarray (còn gọi là DNA chip hay gene chip) là một tấm thủy tinh hoặc nhựa trên đó có gắn các đoạn DNA thành các hàng siêu nhỏ. Các nhà nghiên cứu sử dụng các con chip như vậy để sàng lọc các mẫu sinh học nhằm kiểm tra sự có mặt hàng loạt trình tự cùng một lúc. Gom cụm dữ liệu còn được áp dụng trong nhiều lĩnh vực sức khỏe tâm lý, bao gồm cả việc thúc đẩy và duy trì sức khỏe, cải thiện cho hệ thống chăm sóc sức khỏe, và công tác phòng chống bệnh tật và người khuyết tật Trong sự phát triển hệ thống chăm sóc sức khỏe, gom cụm dữ liệu được sử dụng để xác định các nhóm của người dân mà có thể được hưởng lợi từ các dịch vụ cụ thể. Trong thúc đẩy y tế, nhóm phân tích được sử dụng để lựa chọn nhắm mục tiêu vào nhóm sẽ có khả năng đem lại lợi ích cho sức khỏe cụ thể từ các chiến dịch quảng bá và tạo điều kiện thuận lợi cho sự phát triển của quảng cáo. Trong nghiên cứu thị trường, gom cụm dữ liệu được sử dụng để phân đoạn thị trường và xác định mục tiêu thị trường. Trong phân đoạn thị trường, gom cụm dữ liệu thường được dùng để phân chia thị trường thành nhưng cụm mang ý nghĩa, HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 5 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU chẳng han như chia ra đối tượng nam giới từ 21-30 tuổi và nam giới ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường không có khuynh hướng mua các sản phẩm mới…vv… Gom cụm là kỹ thuật chính trong phân đoạn ảnh. Phân đoạn ảnh là việc phân tích mức xám hay mầu của ảnh thành các lát đồng nhất. Trong phân đoạn ảnh, gom cụm dữ liệu thường được sử dụng để phát hiện biên của đối tượng trong ảnh. Kỹ thuật gom cụm còn có thể áp dụng trong rất nhiều lĩnh vực khác như: • Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ của công ty để giúp công ty có chiến lược kinh doanh hiệu quả hơn; • Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng; • Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…; • Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài chính, dự đoán xu hướng (trend) của khách hàng, phát hiện gian lận tài chính (identifying frauds); • Web: Phân loại tài liệu (document classification); phân loại người dùng web (clustering weblog);… Các kiểu dữ liệu trong gom cụm Trong phần này, ta nghiên cứu các kiểu dữ liệu thường xuất hiện trong các phép phân cụm và tiền xử lý chúng như thế nào cho phép phân tích này. Giả sử rằng một tập dữ liệu được phân cụm chứa n đối tượng, nó có thể đại diện cho người, nhà, văn bản, đất nước, v.v Các giải thuật phân cụm dựa trên bộ nhớ chính thao tác trên một trong hai cấu trúc dữ liệu sau: • Ma trận dữ liệu (hay cấu trúc: đối tượng x biến): Được đại diện bởi n đối tượng, ví dụ như người với p biến (còn được gọi là các phép đo hay các thuộc tính) như tuổi, chiều cao, giới tính, v.v • Ma trận không tương đồng (hay cấu trúc đối tượng x đối tượng): Nó lưu trữ một tập hợp các trạng thái (về mặt không gian, thời gian, ) cho tất cả n cặp đối HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 6 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU tượng. Ma trận dữ liệu thường được gọi là ma trận 2-mode (2 chế độ), trong khi đó ma trận không tương đồng được gọi là ma trận 1-mode (1 chế độ). Nhiều giải thuật phân cụm thao tác trên ma trận không tương đồng. Nếu dữ liệu được đưa ra dưới dạng ma trận dữ liệu thì nó có thể được chuyển đổi sang ma trận không tương đồng trước khi áp dụng các giải thuật phân cụm. Các biến tỷ lệ khoảng cách Phần này thảo luận các biến tỷ lệ khoảng cách và chuẩn hoá chúng. Sau đó mô tả các phép đo khoảng cách phổ biến được dùng trong tính toán độ không tương đồng của các đối tượng được mô tả bởi các biến tỷ lệ khoảng cách. Các phép đo này bao gồm các khoảng cách Euclidean, Mahattan và Minkowski. Các biến tỷ lệ khoảng cách là các phép đo liên tục của một tỷ lệ tuyến tính thô. Các mẫu điển hình như trọng lượng và chiều cao, sự kết hợp vĩ độ và kinh độ (ví dụ khi phân cụm nhà) và nhiệt độ khí hậu. Đơn vị phép đo đã dùng có thể ảnh hưởng đến phép phân cụm. Ví dụ, thay đổi các đơn vị đo, như thay đổi từ meter tới inche cho chiều cao hay từ kilogram tới pound cho trọng lượng, có thể dẫn tới một cấu trúc phân cụm rất khác biệt. Nhìn chung, biểu diễn một biến dưới các đơn vị nhỏ hơn sẽ dẫn tới một phạm vi lớn hơn cho biến đó và do vậy một hiệu ứng lớn hơn trên kết quả cấu trúc phân cụm. Để tránh sự phụ thuộc vào việc lựa chọn đơn vị đo, dữ liệu nên được chuẩn hoá. Chuẩn hoá các phép đo cố gắng mang lại cho tất cả các biến một trọng số như nhau. Tuy nhiên, trong nhiều ứng dụng, người ta có thể cố ý muốn mang tới trọng số lớn hơn cho một tập các biến nào đó so với các biến khác. Ví dụ, khi phân cụm các cầu thủ chơi bóng rổ, người ta có thể thích mang tới trọng số hơn cho biến chiều cao. Các biến nhị phân Phần này mô tả làm thế nào để tính toán độ không tương đồng giữa các đối tượng được mô tả bởi các biến nhị phân đối xứng hoặc không đối xứng. Một biến nhị phân chỉ có hai trạng thái 0 hay 1, với 0 là biến vắng mặt, 1 là biến có mặt. Cho trước biến hút thuốc mô tả một bệnh nhân, ví dụ, 1 chỉ rằng HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 7 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU bệnh nhân hút thuốc, 0 cho biết bệnh nhân không hút thuốc. Xử lý các biến nhị phân giống như các biến tỷ lệ khoảng cách có thể dẫn tới lạc lối các kết quả phân cụm. Bởi vậy, các phương pháp chỉ định cho dữ liệu nhị phân cần phải tính toán độ không tương đồng. Một biến nhị phân là đối xứng nếu như cả hai trạng thái của nó có cùng trị giá và mang cùng trọng số, do vậy không có sự ưu tiên nên kết quả mã hoá là 0 hay 1. Ví dụ, giới tính có thể là nam hay nữ. Độ tương đồng dựa trên các biến nhị phân đối xứng được gọi là độ tương đồng bất biến trong đó kết quả không thay đổi khi một số hay tất cả các biến nhị phân được mã hoá khác nhau. Các biến định danh, thứ tự và tỷ lệ Phần này thảo luận làm thế nào để tính độ không tương đồng giữa các đối tượng được mô tả bởi các biến tên, có thứ tự và dựa trên tỷ lệ. Các biến định danh: Biến tên là sự suy rộng của biến nhị phân, trong đó nó có thể mang nhiều hơn hai trạng thái. Ví dụ, bản đồ màu là một biến tên có thể có 5 trạng thái: đỏ, vàng, xanh lá cây, hồng và xanh da trời. Cho số các trạng thái của một biến tên là M. Các trạng thái có thể được chỉ ra bởi các ký tự, các biểu tượng hay một tập các số nguyên như 1,2, ,M. Lưu ý rằng các số nguyên như thế này chỉ được dùng cho dữ liệu điều khiển và không đại diện cho bất kỳ một trật tự cụ thể nào. Các biến tên có thể được mã hoá bởi một số lượng lớn các biến nhị phân không đối xứng bằng cách tạo một biến nhị phân mới cho mỗi trạng thái tên. Đối với một đối tượng với giá trị trạng thái cho trước, biến nhị phân miêu tả trạng thái đó đặt là 1, trong khi các biến nhị phân còn lại đặt là 0. Các biến có thứ tự: Biến có thứ tự rời rạc tương tự như một biến tên, loại trừ M trạng thái của giá trị có thứ tự được sắp xếp theo một trật tự có nghĩa. Các biến có thứ tự rất hữu ích cho việc thể hiện các đánh giá chất lượng một cách chủ quan mà không thể đo được bằng cách khách quan. Một biến có thứ tự liên tục trông giống như một HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 8 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU tập dữ liệu liên tục với một tỷ lệ chưa biết, đó là mối quan hệ có thứ tự của các giá trị, là yếu tố cần thiết nhưng không phải là tính chất trọng yếu thực sự của chúng. Ví dụ, sắp xếp quan hệ trong một môn thể thao đặc thù thường cần thiết hơn các giá trị thực tế của một độ đo đặc thù. Các biến có thứ tự có thể cũng đạt được từ việc rời rạc hoá các con số tỷ lệ khoảng cách bằng cách chia phạm vi giá trị vào trong một số các lớp hữu hạn. Các giá trị của một biến có thứ tự có thể được ánh xạ tới các hạng (rank). Giả sử rằng một biến có thứ tự f có Mf trạng thái. Các trạng thái được sắp xếp định nghĩa có thứ tự là 1, ,Mf. Nghiên cứu các biến tên hoàn toàn giống với nghiên cứu các biến tỷ lệ khoảng cách khi tính toán độ không tương đồng giữa các đối tượng. Giả sử f là một biến trong tập các biến có thứ tự mô tả n đối tượng. Các biến dựa trên tỷ lệ: Một biến dựa trên tỷ lệ làm một phép đo dương trên một tỷ lệ không tuyến tính, như tỷ lệ số mũ. Các biến có kiểu hỗn hợp Mục trước, ta đã đưa ra cách tính độ không tương đồng giữa các đối tượng được mô tả bởi các biến cùng kiểu, tại đó, các kiểu này có thể là tỷ lệ khoảng cách, nhị phân đối xứng, nhị phân không đối xứng, tên, có thứ tự hay dựa trên tỷ lệ. Tuy nhiên, trong nhiều cơ sở dữ liệu thực, các đối tượng được mô tả bởi một sự pha trộn các kiểu biến. Nhìn chung, một cơ sở dữ liệu có thể chứa tất cả 6 kiểu biến trong danh sách trên. Ta cần một phương pháp để tính độ không tương đồng giữa các đối tượng của các kiểu biến hỗn hợp. Một tiếp cận là nhóm mỗi loại biến với nhau, thực hiện một phép phân tích cụm riêng biệt cho mỗi kiểu biến. Điều này là khả thi nếu như các phép phân tích này nhận được các kết quả thích hợp. Tuy nhiên, trong các ứng dụng thực, thường không thể xảy ra một phép phân tích cụm tách biệt cho mỗi kiểu biến sẽ sinh ra các kết quả thích hợp. HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 9 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU Các kiểu dữ liệu phức tạp Tất cả các đối tượng được xem xét trong khai phá dữ liệu là không quan hệ thì là dữ liệu phức tạp. Ví dụ về loại dữ liệu này là dữ liệu không gian, dữ liệu di truyền, dữ liệu van bản, dữ liệu chuỗi thời gian hay dữ liệu thu gom từ internet. Chú ý rằng các độ đo tương tự và bất tương tự thường hoàn toàn khác nhau với các loại dữ liệu này. Một số phương pháp gom cụm điển hình Gom cụm dự trên phân hoạch Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, một phương pháp phân chia được xây dựng để chia dữ liệu thành k phần, mỗi phần đại diện cho một cụm, k ≤ n. Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả các yêu cầu sau: • Mỗi nhóm phải chứa ít nhất một đối tượng • Mỗi đối tượng phải thuộc về chính xác một nhóm. Cho trước k là số lượng các phần chia cần xây dựng, phương pháp phân chia tạo lập phép phân chia ban đầu. Sau đó nó dùng kỹ thuật lặp lại việc định vị, kỹ thuật này cố gắng cải thiện sự phân chia bằng cách gỡ bỏ các đối tượng từ nhóm này sang nhóm khác. Tiêu chuẩn chung của một phân chia tốt là các đối tượng trong cùng cụm là "gần" hay có quan hệ với nhau, ngược lại, các đối tượng của các cụm khác nhau lại "tách xa" hay rất khác nhau.Có nhiều tiêu chuẩn khác nhau để đánh giá chất lượng các phép phân chia. Trong gom cụm dựa trên phép phân chia, hầu hết các ứng dụng làm theo một trong hai phương pháp heuristic phổ biến: • Giải thuật k-means với mỗi cụm được đại diện bởi giá trị trung bình của các đối tượng trong cụm; • Giải thuật k-medoids với mỗi cụm được đại diện bởi một trong số các đối tượng định vị gần tâm của cụm. Các phương pháp gom cụm heuristic này làm việc tốt khi tìm kiếm các cụm có hình cầu trong các cơ sở dữ liệu có kích thước từ nhỏ tới trung bình. Để tìm ra HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 10 [...]... KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU 3 ỨNG DỤNG GOM CỤM ẢNH BẰNG K- MEANS Giới thiệu về phân đoạn ảnh bằng gom cụm Phân đoạn ảnh là một bộ phận cấu thành cơ bản trong nhiều lĩnh vực có ứng dụng máy tính và có thể được coi như là một lĩnh vực nghiên cứu cơ bản của gom cụm dữ liệu Việc phân đoạn các ảnh dựa vào việc hiển thị một hệ thống phân tích hình ảnh phụ thuộc vào cảnh hiện thị, Hình dạng ảnh, cấu hình,... dụ minh họa thuật toán K-means HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 14 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU Mô tả thuật toán Thuật toán K-Means được mô tả như hình sau: Hình 3 Mô tả thuật toán K - Means Thuật toán K-Means thực hiện qua các bước chính sau: 1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm 2 Tính khoảng... K-mean là gom cụm dữ liệu cứng (1 điểm dữ liệu chỉ thuộc về 1 cụm) thì FCM là gom cụm dữ liệu mờ (1 điểm dữ liệu có thể thuộc về nhiều hơn 1 cụm với 1 xác suất nhất định) Thêm yếu tố quan hệ giữa các phần tử và các cụm dữ liệu thông qua các trọng số trong ma trận biểu biễn bậc của các thành viên với 1 cụm FCM khắc phục được các cụm dữ liệu chồng nhau trên các tập dữ liệu có kích thước lớn hơn, nhiều chiều... lớn Ưu điểm • Thuật toán K-Means có ưu điểm là đơn giản, dễ hiểu và cài đặt • Có khả năng mở rộng, có thể dễ dàng sửa đổi với những dữ liệu mới • Bảo đảm hội tụ sau 1 số bước lặp hữu hạn • Luôn có K cụm dữ liệu • Luôn có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu • Các cụm không phân cấp và không bị chồng chéo dữ liệu lên nhau • Mọi thành viên của 1 cụm là gần với chính cụm đó hơn bất cứ 1 cụm nào khác... DỮ LIỆU VÀ KHO DỮ LIỆU Cách gom cụm ảnh bằng K-Means trong chương trình Bằng cách phân vùng ảnh, ta có thể tìm thấy các cụm màu sắc khác nhau Các dữ liệu trong hình ảnh là những pixel màu Ta cần cung cấp số lượng cụm cho thuật toán Điều này là tương đối dễ dàng vì chúng ta có thể đoán số lượng màu sắc riêng biệt bằng cách nhìn vào hình ảnh mà mình chọn Dù việc dự đoán số cụm không phải là chính xác... điểm ảnh có cùng đặc trưng với nhau Như vậy, bài toán phân lớp sẽ HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN KHOA – MSHV: CH1101016 Page 23 BÀI THU HOẠCH MÔN HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU dẫn đến việc giải bài toán xác định giá trị min của tổng khoảng cách của các điểm ảnh đến tâm của mỗi phân đoạn trên miền đặc trưng của ảnh FCM có chung chiến lược gom cụm với K-mean Nếu K-mean là gom cụm dữ liệu cứng (1... DỮ LIỆU VÀ KHO DỮ LIỆU các cụm với các hình dạng phức tạp và gom cụm cho các tập dữ liệu rất lớn, các phương pháp dựa trên phân chia cần được mở rộng .Tóm lại, phân theo phân hoạch (phân chia) là phân 1 tập dữ liệu có n phần tử cho trước thành k tập con dữ liệu (k ≤ n), mỗi tập con biểu diễn 1 cụm Các cụm hình thành trên cơ sở làm tối ưu giá trị hàm đo độ tương tự sao cho: • Các đối tượng trong 1 cụm. .. các phần tử ngoại lai Ứng dụng của K - Means • Gom cụm tài liệu web o Tìm kiếm và trích rút tài liệu o Tiền xử lý tài liệu: Quá trình tách từ và vecto hóa tài liệu: tìm kiếm và thay thế các từ bới chỉ số của từ đó trong từ điển.Biểu diễn dữ liệu dưới dạng vectơ o Áp dụng K-Mean, kết quả trả về là các cụm tài liệu và các trọng tâm tương ứng • Phân vùng ảnh (hay còn gọi là phân đoạn ảnh) HỌC VIÊN THỰC HIỆN:... số các đối tượng dữ liệu và chỉ tuỳ thuộc vào số lượng các ô trong mỗi chiều của không gian lượng tử STING là một ví dụ điển hình của phương pháp dựa trên lưới WaveCluster và CLIQUE là hai giải thuật gom cụm dựa trên cả lưới và mật độ Gom cụm dựa trên mô hình Gom cụm dựa trên mô hình là tối ưu hóa sự phù hợp giữa dữ liệu và mô hình toán nào đó Giả định về quá trình tạo dữ liệu: Dữ liệu được tạo ra... HỌC: KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU Các biến thể của K-Means Thuật toán K-medoid Thuật toán K-Means nhạy cảm (sensitive) đối với dữ liệu có nhiễu vì tâm của một nhóm lại không phải là một đối tượng trong nhóm Thay vì lấy giá trị trung bình của các đối tượng trong cụm làm tâm, thuật toán k-medoids lấy một đối tượng trong cụm làm tâm của cụm (gọi là đối tượng tâm) Thuật toán này vẫn dựa trên nguyên tắc . PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU MỤC LỤC LỜI NÓI ĐẦU 2 MỤC LỤC 3 1. GOM CỤM TRONG KHAI PHÁ DỮ LIỆU 4 Gom cụm là gì 4 Ứng dụng của gom cụm 5 Các kiểu dữ liệu trong gom cụm 6 Một số phương pháp gom cụm. CÔNG NGHỆ THÔNG TIN Bài thu hoạch môn học KHAI PHÁ DỮ LIỆU & KHO DỮ LIỆU Đề tài GOM CỤM DỮ LIỆU BẰNG THUẬT TOÁN K-MEANS & ỨNG DỤNG GOM CỤM ẢNH GIÁO VIÊN HƯỚNG DẪN: PGS.TS. ĐỖ PHÚC HỌC VIÊN. 10 2. THUẬT TOÁN K-MEANS 14 Mô tả thuật toán 15 Ví dụ minh họa thuật toán 15 Đánh giá thuật toán K - Means 20 Các biến thể của K-Means 21 Ứng dụng của K - Means 24 3. ỨNG DỤNG GOM CỤM ẢNH BẰNG

Ngày đăng: 10/04/2015, 00:07

Từ khóa liên quan

Mục lục

  • 1. GOM CỤM TRONG KHAI PHÁ DỮ LIỆU

  • 2. THUẬT TOÁN K-MEANS

  • 3. ỨNG DỤNG GOM CỤM ẢNH BẰNG K- MEANS

  • 4. KẾT LUẬN

  • 5. TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan