Tìm hiểu thuật toán gom cụm ISODATA và cài đặt chương trình minh họa

Thông tin tài liệu

TÊN ĐỀ TÀI: Tìm hiểu thuật toán ISODATA Mục lục: BẢNG PHÂN CÔNG CÔNG VIỆC .2 I.Giới thiệu về kỹ thuật phân cụm trong Khai phá dữ liệu .3 1.Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như: .3 2.Các kỹ thuật phân cụm được phân loại như sau (xem hình) 4 II. GIỚI THIỆU VỀ THUẬT TOÁN ISODATA .5 III.TÌM HIỂU VỀ THUẬT TOÁN .5 1. Các tham số của bài toán: 5 2.Làm thế nào các thuật toán ISODATA thực hiện 5 3.Thủ tục hoạt động như sau: 8 4.Những nhược điểm của ISODATA : 8 5.Ưu điểm của ISODATA 9 6.Mô hình thuật toán ISODATA .9 7.Ví dụ minh họa .9 IV.Tài liệu tham khảo 13 BẢNG PHÂN CÔNG CÔNG VIỆC Tên nhóm: 19 Lớp: KHMT2-K3 Thầy giáo hướng dẫn: Trần Hùng Cường. CÔNG VIỆC ĐƯỢC PHÂN CÔNG NHẬN XÉT KẾT QUẢ ĐẠT ĐƯỢC STT Tên công việc Ngày bắt đầu Người thực hiện công việc Ghi chú Chữ ký Ngày nghiệm thu 1. Tìm tài liệu về thuật toán ISODATA 01/04/2011 Nguyễn Hữu Quỳ 4/04/2011 Hoàn thành Nguyễn Văn Tuyển Lê Nho Lộc 5. Tìm hiểu thuật toán ISODATA 5/04/2011 Lê Nho Lộc 6/04/2011 Hoàn thành Nguyễn Văn Tuyển Nguyễn Hữu Quỳ Nguyễn Trung Kiên 9. TÌm hiểu chương trình chạy bằng thuật toán ISODATA 7/04/2011 Lê Nho Lộc 09/04/2011 Không hoàn thành do không tìm được trên INTERNET. Không viết được chương trình chạy Nguyễn Văn Tuyển Nguyễn Hữu Quỳ Nguyễn Trung Kiên 15. Tổng kết 10/04/2011 Lê Nho Lộc 02/05/2011 I.Giới thiệu về kỹ thuật phân cụm trong Khai phá dữ liệu Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương pháp Unsupervised Learning trong Machine Learning. Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau. Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters). Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân tích phân cụm, điều này phụ thuộc vào mục đích của phân cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection 1.Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như: • Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ của công ty để giúp công ty có chiến lược kinh doanh hiệu quả hơn • Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng • Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả… • Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài chính, dự đoán xu hướng (trend) của khách hàng, phát hiện gian lận tài chính (identifying frauds) • WWW: Phân loại tài liệu (document classification); phân loại người dùng web (clustering weblog);… 2.Các kỹ thuật phân cụm được phân loại như sau (xem hình) II. GIỚI THIỆU VỀ THUẬT TOÁN ISODATA ISODATA là viết tắt của từ Iteractive Self Organizing Data Analysis. ISODATA là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật toán ISODATA là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất. ISODATA là một phương pháp học không có giám sát Nó là thuật toán khá mềm dẻo, không cần cố định các lớp trước. Nó không phải là cần thiết để xác định số lượng cụm. Nó bắt đầu với một nhóm duy nhất và áp dụng một kỹ thuật chia-và-hợp nhất để dần dần phân vùng các điểm vào cụm hơn thông qua liên tục đánh giá sự giống nhau trong một cluster (lớp hoặc nhóm). Sự tương tự của các điểm trong một cụm được đo bằng độ lệch chuẩn của điểm trong cả X và Y hướng đó là σx và σy. III.TÌM HIỂU VỀ THUẬT TOÁN 1. Các tham số của bài toán: - Số lần lặp - Ngưỡng thay đổi lớp - Và 1 số tham số khác như số điểm ảnh tối thiểu trong 1 lớp, khoảng cách tối thiểu trong 1 lớp,…. 2.Làm thế nào các thuật toán ISODATA thực hiện. (1) Nó sử dụng một thước đo khoảng cách di xuất phát từ giả định phân phối Gaussian đa variate, mà PDF của lớp i, 1, giả sử M lớp , được cho bởi: p{x | i} = 2/12/ ||)2( 1 i P C π exp ( ) ( )       −−− − ii t i C µµ xx 1 2 1 (1) Ở đây x là một P-vector, có chứa các giá trị trong các kênh đầu vào P, µ i là vector có nghĩa là cho lớp i, là ma trận hiệp phương sai của lớp i và biểu thị yếu tố quyết định (2) Một điểm ảnh được gán cho lớp với khả năng cao nhất. Kể từ khi đăng nhập là một chức năng đơn điệu, do đó chúng tôi có thể tối đa hóa ln (p {x | i}), tương đương với giảm thiểu hơn i d i = )()( 1 ii t ii CC µµ −−+ − xx . (2) (3) Giả sử hình ảnh có chứa điểm ảnh N, và rằng các điểm ảnh được dán nhãn bởi n, Tại một lần lặp nhất định, các điểm ảnh được gán cho lớp i trong hình ảnh được xác định bởi địa điểm điểm ảnh của nó. Biểu thị số lượng điểm ảnh trong lớp i là, chúng ta có thể ước tính có nghĩa là lớp học và hiệp phương sai như i µ ∑ ∈ = i In n i I x 1 (3) i C ( ) ( ) t In inin i i I ∑ ∈ −−= µµ xx 1 t iι In t nn i i I µµ −= ∑ ∈ xx 1 (4) (4) Tại mỗi lần lặp, ghi nhãn hiện nay được sử dụng để tính toán phương tiện và hiệp phương sai, sử dụng (3) và (4). Mỗi điểm ảnh trong hình ảnh sau đó được gán lại cho một lớp học bằng cách giảm thiểu các đo khoảng cách (2). Quá trình này dừng lại ở một số cố định của lặp đi lặp lại hoặc khi tỷ lệ các lớp thay đổi điểm ảnh giảm xuống dưới một ngưỡng cố định (hoặc có thể khi tỷ lệ các điểm ảnh trong mỗi lớp học mà thay đổi lớp học giảm xuống dưới một ngưỡng). (5) khởi động là quan trọng. Một cách tiếp cận là giao điểm ảnh cho một lớp học ngẫu nhiên. Đó là cách tiếp cận không bó chặt chẽ nhất, giả sử không có kiến thức của các cụm có khả năng. Thay vào đó, ban đầu chúng tôi phân vùng các điểm ảnh bằng cách chia phạm vi của sự gắn kết trong hình ảnh vào M khoảng thời gian bằng nhau, như chúng ta biết sự gắn kết là một nguồn thông tin chủ yếu. Tuy nhiên, chúng ta có thể thấy tại sao sẽ có một vấn đề nếu trong phân vùng ban đầu có một lớp thiểu số. Sau đó, trong các tính toán (3) và (4) sẽ không có đủ điểm ảnh trong lớp này để gây sư ̣ đáng kể số liệu thống kê của lớp đa số. Do đó các lớp thiểu số không bao giờ có thể thiết lập bản sắc riêng biệt của nó. Để ngăn chặn điều này chúng ta nên hạt giống quá trình với kiến thức sẵn có, nghĩa là, thiết lập phân vùng ban đầu để phản ánh sự hiểu biết của ρ- JERS-ERS có ρ-JERS hoặc khối lượng ρ chúng ta về các phần của máy bay thể được chiếm bởi các lớp khác nhau về thể chất. Đây là những gì cơ bản lưu ý về phân loại cho chúng ta biết làm thế nào để làm. (Những lưu ý sau đây cho thấy kết quả khi chúng ta hạt giống 'nước' trong lớp học khởi sự). (6) Thủ tục này giả định các lớp Gaussian, và những giao dịch một cách chính xác với xác suất doanh trong bối cảnh này. Kết quả cho thấy rằng cả hai JERS và ERS ảnh hưởng đến việc phân loại, không giống như một cách tiếp cận dựa trên sự kết hợp tinh khiết. Cấu trúc là trong một hình thức trực tiếp thích hợp cho (I) làm sạch của ICP (Ii) tính toán xác suất lỗi, mà theo đó chúng ta có thể lấy được các thay đổi trong nội tại trong lỗi đi từ nói 4-5 lớp học. Tuy nhiên, những tính toán này sẽ bị lỗi nếu có các biểu đồ lớp quan sát khởi hành từ Gaussian đáng kể (ví dụ, nếu họ là hai đỉnh). Do đó chẩn đoán khác sẽ là khôn ngoan nếu nó được sử dụng để tính toán lỗi. (7) Chúng tôi đang suy nghĩ rằng toàn bộ quá trình có thể được thực hiện tự động, tức là, loại bỏ sự cần thiết phải kiểm tra và can thiệp phân tán tất cả các nhà điều hành. Chúng tôi cần phải xác định làm thế nào để thiết lập khởi động tự động, bằng cách lý luận vật lý gắn liền với đặc tính hình ảnh toàn cầu như phạm vi của các giá trị của sự gắn kết (tức là, thích ứng với sự lây lan sự gắn kết, như trong cách tiếp cận Wolfgang, nhưng xây dựng trong kiến thức về các kênh khác) . Khởi động này có thể dễ dàng được thực hiện có điều kiện trên, ví dụ, mùa giải, trong đó các dữ liệu được mua lại. Sau đó, để cho các thuật toán ISODATA chạy. 3.Thủ tục hoạt động như sau: 1.Xác định giá trị cho phép đối với các độ lệch chuẩn đó là σx tối đa và σy tối đa. 2. Xác định số lượng các cụm (K) và số lần lặp (n) (tùy chọn). 3. Hãy đối xử với tất cả các điểm như đang trong cùng một nhóm để tính toán các phương tiện (C old,X và C old,X ) và độ lệch chuẩn (σx và σx) ở cả hai X và Y. 4. Xác định xem có cần phải phân chia các cụm. Nếu σ x < σ x tối đa và σ x <σy tối đa, sau đó dừng lại chia tách. Nếu số quy định của lặp đi lặp lại hoặc số cụm được đạt tới, dừng lại tách. Sau đó, nếu σ x > σ y , hãy xem xét hướng X, hoặc người nào khác xem xét theo hướng Y. 5. Chia thành hai nhóm theo hướng X nếu σ x > σ y và σ x > σ x tối đa. Các trung tâm tạm thời mới được (C old,X - σ x ) và (C old,X + σ x ). Phân loại các điểm trong các cụm cũ thành hai cụm mới dựa trên tiêu chí khoảng cách. Làm thế nào bao giờ hết, nếu σ Y > σ x và σ Y > σ y,max , sau đó sẽ được chia theo hướng Y. 6. Đối với mỗi cụm mới, lặp lại các bước 4 đến 5. 7. Kiểm tra mỗi điểm để xem liệu khoảng cách đến trọng tâm cụm của nó là nhỏ nhất trong số các khoảng cách cho tất cả các điểm. Nếu không, phân loại lại các điểm và lặp lại tương ứng điểm 4.Những nhược điểm của ISODATA : Có thể mất thời gian nếu dữ liệu rất phi cấu trúc Thuật toán có thể tràn ra không kiểm soát chỉ để lại một lớp 5.Ưu điểm của ISODATA Bạn không cần phải biết nhiều về dữ liệu trước Người sử dụng dùng ISODATA rất hiệu quả để xác định các cụm quang phổ trong dữ liệu. 6.Mô hình thuật toán ISODATA 7.Ví dụ minh họa. Hình minh họa quá trình ISODATA phân nhóm. Có 14 điểm thể hiện trong hình được sử dụng một lần nữa. Trong ví dụ này, số lượng các cụm được định nghĩa là bốn, số lần lặp như ba và σ x tối đa và σY tối đa là Hình 1.4a cho thấy việc xem xét tất cả các điểm như là trong cùng một cụm (lớp hoặc một nhóm), với K1 là điểm trung tâm. Các độ lệch chuẩn của cụm này trong X và Y là 2,1 và 3.0, tương ứng. Những giá trị này lớn hơn so với ngưỡng. Việc phân chia đầu tiên là thực hiện theo hướng Y vì σ Y > σ x . K2, 1 và K2, 2 là hai cụm mới trung tâm. Nhóm sau đó được thực hiện dựa trên khoảng cách, như trong hình b. . dụng dùng ISODATA rất hiệu quả để xác định các cụm quang phổ trong dữ liệu. 6.Mô hình thuật toán ISODATA 7.Ví dụ minh họa. Hình minh họa quá trình ISODATA. Data Analysis. ISODATA là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm. Tư tưởng chính của thuật toán ISODATA là tìm cách phân

Ngày đăng: 30/11/2013, 14:03

Xem thêm: Tìm hiểu thuật toán gom cụm ISODATA và cài đặt chương trình minh họa , Tìm hiểu thuật toán gom cụm ISODATA và cài đặt chương trình minh họa

Tìm hiểu thuật toán gom cụm ISODATA và cài đặt chương trình minh họa

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan