Tiểu luận công nghệ tri thức và ứng dụng THUẬT TOÁN K-MEAN TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG

90 618 1
Tiểu luận công nghệ tri thức và ứng dụng THUẬT TOÁN K-MEAN TRONG PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I HC QUC GIA TP H CHÍ MINH I HC CÔNG NGH THÔNG TIN KHOA: KHOA HC MÁY TÍNH  TIU LUN CÔNG NGH TRI THC VÀ NG DNG THUT TOÁN K-MEAN TRONG PHÂN CM D LIU VÀ NG DNG Ging dn : GS.TSKH. HOÀNG KIM Hc viên thc hin: - NGÔ NG - NGUYN KHC MN _ CH1101102 Lp : CH06 TP. Hồ Chí Minh, tháng 5 năm 2012 Lời cảm ơn c tiên, nhóm chúng em xin cy GS TSKH Hoàng Kiu kin cho nhóm tip xúc mc quan trng ca trí tu nhân to   tri th. Cùng vi s phát trit bc ca ngành công nghip máy tính, nhu cu ci vi máy tính ngày m gii quyt nhng công vi           i máy tính có kh   gii quyt v i. Và t  nhân to nói c bit là công ngh tri thi và phát trin. Nhng kin tht sc cn thit khi các thành viên lp chun b quá trình làm tt nghi làm vic trong mng khoa hc. Nhóm  cn các thành viên trong lng hc thun li trong quá trình tip thu các bài ging. Mt ln na, nhóm chúng em xin chân thành c tn tình truyt kin thc ca thy. Kính chúc thy mnh khe, tip tc nhiu thng li trong nghiên cu khoa hc và công cuc ging dy. Hc viên: Ngô Ng - Nguyn Khc Mn NHN XÉT                           1 Mc lc   4 I.  4 1.1. Khái nim 4 1.2. Bài toán phân cm nói chung 4 1.2.1. Các kiu biu din d liu 5 1.2.2.   và khong cách 6 1.2.3. Tiêu chun phân cm 10 1.3. m phân cm 11 1.3.1. Yêu cu 11 1.3.2. Mt s v trong phân cm d liu 12 1.4. m d liu 13 1.4.1. Phân hoch theo tp thô 13 1.4.1.1. Các h thông tin 13 1.4.1.2. Quan h bt kh phân 15 1.4.1.3. Xp x tp hp 16 1.4.2.  17 1.4.3.  19 1.5.  19 1.5.1. m phân hoch 19 1.5.2. m phân cp 20 1.5.3. m da trên m 21 1.5.4. m di 21 1.5.5. m da trên mô hình 22 1.5.6. m có d liu ràng buc 23 II.  24 2.1. Thut toán phân cum d liu da vào phân cm phân cp 24 2.1.1. Thut toán BIRCH 24 2.1.2. Thut toán CURE 27 2.1.3. Thut toán ANGNES 29 2.1.4. Thut toán DIANA 30 2.1.5. Thut toán ROCK 30 2 2.1.6. Thut toán Chameleon 31 2.2. Thut toán phân cm d liu da vào cm trung tâm 32 2.2.1. Thut toán PAM 32 2.2.2. Thut toán CLARA 34 2.2.3. Thut toán CLARANS 35 2.3. Thut toán phân cm d liu da vào tìm kim 37 2.3.1. Thut toán di truyn (GAS) 37 2.3.2. J- Means 40 2.4. Thut toán phân cm d liu da vào i 41 2.4.1. STING 41 2.4.2. Thut toán CLIQUE 43 2.4.3. Thut toán WaveCluster 44  -MEANS 46 I.  46 1.1.  46 1.2.  47 1.3. Th phc tp ca thut toán K-means. 49 1.4.  49 1.5. -means 50 II. (LSI) 52 2.1.  52 2.2. Phân tích Singular Value Decomposition (SVD) ca ma trn t ch mc (term document A) 53 2.3. Truy vn trong mô hình LSI 56 2.4. Cp Nht Singular Value Decomposition (SVD) 58 2.4.1. Cp Nhn (SVD- Updating document): 58 2.4.2. Cp Nht t ch mc (terms): 60 2.4.3. Loi b t ch mc (Downdating) Trong Mô Hình LSI 61 2.5. Chn h s k trong mô hình LSI 61 III. -MEANS 64 3.1. Tin x lý tp d liu vào 64 3.2. Ch ng cách thích hp 66 3.3. Chn s cm cho thut toán K-means 68 3   71 I. TRUY HI THÔNG TIN 71 1.1. Biu din mu 72 1.2. Phép  74 1.3. Mt gii thut cho phân cm d liu sách 75 II. KHAI PHÁ D LIU 76 2.1. Khai phá d liu bng php cn. 77 2.2. Khai phá d liu có cu trúc ln. 78 2.3.  liu trong  d liu a cht. 80 2.4. t 82 4   I.  1.1. Khái nim Phân cm là hình thc hc gán nhãn. Ma gom cm d liu là gom d li nhau, thành tng cm theo mt chu liu trong các c  t thng trong cùng mt cm. Có nhi c  ch  p  p da trên m  a trên mô hình  i 1.2. Bài toán phân cm nói chung Bài toán phân cc thc hin khi chúng ta không bic ni dung thông tin ca các thành phn thuc c c các lp. Vì lý do này mà công vic phân cc truyn thng nhìn nhi con mt ca hc mt mu ch gng cn tìm mt ca d liu và nhóm li các d liu ging nhau. Quy trình phân cc th hi1. 5 Hình 1. Qui trình phân cm tng quát 1.2.1. Các kiu biu din d liu Dc min ta có th phân d liu thành hai loi là thuc tính liên tc và thuc tính ri rc. Bên cu phân loi da trên h t s kiu d liu thông dnh danh, thuc tính có th t, thuc tính khong, thuc tính t l ng trc tin kt qu phân cm. Vì th i ta phi chun hóa d li khc phc ym này. T nhng yêu cu trên và vi liu chúng ta cn tìm hiu v các kiu biu din d liu. Có hai kiu biu din d liu ph bin là:  Biu dii dng ma trn ca các bin cu trúc hay các thuc tính ca ng. Ví d i s có các thuc tính là tên, tui, chiu cao, cân nng, màu m       ng, m  ng có p thuc tính thì s có mt ma trn vi n dòng, p ct. Hình 2. Ma trn thuc tính biu din d liu 6  Biu din d lii d ng cách git các ci ng. Nng, chúng s c biu din bng mt ma trn vi n hàng và n c Hình 3. Ma trn khong cách biu din d liu    ng cách gi   ng i và j. Nói chung, d(i,j) gn bng i và j là gn nhau hay có ni dung gn ging ng có ni dung càng khác nhau. Hình 7 biu din ma trn khong cách ca tp d liu có d(i, j) = d(j, i) và d(i, i) = 0. 1.2.2.   và khong cách    m d liu cn có m  khorong không gian d li  dùng chung cho mng hp vì chúng ta bit rng, m d liu có th cha nhiu kiu d liu thuc tính khác nhau. Mc ng nhiu thuc tính có ki . Các ki bao gm giá tr khong (interval-valued), nh i xng (symmetric binary), nh phân bi xnh danh (nominal), th t (ordinal) và t l khong (ratio-scaled). Tùy theo mc tiêu kho sát và bn cht d lii dùng ch ng cách cho phù hp vi ng dng ca mình. Gi s ng x và   gic ký hiu là d(x, y). 1. Bin tr khong 7 Bin tr kho c cng tuy trng, chiu cao, tui, v.v Mt s  ng ca bin tr khong:  Khong cách Minkowski  Khong cách Euclide là khong cách Minkowski vi q = 2  Khong cách Manhattan là khong cách Minkowski vi q = 1  Khong cách có trng Khong cách có trng là ci tin ca kho n ng ca tng thun khong cách ging. Thuc tính có trng s w càng ln thì ng càng nhin khong cách d. Vic chn trng s tùy thuc vào ng dng và mc tiêu c th. 2. Bin nh i xng Là bin ch có 2 trng thái 0, 1 và các tr [...]... không đúng Các thuật toán nhạy cảm với nhiễu là nguyên nhân dẫn đến việc tạo ra một bộ phân cụm kém chất lƣợng  Không nhạy cảm với thứ tự của bản ghi đầu vào: Một số thuật toán phân cụm không thể sát nhập thêm dữ liệu mới vào trong bộ phân cụm, thêm tài liệu vào cụm có sẵn hoặc tạo thêm cụm mới Bên cạnh đó, một thuật toán phân cụm tốt không tạo ra các bộ phân cụm khác nhau từ cùng một bộ dữ liệu nhƣng... quyết định số lƣợng cụm, hay chất lƣợng cụm ở mức nào Một cách phân chia dữ liệu với số lƣợng cụm linh hoạt đƣợc thực hiện bằng cách cắt cây ở mực phù hợp ví dụ nhƣ sử dụng thuật toán phân cụm cây phân cấp  Bản chất của dữ liệu: Phần lớn các phƣơng pháp phân cụm đã đƣợc phát tri n cho dữ liệu số, nhƣng một số có thể giải quyết bài toán với dữ liệu văn bản hoặc với cả dữ liệu số và dữ liệu văn bản  Bản... tăng: Thuật toán phân cụm cần có khả năng gia tăng, mở rộng Rất nhiều thuật toán phân cụm có thể làm việc tốt với lƣợng dữ liệu nhỏ, ít hơn 100 đối tƣợng dữ liệu mà chƣa làm tốt với lƣợng dữ liệu lớn, trong khi đó cơ sở dữ liệu lớn chứa hàng tri u đối tƣợng vì vậy ta cần mở rộng bộ phân cụm đó để bao trùm cả tập dữ liệu lớn  Khả năng thích nghi với các kiểu và thuộc tính dữ liệu khác nhau: có nhiều thuật. .. khác nhau: có nhiều thuật toán phân cụm, có những thuật toán phù hợp với dữ liệu số, có những thuật toán khi áp dụng cho loại dữ liệu nhị phân hay dữ liệu ảnh …  Nhận biết đƣợc các cụm với hình thù bất kỳ: một số thuật toán xác định cụm dựa vào việc tính khoảng cách Euclidean hay Manhattan với mục đích nhận biết độ dày và giống nhau của các tài liệu trong cụm Tuy nhiên, một cụm có thể có hình dạng bất... 2.1.1 Thuật toán BIRCH Thuật toán phân cụm khác cho tập dữ liệu lớn, đƣợc gọi là BIRCH tƣởng của thuật toán là không cần lƣu toàn bộ các đối tƣợng dữ liệu của cáccụm trong bộ nhớ mà chỉ lƣu các đại lƣợng thống kê Thuật toán đƣa ra haikhái niệm mới để theo dõi các cụm hình thành , phân cụm đặc trƣng là tóm tắtthông tin về một cụm và cây phân cụm đặc trƣng(cây CF) là cây cân bằngđƣợc sử dụng lƣu trữ cụm. .. trƣng bên trong của các cụm đang đƣợc hòa nhập Nó có khả năng hơn để khám phá các cụm có hình thù bất kỳ có chất lƣợng cao hơnCURE và DBSC N nhƣng chi phí xử lý dữ liệu đa chiều phụ thuộc vào O(n2) thời gian cho n các đối tƣợng trong trƣờng hợp xấu nhất 2.2 Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm 2.2.1 Thuật toán PAM Thuật toán PAM là thuật toán mở rộng của thuật toán K-means nhằm có khả năng... cấu trúc dữ liệu Với những dữ liệu hỗn hợp thì việc phân cụm càng khó khăn hơn và đây đang là một thách thức trong ngành khai phá dữ liệu 1.4 Các phƣơng pháp phân cụm dữ liệu 1.4.1 Phân hoạch theo tập thô Lý thuyết tập thô đƣợc Z Pawlak phát tri n vào đầu thập niên 1980 Lý thuyết tập thô rất hiệu quả trong khai thác dữ liệu, tìm kiếm thông tin, hỗ trợ quyết định, máy học, các hệ cơ sở tri thức 1.4.1.1... chúng chỉ áp dụng cho các dữ liệu có thuộc tính số 23 Phân cụm khái niệm: K thuật này đƣợc phát tri n áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lí Phân cụm mờ: Sử đụng k thuật mờ để PCDL Các thuật toán thuộc loại này chỉ ra lƣợc đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn Phân cụm mạng... khác nhau Những thuật toán này gọi là nhạy cảm với thứ tự dữ liệu  Thích nghi với dữ liệu đa chiều: Dữ liệu thông thƣờng thƣờng có số chiều ít, từ hai đến ba chiều mà một số thuật toán phân cụm đƣa ra kết quả rất tốt Bên cạnh đó, dữ liệu đa chiều (nhiều hơn ba chiều) cũng rất đa dạng và cần thiết đƣợc phân nhóm cho nhiều ứng dụng thực tế Với loại dữ liệu này, việc phân loại dựa vào kiến thức con ngƣời... và mối quan hệ gần nhau của các nhóm con Do đó, thuật toán không phụ thuộc vào ngƣời sử dụng các tham số nhƣ K-means và có thể thích nghi .Thuật toán này khảo sát mô hình động trong phân cụm phân cấp Trong ó, hai cụm đƣợc hòa nhập nêu giữa hai cụm có liên quan mật thiết tới quanhệ kết và gần nhau của các đối tƣợng trong các cụm Quá trình hòa nhập dễ dàng khám phá các cụm tự nhiên và đồng nhất, ứng dụng . 2.1. Thut toán phân cum d liu da vào phân cm phân cp 24 2.1.1. Thut toán BIRCH 24 2.1.2. Thut toán CURE 27 2.1.3. Thut toán ANGNES 29 2.1.4. Thut toán DIANA 30 2.1.5. Thut toán ROCK. CHÍ MINH I HC CÔNG NGH THÔNG TIN KHOA: KHOA HC MÁY TÍNH  TIU LUN CÔNG NGH TRI THC VÀ NG DNG THUT TOÁN K-MEAN TRONG PHÂN CM D LIU VÀ NG DNG Ging. Thut toán Chameleon 31 2.2. Thut toán phân cm d liu da vào cm trung tâm 32 2.2.1. Thut toán PAM 32 2.2.2. Thut toán CLARA 34 2.2.3. Thut toán CLARANS 35 2.3. Thut toán phân cm

Ngày đăng: 10/04/2015, 16:27

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan