DATA MINING AND APPLICATION: GOM NHÓM DỮ LIỆU ppsx

32 332 0
DATA MINING AND APPLICATION: GOM NHÓM DỮ LIỆU ppsx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 1 KHAI THÁC 'Ӳ/,ӊ8 Ӭ1*'Ө1* (DATA MINING) *91*8<ӈ1+2¬1*7Ò$1+ 2 B BÀI 5 ² Phҫn 1 GOM NHÓM DӲ LIӊU 2 3 NӜI DUNG 1. *LӟLWKLӋX 2. 3KѭѫQJSKiSSKkQKRҥFK 3. 3KѭѫQJSKiSSKkQFҩS 4 *,Ӟ,7+,ӊ8 1. Gom nhóm là gì ? : 1KyPFөPOӟS : WұS các ÿӕL WѭӧQJ DL Gom nhóm là quá trình nhóm các ÿͩL ẂͻQJ thành QK·QJ QKyPFͽPOͳS có ý QJKƭD. Các ÿͩL ẂͻQJ trong cùng PͱW nhóm có QKL͙X tính FK̽W chung và có QK·QJ t ính FK̽W khác YͳL các ÿͩL ẂͻQJ ͷ nhóm khác. Cho CSDL D={t 1 ,t 2 ,«,t n }vàVӕ nguyên k, gom nhóm là bài toán xác ÿӏQK ánh [ҥ f:DJ J {1,«,k} sao cho PӛL t i ÿѭӧF gán vào PӝW nhóm OӟS K j , 1 d d j d d k. Không JLͩQJ bài toán phân OͳS các QKyPFͽPOͳS không ÿ́ͻF EL͗W WÚͳF. 3 5 3+Æ1/Ӟ3!*201+Ï0 Phân OӟS : KӑF có giám sát (Supervised learning) Tìm SK˱˯QJ pháp ÿ͋ G͹ ÿRiQ OͣS FͯD P̳X PͣL Wͳ các P̳X ÿm gán nhãn OͣS (phân OͣS WU˱ͣF 6 Gom nhóm : KӑFNK{QJJLiPViW8QVXSHUYLVHG learning ) 7uPFiFQKyPFͭPOͣS³W͹QKLrQ´FͯDFiFP̳X FK˱Dÿ˱ͫFJiQQKmQ 3+Æ1/Ӟ3!*201+Ï0 4 &yEDRQKLrXQKyPFөP" QKyPFөP QKyPFөP QKyPFөP *,Ӟ,7+,ӊ8 Khái QL͟P QKyPFͽP ± QKͅS QK͉QJ 8 *,Ӟ,7+,ӊ8 z ӬQJ GөQJ 1KұQ GҥQJ Phân tích G· OL͟X không gian ;ӱ lý ҧQK Khoa KͥF kinh W͗ ( ÿ͏F EL͟W nghiên F΁X WL͗S WKͣ WWW Gom nhóm tài OL͟X liên quan ÿ͛ G͝ tìm NL͗P Gom G· OL͟X Weblog thành nhóm ÿ͛ tìm các nhóm có cùng NL͛X truy FͅS *L̻P kích WḰͳF G· OL͟X OͳQ 5 9 zVí Gө Gom gen và protein có cùng FKӭF QăQJ Nhóm các Fә SKLӃX có xu KѭӟQJ giá dao ÿӝQJ JLӕQJ nhau Nhóm các vùng theo OѭӧQJ PѭD ӣ Úc Discovered Clusters Industry Group 1 Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Technology1-DOWN 2 Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Technology2-DOWN 3 Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Oil-UP *,Ӟ,7+,ӊ8 10 *,Ӟ,7+,ӊ8 z Ví Gө : 7L͗S WKͣ : phát KL͟Q các nhóm khách hàng trong CSDL khách hàng ÿ͛ xây GΉQJ FḰ˿QJ trình WL͗S WKͣ có PͽF tiêu Ĉ̽W ÿDL :xácÿͣQK các vùng ÿ̽W WUͫQJ WUͥW JLͩQJ nhau trong CSDL quan sát trái ÿ̽W %̻R KL͛P : tìm nhóm khách hàng có NK̻ QăQJ hay J͏S tai Q̹Q Nghiên F΁X ÿͱQJ ÿ̽W : gom nhóm các tâm FK̽Q ÿͱQJ ÿ̽W quan sát ÿ́ͻF theo Y͗W Q΁W OͽF ÿͣD 6 11 9Ë'Ө*RPQKyPFiFQJ{LQKj 'ӵDWUrQNKRҧQJFiFKÿӏDOê 12 9Ë'Ө*RPQKyPFiFQJ{LQKj 'ӵDWUrQNtFKWKѭӟF 7 13 9Ë'Ө*RPQKyP 14 *,Ӟ,7+,ӊ8 &iFKELӇXGLӉQ FiFQKyPFөP Phân chia EҵQJ các ÿѭӡQJ ranh JLӟL Các NKӕL FҫX Theo xác VXҩW 6ѫ ÿӗ hình cây « 1 2 3 I1 I2 « In 0.5 0.2 0.3 8 15 *,Ӟ,7+,ӊ8 2. 7LrXFKXҭQJRPQKyP 3KѭѫQJ pháp gom nhóm WӕW là SKѭѫQJ pháp VӁ WҥR các nhóm có FKҩW OѭӧQJ : 6Ή JLͩQJ nhau JL·D ÿͩL ẂͻQJ trong cùng PͱW nhóm cao. *L·D các nhóm thì VΉ JLͩQJ nhau WK̽S. .KRɠQJFiFK JLͯDFiF nhóm là max .KRɠQJFiFKErQ trong nhóm là min 16 *,Ӟ,7+,ӊ8 2. 7LrXFKXҭQJRPQKyPWW &KҩW OѭӧQJ FӫD NӃW TXҧ gom nhóm GӵD trên 2 \ӃX Wӕ : Ĉͱ ÿR VΉ JLͩQJ nhau dùng trong SḰ˿QJ pháp gom nhóm và 6Ή thi hành nó 0ͱW Vͩ ÿͱ ÿR FK̽W ÓͻQJ : Bình SḰ˿QJ sai (Sum of Squared Error - SSE) Entropy 9 17 *,Ӟ,7+,ӊ8 3. ĈӝÿRNKRҧQJFiFK Ĉӝ ÿR NKRҧQJ cách WKѭӡQJ dùng ÿӇ xác ÿӏQK Vӵ khác nhau hay JLӕQJ nhau JLӳD hai ÿӕL WѭӧQJ . .KRҧQJ cách Minkowski : q q pp qq j x i x j x i x j x i xjid )|| |||(|),( 2211  YͣL i= (x i1 ,x i2 , «,x ip )vàj=(x j1 ,x j2 , «,x jp ) : hai ÿ͑L WɉͣQJ p-FKLɾX và q là V͑ nguyên GɉɇQJ ± 1ӃX q=1, d là NKRҧQJ cách Manhattan : || ||||),( 2211 pp j x i x j x i x j x i xjid  18 *,Ӟ,7+,ӊ8 3. ĈӝÿRNKRҧQJFiFKWW 1ӃX q=2, d là NKRҧQJ cách Euclide : )|| |||(|),( 22 22 2 11 pp j x i x j x i x j x i xjid  Tính FKҩW FӫD ÿӝ ÿR NKRҧQJ cách  d(i,j) t 0  d(i,i) = 0  d(i,j) = d(j,i)  d(i,j) d d(i,k) + d(k,j) 10 19 *,Ӟ,7+,ӊ8 4. Các NLӇX Gӳ OLӋX Các NLӇX Gӳ OLӋX khác nhau yêu FҫX ÿӝ ÿR Vӵ khác nhau FNJQJ khác nhau . z Các EL͗Q W΍ O͟ theo NKR̻QJ : .KR̻QJ cách Euclide z Các ELӃQ QKӏ phân : KӋ Vӕ so NKӟS KӋ Vӕ Jaccard z Các EL͗Q tên, WK΁ WΉ W΍ O͟ : NKR̻QJ cách Minkowski z Các ELӃQ GҥQJ KӛQ KӧS : công WKӭF WUӑQJ OѭӧQJ 20 *,Ӟ,7+,ӊ8 5. 0ӝWVӕSKѭѫQJSKiSJRPQKyP 3KѭѫQJ pháp phân KRҥFK 3KѭѫQJ pháp phân FҩS 3KѭѫQJ pháp GӵD trên PұW ÿӝ 3KѭѫQJ pháp GӵD trên OѭӟL 3KѭѫQJ pháp GӵD trên mô hình [...]... : Cho k, nhóm giá TB DL trong nhóm B1: nhiên k là trung tâm các nhóm B2 : Gán còn vào nhóm có trung tâm nhóm nó trên cách Euclide) B3 : Tính giá trung tâm nhóm Di trung tâm nhóm = giá TB nhóm Cho nhóm Ki={ti1,ti2, ,tim}, giá trung bình nhóm là + tim) mi = (1/m)(ti1 + B4 : các trung tâm nhóm không có gì thay thì quay B2 24 12 k1 Y 3 trung tâm nhóm : k1, k2, k3 k2 k3 X 25 - k1 Y Gán k2 vào nhóm có trung... 0.93 các trung tâm nhóm này, thành các nhóm không thay toán A Age 18 -means : gán vào các Các nhóm 37 -means : tính phi ? xác nhóm (k) các gán vào các nhóm vào các nhóm tiên khi các nhóm có kích khác nhau hình dáng không là hình DL cá 38 19 3 -medoids : PAM Cho k, trong các B1: nhóm trung tâm nhóm nhiên k là tâm các nhóm B2 : gán còn vào nhóm có tâm nó B3 : Hoán nó tâm nhóm các nhóm lên thì quay... 21 1 pháp phân CSDL D 1 Cho k, : xây n tìm k nhóm ( ví k (k . WL͗S WKͣ WWW Gom nhóm tài OL͟X liên quan ÿ͛ G͝ tìm NL͗P Gom G· OL͟X Weblog thành nhóm ÿ͛ tìm các nhóm có cùng NL͛X truy FͅS *L̻P kích WḰͳF G· OL͟X OͳQ 5 9 zVí Gө Gom gen và protein có cùng FKӭF QăQJ Nhóm. 'Ӳ/,ӊ8 Ӭ1*'Ө1* (DATA MINING) *91*8<ӈ1+2¬1*7Ò$1+ 2 B BÀI 5 ² Phҫn 1 GOM NHÓM DӲ LIӊU 2 3 NӜI DUNG 1. *LӟLWKLӋX 2. 3KѭѫQJSKiSSKkQKRҥFK 3. 3KѭѫQJSKiSSKkQFҩS 4 *,Ӟ,7+,ӊ8 1. Gom nhóm là. 7LrXFKXҭQJRPQKyP 3KѭѫQJ pháp gom nhóm WӕW là SKѭѫQJ pháp VӁ WҥR các nhóm có FKҩW OѭӧQJ : 6Ή JLͩQJ nhau JL·D ÿͩL ẂͻQJ trong cùng PͱW nhóm cao. *L·D các nhóm thì VΉ JLͩQJ nhau WK̽S. .KRɠQJFiFK JLͯDFiF nhóm là

Ngày đăng: 25/07/2014, 15:21

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan