Tiểu luận khai phá dữ liệu Các thuật toán tìm luật kết hợp xuất phát từ Apriori

25 868 5
Tiểu luận khai phá dữ liệu Các thuật toán tìm luật kết hợp xuất phát từ Apriori

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TIỂU LUẬNKHAI PHÁ DỮ LIỆU Đề tài: Các thuật toán tìm luật kết hợp xuất phát từ Apriori Khai phá dữ liệu là sự khám phá phát hiện các tri thức và thông tin hữu ích từ những lượng lớn dữ liệu được lưu giữ trong cơ sở dữ liệu nhầm tìm tần số mẫu, mối kết hợp, sự tương quan, hay các cấu trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ liệu giao tác, cơ sở dữ liệu quan hệ, và những kho thông tin khác.

     !"#!$!%% & M '(()))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))* +,-,.))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))* ),+,,/01/1)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))2 &)03450,61/1))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))2 *)'7,8,+,,/01/1))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))2 9)0:03,+,,/01/1))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))2 ;)'0<,+,,/01/1))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))= ),+,,/01/1,))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))&& &),+,,/01/1,))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))&& *)'7>03,+,,/01/1?,))))))))))))))))))))))))))))))))))))))))))))))))))))))&& 9)0:03,+,,/01/1?,)))))))))))))))))))))))))))))))))))))))))))))))))))))))&* ;)@,1AB,1)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))&* C)'0<,+,,/01/1?,)))))))))))))))))))))))))))))))))))))))))))))))))))))&9 2)D/D0,+,,/01/1EF1/1?,))))))))))))))))))))))))))))))))))&C ),+,,/01/1?4G1))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))&2 E),+,,/0HI31/J,))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))&= &)G80@,)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))&K *),+,,/0LM4N03M4H))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))&K 9)'7>03GBOP,+,,/0))))))))))))))))))))))))))))))))))))))))))))))))&K ;)'0<,+,,/0))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))&Q C)M0,RR,+,,/0,S/M4H)))))))))))))))))))))))))))))))))))))))*& 2),R0@,PH?,1TT)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))** =)03-,U8,N03'))))))))))))))))))))))))))))))))))))))))))))))))))*; ,F,'8/))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))*C  V!WXYZ[!!Y%\]^_X`$ X_a _bWXYca a_X%_dZeWXYffZghig  !iZ[ad_jViVk#%lmjn_XV!cga _%_dZe WXY_VidZeWXYjVYi]X_^_) ^ngjVYo_XVp`%_! ! WXYqojV) BodyrsConsequenttSupportiConfidenceu ,%_cqi &) i]%vBodyw) *)  !"i]!nvConsequentw) 9) #$%ifZgvx%_yVo!f%zWXYX_ce]% ]]!n{_"nk%V|w) * ;) $&'()(icpkvx]%"nk%VqyVonz_]!n "nk%V|w) *+',,}V~'rsD_V%t•)9i•)Qu € xV,%]VD•V-Vca‚_%_Q•ƒ%a‚_ !),%i Z•V]ca‚_ca V_%_9•ƒW„_WXY)| ./ 0)0 1 € 3…r† & i * i 9 i)))i  ‡!%a‚__…}Zv!!f•WXYw) ,!ˆV_‰k!f•WXYca _…k-ItemSet) € !_VvTransactionwiecqŠ_V,p!Item ,⊆ i]Š_Vqp_%‹c‹WV,) € ,V_…_V,\VLL⊆,iL!]}%_) € 3V,\VLL ⊆,i]bL!]Item%_),ŒY!f%z _XVZga __V\V!}L%o•_Zg_V%_d ZeWXYca _…ZgsupportˆV!itemcqi\ €  !pgjVYo_XVV!!f•WXYL ]4}WŽ_if X then Yi]•YL⇒4i L⊂i4⊂]L∩4r∅) € L⇒4qZgsupports,qZƒZg_V%_\VL∪4)Eb Z!!%ˆVp!}Zg_Vq\V!}cq) € Lrs4qcpkvconfidencewciy•‹Zg!f%z_Vq \V^L∪4%oZgX__Vq\VL) 9 (D) Card (X) Card (X)support = s% (D) Card (X Card Y) (Xsupport = ∪ =⇒ wY ) support(X) Y)support(X (Xconfidence ∪ =⇒ uwit csY € EYV !$dZeWXY`]Y#n qcpŠ% ]cpkbd_a‘_Š% vcpŠ% g•w]_a‘_ kvcpkg•wW_a‚Z•W’_"c‹%ab)0_a‘_Š% ] _a‘_kfa ca •Yminsup]minconf) € ,!ItemSetqsupportbdVky“_minsupca _…Large ItemSet) ItemSet „Žca _…Small ItemSet) 2/ 3#45678 € 9dZeWXYq%a‚_”TIDiitemsi]b,c‹WVˆV_V ) € #:(Zga _}%_!ItemSet) € );.<=);2<=///);<•Yp!k-ItemSetqItemyV_‰t&uit*ui)))i tui]bt&ust*us)))stu) € 0rL)4]4m-ItemSetiV•__…4m-extension ˆVL) € 'ŠItemSetq%a‚_countc•aZgsupportItemSetcq),%a‚_count ca eŽ_%‹y“_•ItemSetca Žfcf) € Ebp!_ViZ–"mkW[_pc•!Z%VX_  !q—ZgcpŠ% ]cpkbdcpŠ% ˜# vZ!w]cpk˜#v™w) € ,#n !q•ca !m`Vyab >?@).,#n!}v}Z}ZwZ!!%ˆVqbdZ!) cq!}qZ!!%g•k_…!V%_}}Z}iX_!„ Ž_…DV}Z}) >?@)2D•W’_!V%_}}c•!ZX__g)EbŠ !V%_}}Z}i#n!%Š_ˆV_…i]bŠ! a]kVq⇒v€wi—Y_XVZ!!%vw]bZ!!%vw bd™) A/ BCD53EFGHI ; € W„__VW‹v%VZVw]!fWXYv}wV cq • Dg !q•q/v* ?& w • p!\Ž!`/v*  w € ad_!!#nhv!V}%wW[V%oZ[%_ypˆVcpŠ % vD!!%w •  0†iG‡qcpD!!%g• α n]GZ–cqcp D!!%g•α • 0šGqcpD!!%˜dα†iG‡qcpD!!%˜ dα) • D•W’_hˆV?&}c•!YhˆV}) C / JKJK !%%ca 1V}Z_%V›Vi,VZœ}Zi%D›Vc "#fcf]z&QQ9)Gca !y•,qcpŠ% Z˜V•Z≥ Z • ]cpk≥ • vZ • i • V_a‘_W_a‚W{_"c‹]Z • rZ!!i • r™w)•Y  !!?’!•yi  !!?’\_]o) Gcš%V 1) Tìm tất cả các tập mục phổ biến với minsupp nào đó. 2) Sử dụng các tập mục phổ biến để sinh ra các luật kết hợp với độ tin cậy minconf nào đó.   € Zga _ˆV$_}i}"#Y#) € ,š!\_]oš!rsš!}"#Y#) € ,ypyV\_]oypyVrsypyV}"#Y#)E !’]byp;iypCiž € 0_koŸˆk'…!ˆV!!•y!n!!•y)     € >?@).ZgZ!!%Š!_‰p!f•]"}l_ap V%_}}Z})D!!%ˆVl_Z!) € >?@)2EbŠ!V%_}}y•Z_}]]ŽpV%_}}Z} bi!kca _…!\_]ovVWWV}}Z}?w)ZgZ!!% Š!%odZeWXYi$cqjkc‹!Large Item[ Z[i]VW{_Ž_g_yab!) € >?@)Aš!Žyab*c^_„#koip!V%_} }Z}XV)   ,!_VW‹i_a‘_Z!!%g•Z! J?!’!•y%_ ($' &)  & rLarge_1_ItemSetsvw 2 *) &$%vr*  ?& ≠∅ ¡¡w'$ 9) L(M ;)   rV!%%?_}v ?& w  C) &$%vŠp_VW‹, ∈ w'$ 2) L(M =)  , rZyZ}v  i,w  K) &$%vŠp\_•]o ∈  , w'$ Q) )¡¡  &•) ('N &&)   r†∈  ¢)≥Z!‡ &*) ('N &9) %}%∪    €  Large_1_ItemSetsvw %n ]  Item qZg support b d Vk y“_ Z!) &) for alltransaction∈do *) for allitem∈do 9) )count¡¡ ;) &r{¢)count ≥minsup} € Apriori_Genv ?& w[Y]Yš!vk-1wItemSetc•!Z !k_ItemSetb),VZgˆV ?& €!#nvk-1w?ItemSet] jn%n]ˆV!k-ItemSet) &) Join ?& with  ?& *) Insert into  9) select!)} & i!)} * i)))!)} ?& ij)} ?& ;) from ?& as!i ?& asj C) wherev!)} & rj)} & w∧)))∧v!)} ?* rj)} ?* w∧v!)} ?& ”j)} ?& w Yv!)} ?& ”j)} ?& wZ–yncn^_!Zyp%{_ V)     OP.p]`W’!_VW‹$qVcdV_aZV 9 0)1QRM?)1PS(1T & †yi i i k‡ * †yi ‡ 9 †!i Zi ‡ = ; †Vi yi i W‡ C †Vi y‡ 2 †}i i k‡ = †Vi yi ‡ Min Support = 30%,Min Confidence = 60% +P%M(.U(1=P)QV. (1 #WXYZ[  †V‡ 9 †y‡ C †‡ 9 †‡ 9 £yab,$H&%oVq!*_‰š!*?} ††Viy‡i†Vi‡i†Vi‡i†yi‡i†yi‡i†i‡‡ +P%M(2U(1=P)QV2 (1 #WXYZ[  †Viy‡ 9 †Vi‡ & †Vi‡ • †yi‡ 9 †yi‡ & †i‡ & —#kš!*?}ZqD!!%s'D!!%vr9•ƒw_‰†Viy‡]†yi‡ 0\X V→yqcp™W}}9¤9r&••ƒ y→Vqcp™W}}9¤Cr2•ƒ y→qcp™W}}9¤Cr2•ƒ →yqcp™W}}9¤9r&••ƒ £yaba y˜VqH*r††Viy‡i†yi‡‡ £yab,$H*Vq!9_‰š!9?}†∅‡ K $0])/ Q OP2L¥dZeWXYhaZV 9 (1 & ii,iJ * iiJ 9 ii,iJ ; iiiJ C iii,iJ 2 ii, &• minSupr2•ƒ minConf = 80% (1\$; 2;,;JC (1\$;2 ;,;JC  & & 9(1\&ii,iJ*ii J9ii,iJ;iiiJCi ii,iJ2ii, Quyét CSDL Chọn Items có support >=minSup (1\$; *,*J;; ,;JC,*J9, J9 0g * (1\$;J ;;,;JC Chọn Items có support >=minSup * (1\$J; 9 Kết nối (1\$ J; 9 ;r∅ 0\X →Jqcp™W}};¤;r&••ƒ J→qcp™W}};¤;r&••ƒ J→qcp™W}};¤CrK•ƒ [...]... toỏn apriori- Tid cũn phi gỏnh chu thờm chi phớ phỏt sinh nu Ck vt quỏ b nh trong m phi s dng kem b nh ngoi 15 III.THUT TON APRIORI- HYBRID Thut toỏn Apriori- Hybrid c coi nh kt hp gia Thut toỏn Apriori v thut toỏn Apriori- TID Trong thut toỏn Apriori- Hybrid, c s dng khi t chc lp v chuyn sang Apriori- TID khi ó chc chn rng tp C k ó vo b nh chớnh Thut toỏn Apriori- Hybrid c coi l tt hn so vi Apriori v AprioriTID...II THUT TON APRIORITID: Gii thut AprioriTID l phn m rng theo hng tip cn c bn ca gii thut Apriori Thay vỡ da vo c s d liu thụ gii thut AprioriTID biu din bờn trong mi giao tỏc bi cỏc ng viờn hin hnh 1 THUT TOAN APRIORITID: Thut toỏn AprioriTID s dng hm Apriori_ Gen to cỏc tp ItemSet ng viờn Thut toỏn ny khụng dựng c s d liu D m support... TOAN APRIORI VA APRIORI- TID Khuyt iờm cua apriori: xỏc nh Support ca cỏc tp ng viờn, thut toỏn luụn luụn phi quột li ton b cỏc giao tỏc trong CSDL Do vy se tiờu tn rt nhiu thi gian khi s k-items tng (s ln xột duyt cỏc giao tỏc tng) Khuyt iờm cua apriori- Tid: Trong quỏ trỡnh xột duyt khi to, kớch thc ca Ck l rt ln v hu ht l tng ng vi kớch thc ca CSDL gc Do ú thi gian tiờu tn cng se bng vi thut toỏn apriori, ... cú nhn xột tinh t l thut toỏn Apriori chy khỏ nhanh nhngbc u tiờn, cũn thut toỏn Apriori- TID chy nhanh nhng bc sau (chy khỏ chm nhng bc u tiờn), Agrawal ngh phng ỏn lai ghộp: khụng nht thit phi chy tt c cỏc bc cựng mt thut toỏn ging nhau Nhng bc u tiờn, ụng cho chy thut toỏn Apriori, sau ú khi tp cỏc ng c viờn khỏ ln, sp cha y trong b nh tớnh toỏn, mi dựng thut toỏn Apriori- TID Srikant a ra thờm... tp cỏc ng c viờn khỏ ln, sp cha y trong b nh tớnh toỏn, mi dựng thut toỏn Apriori- TID Srikant a ra thờm mt nhn xột: thi gian chuyn t thut toỏn Apriori sang thut toỏn Apriori- TID tng i tn kộm 16 IV THUT TON FP_GROWTH Nh ta ó bit thut toỏn Apriori l mt bc t phỏ v khai thỏc cỏc tp mc thng xuyờn bng cỏch s dng k thut tia rỳt gn kớch thc ca cỏc tp mc ng c Tuy nhiờn, trong trng hp s tp mc nhiu, tp mc di hoc... xuyờn tim n Phi duyt qua c s d liu nhiu ln S ln duyt c s d liu ca thut toỏn Apriori bng di ca tp mc thng xuyờn di nht tỡm c.Trong trng hp tp mc thng xuyờn di v c s d liu ln thỡ khụng th thc hin c Thut toỏn Apriori phự hp vi c s d liu tha, cũn vi c s d liu dy thỡ thut toỏn kộm hiu qu khc phc nhng chi phớ ln ca thut toỏn Apriori nm 2000 Jiawei Han, Jian pei v Yiwen Yin ó a ra thut toỏn mi c gi l FP_growth... s nhiu hn Th hai, khai thỏc phỏt trin tng on mu da trờn FP_Tree, bt u t mu thng xuyờn cú kớch thc 1 v chi kim tra trờn c s mu ph thuc (conditional pattern base), khi to FP_Tree ca mu ph thuc, thc hin khai thỏc quy trờn cõy ny Mu kt qu nhn c qua vic kt ni mu hu t vi mu mi c sinh ra t FP_Tree ph thuc Th ba, dựng k thut tỡm kim phõn hoch khụng gian tỡm kim v chia tr chia nhim v khai thỏc thnh nhng... c cỏc tp Large k-Item t Ck v a vo Ck di dng , ng thi a cỏc tp Large k-Item vo Fk Lp li Bc 4 cho n khi ht ng viờn mi 11 3 NI DUNG THUT TOAN APRIORI- TID 1 L1 = Large_1_ItemSets (); 2 C 1 = Database D; 3 for (k=2; Lk-1 ; k++) do begin 4 Ck = Apriori_ Gen(Lk-1); 5 = ; Ck 6 for all t C k 1 do begin 7 Ct = {c Ck | (c-c[k]) t.Set_of_ItemSets ^ 8 (c-c[k-1] t.Set_of_ItemSets}; 9 for all candidate... ca ; (7) Nu Tree (8) thỡ gi li hm FP-growth(Tree, ) } } 22 23 7 ANH GIA CAC KT QUA THC NGHIM So sỏnh vi thut toỏn Apriori, trờn thc t rt khú ci t FP-tree vỡ s phc tp ca cu trỳc cõy FP Trong trng hp CSDL ln, FP-tree s dng tt hn tỡm cỏc mu ph bin ngn v di bi vỡ FP-growth linh hot hn Apriori iu ny l hin nhiờn khi ngng support h xung FP-tree uc to dng theo cỏch cỏc mu cú ph bin cao hn thỡ nm gn gc... kLk; 4 CU TRC LU TR: Mi tp ItemSet ng viờn se c gỏn cho mt mó s duy nht, gi l ID Mi tp ItemSet Ck c lu trong mt mng Mt thnh viờn ca C k bõy gi cú dng , mi C k c lu trong mt cu trỳc tun t Hm Apriori_ Gen phỏt sinh mt tp cỏc k-ItemSet ng viờn Ck bng cỏch kt hai tp Large (k-1)-ItemSets Mi ItemSet ng viờn ta thờm hai trng: (i) generators (ii) extensions Trng generators ca tp ItemSet ck lu cỏc . JKJK9 3n%$%9!fe%p_}ab_!dynˆV_n !%%),Vk]W[V]dZeWXY^_n!%%,y•W¦yo%_ Š_Vye_]oY)   € , AprioriTID Z•W’_ Apriori_ Gen c•Ž! ItemSet _ ]o),k^_W{_dZeWXYc•csupport•$yab ViVk]cqZ•W’_!  ’c`k)'Š]oˆV!   qWŽ_”,i{L  }s]bL  !k-ItemSet•Yp!f_Vq •,iVkVq•]”),i{∈  ¢q%_}s) €. alltransaction∈do *) for allitem∈do 9) )count¡¡ ;) &r{¢)count ≥minsup} €  Apriori_ Genv ?& w[Y]Yš!vk-1wItemSetc•!Z !k_ItemSetb),VZgˆV ?& €!#nvk-1w?ItemSet] jn%n]ˆV!k-ItemSet) &).  & rLarge_1_ItemSetsvw *) & C rVVyVZ} 9) forvr*  ?& ≠∅ ¡¡wdo begin ;)   r Apriori_ Genv ?& w C) k C r∅ 2) for all ∈ &−k C do begin =)    r{∈  ¢v?tuw∈)D}I™I}D}Z~ K) v?t?&u∈)D}I™I}D}Z}

Ngày đăng: 23/06/2014, 20:52

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • KHAI PHÁ LUẬT KẾT HỢP

  • I. THUẬT TOÁN APRIORI

    • 1. NGUYÊN TẮC APRIORI

    • 2. MÔ TẢ THUẬT TOÁN APRIORI

    • 3. NỘI DUNG THUẬT TOÁN APRIORI:

    • 4. MINH HỌA THUẬT TOÁN APRIORI:

    • II. THUẬT TOÁN APRIORITID:

      • 1. THUẬT TOÁN APRIORITID:

      • 2. MÔ PHỎNG THUẬT TOÁN APRIORI-TID

      • 3. NỘI DUNG THUẬT TOÁN APRIORI-TID

      • 4. CẤU TRÚC LƯU TRỮ:

      • 5. MINH HỌA THUẬT TOÁN APRIORI-TID:

      • 6. SO SÁNH THUẬT TOÁN APRIORI VÀ APRIORI-TID

      • III. THUẬT TOÁN APRIORI-HYBRID

      • IV. THUẬT TOÁN FP_GROWTH

        • 1. BẢN CHẤT

        • 2. THUẬT TOÁN XÂY DỰNG CÂY FP

        • 3. MÔ PHỎNG CÁC BƯỚC CỦA THUẬT TOÁN

        • 4. MINH HỌA THUẬT TOÁN

        • 5. PHÂN TÍCH CHI PHÍ THUẬT TOÁN TẠO CÂY FP

        • 6. TÍNH CHẤT CỦA FP-TREE

        • 7. ĐÁNH GIÁ CÁC KẾT QUẢ THỰC NGHIỆM

Tài liệu cùng người dùng

Tài liệu liên quan