Bài giảng khai thác dữ liệu ứng dụng (data mining) bài 4 khai thác chuỗi tuần tự nguyễn hoàng tú oanh

18 417 1
Bài giảng khai thác dữ liệu  ứng dụng (data mining)   bài 4  khai thác chuỗi tuần tự   nguyễn hoàng tú oanh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 1 KHAI THÁC DỮ LIỆU & ỨNG DỤNG (DATA MINING) GV : NGUYỄN HOÀNG TÚ ANH 2 B BB BÀ ÀÀ ÀI 4 I 4I 4 I 4 KHAI THÁC CHUỖI TUẦN TỰ 2 3 NỘI DUNG 1. Giới thiệu 2. Khái niệm cơ bản 3. Thuật toán GSP khai thác chuỗi tuần tự 4 GIỚI THIỆU  Thứ tự (theo thời gian): quan trọng CSDL chuỗi thời gian (time-series DB) , CSDL chuỗi (sequence DB) Tập (mẫu) phổ biến → Mẫu tuần tự phổ biến (sequental pattern)  Ứng dụng của khai thác mẫu tuần tự Chuỗi mặt hàng : Mua máy tính, sau đó mua CD-ROM, sau đó mua máy camera kỹ thuật số trong vòng 3 tháng Chăm sóc bệnh nhân, tại họa tự nhiên (động đất), qui trình kỹ thuật, thị trường và tiếp thị,… Cuộc gọi điện thoại, Weblog Chuỗi DNA và cấu trúc gen 3 5 Tổ hợp của A,T,G,CPhần tử của chuỗi DNAChuỗi DNAChuỗi gen Trang chủ, trang index , thông tin liên lạc, … Tập các file đã xem ( sau khi nhắp chuột ) Hoạt động duyệt web của người sử dụng Dữ liệu Web Sách, sổ tay, CD, …Tập các mặt hàng được khách hàng mua vào thời điểm t Quá trình mua hàng của khách hàng Khách hàng Sự kiện (hạng mục) Phần tử (giao dịch) ChuỗiCSDL chuỗi Chuỗi E1 E2 E1 E3 E2 E3 E4 E2 Phần tử (Giao dịch) Sự kiện (Hạng mục) VÍ DỤ DỮ LIỆU CHUỖI 6 NỘI DUNG 1. Giới thiệu 2. Khái niệm cơ bản 3. Thuật toán GSP khai thác chuỗi tuần tự 4 7 1. CHUỖI (Sequence) Chuỗi là danh sách các phần tử ( giao dịch) có thứ tự. Mỗi phần tử của chuỗi : tập các sự kiện (hạng mục) Các sự kiện trong một phần tử không có thứ tự (thường viết theo bảng chữ cái) Ký hiệu : Chuỗi s = < s 1 s 2 … s n > với s j là tập các sự kiện. s j - gọi là phần tử của chuỗi s và có dạng (x 1 x 2 … x m ) với x j là một sự kiện (hạng mục) VD : < C (M,P) (S,T) > là một chuỗi có chiều dài =5 và có 3 phần tử KHÁI NIỆM CƠ BẢN 8 KHÁI NIỆM CƠ BẢN  CHUỖI (tt)  Chuỗi s i = < a 1 a 2 … a n > là chuỗi con của chuỗi s j = < b 1 b 2 … b m > nếu :  n ≤ ≤≤ ≤ m  ∃ ∃∃ ∃ các số nguyên i 1 < i 2 <… <i n sao cho a 1 ⊆ ⊆⊆ ⊆ bi 1 , a 2 ⊆ ⊆⊆ ⊆ bi 2 , … , a n ⊆ ⊆⊆ ⊆ bi n < {2,4} {2,4} {2,5} > < {1,2} {3,4} > < {2,4} {3,5,6} {8} > Chuỗi dữ liệu Có< {2} {4} > Không< {1} {2} > Có< {2} {3,5} > Thuộc ?Chuỗi con 5 9 10e, g … 400 20e, f … 300 15 20 25 30 a, d c b, c a, e 200 200 200 200 10 15 20 25 30 a a, b, c a, c d c, f 100 100 100 100 100 Ngày mua Mã hàngMã KH 2. CSDL CHUỖI Cho CSDL D Ví dụ : KHÁI NIỆM CƠ BẢN <eg(a,f)cbc>400 <(e,f)(a,b)(d,f)c,b>300 <(a,d)c(b,c)(a,e)>200 <a(a,b,c)(a,c)d(c,f)>100 SequenceSID 10 2. CSDL CHUỖI (tt) Cho CSDL chuỗi D ={ d 1 , d 2 , …, d n } Đ ph bin ca chui s trên CSDL D là t l gia s chui cha s trên tng s chui trong D Supp(s)= |{d i ∈ ∈ ∈ ∈ D | s là chui con ca d i }| / |D| Ví dụ : s = <(a,b) c> Supp(s) = 2/4 = 50% s 1 = <c (a,b)> s 2 = <c a> s 3 = <a b c> Supp(s 1 ) =? Supp(s 2 ) =? Supp(s 3 ) =? KHÁI NIỆM CƠ BẢN <eg(a,f)cbc>400 <(e,f)(a,b)(d,f)cb>300 <(a,d)c(b,c)(a,e)>200 <a(a,b,c)(a,c)d(c,f)>100 SequenceSID 6 11 3. BÀI TOÁN KHAI THÁC CHUỖI TUẦN TỰ Cho CSDL chuỗi và ngưỡng minsupp, cần tìm toàn bộ các chuỗi con phổ biến thỏa mãn minsupp đã cho. Ví dụ : CSDL chuỗi D và minsupp = 50% = 2/4 KHÁI NIỆM CƠ BẢN • Chuỗi con s = <(a,b) c> là chuỗi tuần tự phổ biến • Các chuỗi s 1 = <c (a,b)>, s 2 = <c a>, s 3 = <a b c> có phải là chuỗi phổ biến ? <eg(a,f)cbc>400 <(e,f)(a,b)(d,f)cb>300 <(a,d)c(b,c)(a,e)>200 <a(a,b,c)(a,c)d(c,f)>100 SequenceSID 12 4. THÁCH THỨC Tồn tại một số lượng lớn chuỗi tuần tự phổ biến bị dấu trong CSDL Thuật toán khai thác cần Tìm toàn bộ các mẫu thỏa mãn ngưỡng minsupp Hiệu quả, co dãn, số lần duyệt CSDL nhỏ Có thể kết hợp với nhiều loại ràng buộc của người dùng. KHÁI NIỆM CƠ BẢN 7 13 5. NGHIÊN CỨU Định nghĩa khái niệm và thuật toán giống thuật toán Apriori ( Apriori-All) - 1995. GSP – Phương pháp khai thác dựa trên tính chất Apriori - 1996 Phương pháp phát triển mẫu : PrefixSpan - 2001 KHÁI NIỆM CƠ BẢN 14 6. Tính chất cơ bản của chuỗi tuần tự Tính cht Apriori : Nếu S là chuỗi không phổ biến thì không có chuỗi bao (super-sequence) nào của S là phổ biến Ví dụ : Trong CSDL dưới, nếu <hb> là chuỗi không phổ biến → →→ → <hba>, <hab> và <(a,h)b> cũng không phổ biến KHÁI NIỆM CƠ BẢN <a(b,d)bcb(a,d,e)>50 <(b,e)(c,e)d>40 <(a,h)(b,f)abf>30 <(b,f)(c,e)b(f,g)>20 <(b,d)cb(a,c)>10 SequenceSeq. ID minsupp = 2 8 15 NỘI DUNG 1. Giới thiệu 2. Khái niệm cơ bản 3. Thuật toán GSP khai thác chuỗi tuần tự 16 1. BẢN CHẤT GSP : Generalized Sequential Pattern- Agrawal & Srikant, EDBT’96 Duyệt CSDL để tìm các chuỗi phổ biến có độ dài 1. For mỗi cấp ( chuỗi có độ dài k) Tạo các chuỗi ứng viên có độ dài (k+1) từ các chuỗi phổ biến chiều dài k (sử dụng Apriori) Duyệt CSDL để đếm độ phổ biến của từng chuỗi ứng viên và loại các ứng viên không thỏa mãn ngưỡng minsupp Lặp lại đến khi không còn chuỗi phổ biến hoặc không còn ứng viên S dng tính cht Apriori đ ct bt ng viên THUẬT TOÁN GSP 9 17 VÍ DỤ THUẬT TOÁN GSP  Các ng viên đu tiên C 1 : <a>, <b>, <c>, <d>, <e>, <f>, <g>, <h>  Duyệt CSDL để tính độ phổ biến của từng ứng viên và tìm F 1 -> F 1 = <a>, <b>, <c>, <d>, <e>, <f> <a(b,d)bcb(a,d,e)>50 <(b,e)(c,e)d>40 <(a,h)(b,f)abf>30 <(b,f)(c,e)b(f,g)>20 <(b,d)cb(a,c)>10 SequenceSeq. ID minsupp =2 1<h> 1<g> 2<f> 3<e> 3<d> 4<c> 5<b> 3<a> SupCand C 1 18 VÍ DỤ THUẬT TOÁN GSP  To các ng viên C 2 : = phép kết  Các chuỗi chiều dài = 2 và có 2 phần tử <ff><fe><fd><fc><fb><fa><f> <ef><ee><ed><ec><eb><ea><e> <df><de><dd><dc><db><da><d> <cf><ce><cd><cc><cb><ca><c> <bf><be><bd><bc><bb><ba><b> <af><ae><ad><ac><ab><aa><a> <f><e><d><c><b><a> 10 19 VÍ DỤ THUẬT TOÁN GSP  To các ng viên C 2 (tt)  Các chuỗi chiều dài = 2 và có 1 phần tử  Tổng cộng có 51 chuỗi ứng viên chiều dài =2 <f> <(e,f)><e> <(d,f)><(d,e)><d> <(c,f)><(c,e)><(c,d)><c> <(b,f)><(b,e)><(b,d)><(b,c)><b> <(a,f)><(a,e)><(a,d)><(a,c)><(a,b)><a> <f><e><d><c><b><a> 20 VÍ DỤ THUẬT TOÁN GSP  Xác đnh tp chui ph bin F 2  Duyệt CSDL và xác định độ phổ biến của từng chuỗi ứng viên chiều dài = 2  Có 19 ứng viên có độ phổ biến ≥ minsupp (=2)  > Tập chuỗi phổ biến F 2 gồm có 19 chuỗi [...]... {, , , , , } Sau bư c k t : C4 = {, } không k t ư c v i chu i nào khác vì không t n t i chu i có d ng ho c Sau bư c lo i b t : C4 = {} vì ∉ F3 nên b lo i 28 14 BÀI T P XD T P CHU I NG VIÊN • Th i gian : 7’ • Gi s chu i • Xác F3 là t p g m 7 nh t p ng viên C4 • Trình bày... {1} {2 5} > < {1} {5} {3} > < {2} {3} {4} > < {2 5} {3} > < {3} {4} {5} > < {5} {3 4} > 29 ÁP ÁN BÀI T P XD T P CHU I NG VIÊN F3 < {1} {2} {3} > < {1} {2 5} > < {1} {5} {3} > < {2} {3} {4} > < {2 5} {3} > < {3} {4} {5} > < {5} {3 4} > 30 15 H N CH C A GSP S lư ng kh ng l t p chu i ng viên ( c bi t chu i có chi u dài = 2) Duy t CSDL nhi u l n Không hi u qu khi khai thác các chu i dài -> M t trong các cách... tham kh o) 31 BÀI T P T I L P Th i gian : 10’ Cho CSDL chu i và minsupp = 4 Tìm các t p ng viên và t p chu i ph bi n Seq ID Sequence 10 20 30 40 50 32 16 ÁP ÁN BÀI T P T I L P 33 BÀI T P 1 2 Cho CSDL chu i D và minsupp = 50% Xác nh t p chu i ph bi n trên D Có th áp d ng ý tư ng thu t toán FP-Growth vào bài toán tìm chu... ch t Apriori Có 46 ng viên chi u dài = 3 23 VÍ D THU T TOÁN GSP Tìm t p chu i ph bi n F3 Duy t CSDL và xác nh ph bi n c a t ng chu i ng viên chi u dài = 3 Có 19 ng viên có ph bi n ≥ minsupp > T p chu i ph chu i bi n F3 g m 19 24 12 VÍ D THU T TOÁN GSP 5th scan: 1 cand 1 length-5 seq pat 4th scan: 8 cand 6 length -4 seq pat Supp(Cand.)< minsupp < … 3rd scan: 46 cand 19 length-3... FP-Growth vào bài toán tìm chu i ph bi n không và như th nào ? Mã KH Mã hàng Ngày mua 10 10 10 10 a, d a, b, c a, b,f a,c,d,f 10 15 20 25 20 20 a, b,f e 15 20 30 a,b, f 10 40 40 40 d,g,h b,f a,g,h 10 20 25 34 17 TÀI LI U THAM KH O 1 2 3 4 R Srikant, R Agrawal Mining sequential patterns : Generalizations and perfomance improvements EDBT’96 J Han J Pei Pattern Growth Methods for Sequential Pattern Mining... http://illimine.cs.uiuc.edu/demo/ : Demo m t s thu t toán tìm t p ph bi n và chu i ph bi n http://wwwusers.cs.umn.edu/~kumar/dmbook/resources.htm : Chương trình m t s thu t toán và ph n m m cơ b n c a các bài toán trong khai thác d li u 35 Q&A 36 18 ... in DB at all 1st scan: 8 cand 6 length-1 seq pat minsupp =2 Cand ∉ CSDL … … … … Seq ID 10 20 30 40 50 Sequence 25 THU T TOÁN GSP 2 Pseudo-Code Input : CSDL chu i D, minsupp Output : F - các chu i tu n t ph bi n trong . tử <ff><fe><fd><fc><fb><fa><f> <ef><ee><ed><ec><eb><ea><e> <df><de><dd><dc><db><da><d> <cf><ce><cd><cc><cb><ca><c> <bf><be><bd><bc><bb><ba><b> <af><ae><ad><ac><ab><aa><a> <f><e><d><c><b><a> 10 19 VÍ. tử <ff><fe><fd><fc><fb><fa><f> <ef><ee><ed><ec><eb><ea><e> <df><de><dd><dc><db><da><d> <cf><ce><cd><cc><cb><ca><c> <bf><be><bd><bc><bb><ba><b> <af><ae><ad><ac><ab><aa><a> <f><e><d><c><b><a> 10 19 VÍ. GSP <ff><fe><fd><fc><fb><fa><f> <ef><ee><ed><ec><eb><ea><e> <df><de><dd><dc><db><da><d> <cf><ce><cd><cc><cb><ca><c> <bf><be><bd><bc><bb><ba><b> <af> 1 <ae> 1 <ad> 1 <ac> 1 <ab> 2 <aa> Supp=2 <a> <f><e><d><c><b><a> 22 VÍ

Ngày đăng: 29/07/2015, 18:37

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan