Khai thác dữ liệu và ứng dụng

25 2.2K 7
Khai thác dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai thác dữ liệu và ứng dụng

1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI 3 I 3 I 3 I 3 ---- PHPHPHPHẦN 2N 2N 2N 2KHAI THÁC TẬP PHỔ BIẾN & LUẬT KẾT HỢP 3NỘI DUNG1.Gii thiu2. Bài toán khai thác tập phổbiến3. Độ đo tính lý thú của LKH4GIỚI THIỆU Bài toán khai thác tập phổ biến là bài toán rất quan trọng lĩnh vực KTDL : vạch ra tính chất ẩn, quan trọng của tập DLTất cả các tập con của tập phổ biến đều làtập phổ biến Tập phổ biến tối đại, tập bao phổ biếnBài toán khai thác LKH là bài toán tìm tt ccác luật dạng X ⇒⇒⇒⇒ Y (X, Y ⊂ I X ∩Y ={})thỏa mãn độ phổ biến độ tin cậy tối thiểu supp (X ⇒⇒⇒⇒ Y ) ≥≥≥≥ minsuppconf (X ⇒⇒⇒⇒ Y ) ≥≥≥≥ minconf 5GIỚI THIỆUBài toán khai thác tp ph bin là bài toán tìm tt c các tp các hng mc S (hay tp phbin S) có đ ph bin tha mãn đ ph bin ti thiu minsupp supp(S) ≥≥≥≥minsuppCách giải quyết : dựa trên tính chất của tập phổbiếnTìm kiếm theo chiều rộng : Thuật toán Apriori (1994)Phát triển mẫu : Thuật toán FP-Growth (2000)Tìm kiếm trên CSDL hàng dọc : Thuật toán Charm (2002)6GIỚI THIỆU Các hạn chế của Thuật toán AprioriPhải duyệt CSDL nhiều lần Khi khai thác các mẫu dài cần duyệt CSDL nhiều lần tạo lượng lớn tập ứng viênVí dụ : Để tìm tập phổ biến i1 i2… i100 :• Số lần duyệt CSDL : 100• Số lượng ứng viên : 2100-1 = 1.27*1030!Vấn đề : tạo ứng viên kiểm tra  Có thể tránh việc tạo ứng viên hay không ? 7NỘI DUNG1. Giới thiệu2. Bài toán khai thác tp ph bin Thut toán FP-Growth3. Độ đo tính lý thú của LKH8THUẬT TOÁN FP-GROWTH1. BẢN CHẤTKhai thác tập phổ biến khôngsử dụng hàm tạo ứng viên.Nén CSDL thành cấu trúc cây FP (Frequent Patern)Duyệt đệ qui cây FP để tạo tập phổ biến 9THUẬT TOÁN FP-GROWTH2. QUI TRÌNHB0 : Thit lp cây FPB1 : Thiết lập cơ sở mẫu điều kiện (conditional pattern bases) cho mỗi hạng mục phổ biến (mỗi nút trên cây FP).B2 : Thiết lập cây FP điều kiện (conditional FP tree) từ mỗi cơ sở mẫu điều kiện B3 : Khai thác đệ qui cây FP điều kiện vàphát triển mẫu phổ biến cho đến khi cây FP điều kiện chỉ chứa 1 đường dẫn duy nhất -tạo ra tất cả các tổ hợp của mẫu phổ biến 10THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 60%TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1- hạngmục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Sắp xếp CSDL theo F-list. Duyệt CSDL lần nữa thiết lập cây FPF-list=f-c-a-b-m-p 11THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 31. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa vàthiết lập cây FPF-list=f-c-a-b-m-p{}f:1c:1a:1m:1p:1TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}12THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 3TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa vàthiết lập cây FPF-list=f-c-a-b-m-p{}f:2c:2a:2b:1m:1p:1m:1 13THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 3TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p}1. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa thiết lập cây FPF-list=f-c-a-b-m-p{}f:3c:2a:2b:1m:1p:1m:1b:114THIẾT LẬP CÂY FP (B0)Header TableItem frequency head f 4c 4a 3b 3m 3p 3minsupp = 31. Tìm tập phổ biến 1-hạng mục (duyệt CSDL 1 lần)2. Sắp xếp tập phổ biến giảm dần vào trong F-list3. Duyệt CSDL lần nữa thiết lập cây FPF-list=f-c-a-b-m-p{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1TID Items bought (ordered) frequent items100 {f, a, c, d, g, i, m, p} {f, c, a, m, p}200 {a, b, c, f, l, m, o} {f, c, a, b, m}300 {b, f, h, j, o, w} {f, b}400 {b, c, k, s, p} {c, b, p}500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} 15Bài tập theo nhómTID Items1 {B,A,K}2 {K, B,C,A}3 {A,D,B}4 {A,B,E}5 {A,K,C}6 {A,B,C}7 {M,B,C}8 {B,C,D}9 {B,E}10 {A,E,M}11 {A,C,E,M}12 {A,D,E}• Thời gian : 10’• Trình bày kết quả ra giấy theo nhóm•Yêu cầu:1.Xây dựng cây FP từ CSDL bên với minsupp = 25% 2.Nếu Minsupp = 40% thì cây FP sẽ thay đổi như thế nào ?16Qui định trình bày bài nộp Bài tập nộp theo nhóm Ngày nộp :  Tên nhóm : ( chỉ ghi tên các thành viên tham gia)– Thành viên 1:– Thành viên 2:– Thành viên 3:– …– Thành viên 7: Nội dung : 17B1 : Thiết lập cơ sở mẫu điều kiện  Xây dng cơ s mu điu kin (Conditional pattern base)–Bắt đầu từ mẫu phổ biến cuối bảng của cây FP–Duyệt cây FP theo kết nối của mỗi hạng mục phổ biến.–Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục để tạo cơ sở mẫu điều kiện18VÍ DỤ 1: Thiết lập cơ sở mẫu điều kiện Xây dng cơ s mu điu kin (Conditional pattern base)– Bắt đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mục p– Duyệt cây FP theo kết nối của mỗi hng mc ph bin p.– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục p để tạo cơ sở mẫu điều kiện cho pCơ sở mẫu điều kiệnitem cond. pattern basep fcam:2, cb:1{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2 m:1Header TableItem frequency head f 4c 4a 3b 3m 3p 3 19 Xây dng cơ s mu điu kin (Conditional pattern base)– Tiếp tục vời mẫu phổ biến của cây FP : hạng mục m– Duyệt cây FP theo kết nối của mỗi hng mc ph bin m– Gom tất cả đường dẫn tiền tố biến đổi (transformed prefix) của hạng mục m để tạo cơ sở mẫu điều kiện cho m{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2 m:1Header TableItem frequency head f 4c 4a 3b 3m 3p 3Cơ sở mẫu điều kiệnitem cond. pattern basem fca:2, fcab:1p fcam:2, cb:1VÍ DỤ 1: Thiết lập cơ sở mẫu điều kiện20 Xây dng cơ s mu điu kin (Conditional pattern base)– Tiếp tục với các mẫu phổ biến còn lại của cây FPCơ sở mẫu điều kiệnitem cond. pattern basec f:3a fc:3b fca:1, f:1, c:1m fca:2, fcab:1p fcam:2, cb:1{}f:4 c:1b:1p:1b:1c:3a:3b:1m:2p:2 m:1Header TableItem frequency head f 4c 4a 3b 3m 3p 3VÍ DỤ 1: Thiết lập cơ sở mẫu điều kiện [...]... lần Khi khai thác các mẫu dài cần duyệt CSDL nhiều lần tạo lượng lớn tập ứng viên Ví dụ : Để tìm tập phổ biến i1 i2… i100 : • Số lần duyệt CSDL : 100 • Số lượng ứng viên : 2 100 -1 = 1.27*10 30 ! Vấn đề : tạo ứng viên kiểm tra  Có thể tránh việc tạo ứng viên hay không ? 41 ĐỘ ĐO TÍNH LÝ THÚ  Độ đo mối tương quan Interest – X Y tương quan nghịch, nếu Interest <1; Ngược lại X Y tương... time(sec.) D1 FP-grow th runtime D1 Apriori runtime Data set T25I20D10K 32 VD : LUẬT KẾT HỢP 7 NỘI DUNG 1. Giới thiệu 2. Bài toán khai thác tp ph bin  Thut tốn FP-Growth 3. Độ đo tính lý thú của LKH 8 THUẬT TỐN FP-GROWTH 1. BẢN CHẤT Khai thác tập phổ biến khơng sử dụng hàm tạo ứng viên. Nén CSDL thành cấu trúc cây FP (Frequent Patern) Duyệt đệ qui cây FP để tạo tập phổ biến ... 3 m 3 p 3 VÍ DỤ 1: Thiết lập cơ sở mẫu điều kiện 47 a)Tìm tất cả các tập ứng viên tập phổ biến, tập phổ biến tối đại, tập phổ biến đóng sử dụng lần lượt thuật toán Apriori và thuật toán Fp-Growth. b)Liệt kê tất cả LKH thỏa mãn ngưỡng đã cho c)Tính độ đo Interest của các luật tìm được ở câu b) BÀI TẬP PHẦN 2 48 TÀI LIỆU THAM KHẢO 1. J. Han, J. Pei, and Y. Yin. Mining frequent patterns without... để loại bớt/ hạn chế luật 2. Độ đo khách quan : o Độ phổ biến (supp) độ tin cậy (conf) o Còn khoảng 20 độ đo khác 3. Độ đo chủ quan : o LKH là lý thú nếu là điều mới lạ, gây ngạc nhiên hoặc / và o Có khả năng ứng dụng 38 ĐỘ ĐO TÍNH LÝ THÚ  Ví dụ 1: – Trong 5000 sinh viên • 3000 chơi bóng rổ • 3750 ăn ngũ cốc • 2000 chơi bóng rổ ăn ngũ cốc – Luật KH : Chơi bóng rổ ⇒ Ăn ngũ cốc [40%, 66.7%] là... xếp tập phổ biến giảm dần vào trong F- list 3. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p {} f:2 c:2 a:2 b:1m:1 p:1 m:1 25  Dựa trên nguyên lý mở rộng mẫu phổ biến  Dựa trên tính chất mở rộng mẫu : – Giả sử α là tập phổ biến trong CSDL, B là cơ sở mẫu điều kiện của α β là một tập các hạng mục trong B. – Khi đó α ∪ β là tập phổ biến trong CSDL khi và chỉ khi β là phổ biến trong... lần) 2. Sắp xếp tập phổ biến giảm dần vào trong F- list 3. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p {} f:3 c:2 a:2 b:1m:1 p:1 m:1 b:1 14 THIẾT LẬP CÂY FP (B0) Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 minsupp = 3 1. Tìm tập phổ biến 1- hạng mục (duyệt CSDL 1 lần) 2. Sắp xếp tập phổ biến giảm dần vào trong F- list 3. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p {} f:4... lần) 2. Sắp xếp tập phổ biến giảm dần vào trong F-list 3. Sắp xếp CSDL theo F- list. Duyệt CSDL lần nữa thiết lập cây FP F-list=f-c-a-b-m-p 11 THIẾT LẬP CÂY FP (B0) Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 minsupp = 3 1. Tìm tập phổ biến 1- hạng mục (duyệt CSDL 1 lần) 2. Sắp xếp tập phổ biến giảm dần vào trong F- list 3. Duyệt CSDL lần nữa và thiết lập cây FP F-list=f-c-a-b-m-p {} f:1 c:1 a:1 m:1 p:1 TID... là 75% > 66.7%. – Lut KH : Chơi bóng r ⇒ ⇒⇒ ⇒ Khơng ăn ngũ cc [20%, 33.3%] có ý nghĩa thc tin hơn mc có đ supp conf thp hơn basketball not basketball sum(row) cereal 2000 1750 3750 not cereal 1000 250 1250 sum(col.) 3000 2000 5000 5 GIỚI THIỆU Bài toán khai thác tp ph bin là bài tốn tìm tt c các tp các hng mc S (hay tp ph bin S) có đ ph bin tha mãn đ ph bin ti... sở mẫu điều kiện (conditional pattern bases) cho mỗi hạng mục phổ biến (mỗi nút trên cây FP). B2 : Thiết lập cây FP điều kiện (conditional FP tree) từ mỗi cơ sở mẫu điều kiện B3 : Khai thác đệ qui cây FP điều kiện và phát triển mẫu phổ biến cho đến khi cây FP điều kiện chỉ chứa 1 đường dẫn duy nhất - tạo ra tất cả các tổ hợp của mẫu phổ biến 10 THIẾT LẬP CÂY FP (B0) Header Table Item frequency... lượng mỗi mẫu trong cơ sở mẫu : • f :2, c:3, a:2, m:2, b:1 vi minsupp=3 -> c:3 ph bin trên cơ s mu điu kin ca p – Thit lp cây FP cho tp ph bin ca mu cơ s điu kin cho p p-conditional FP-tree {} Header Table Item frequency head c 3 c:3 minsupp = 3 37 ĐỘ ĐO TÍNH LÝ THÚ 1. Thế nào là luật hay, lý thú ?  Thuật toán khai thác luật kết hợp có xu hướng sinh ra quá nhiều luật.  . 1KHAI THÁC DỮ LIỆU & ỨNG DỤNG(DATA MINING)GV : NGUYỄN HOÀNG TÚ ANH2BBBBÀÀÀÀI 3 I 3 I 3 I 3 ---- PHPHPHPHẦN 2N 2N 2N 2KHAI THÁC TẬP PHỔ. lượng ứng viên : 2100-1 = 1.27*1030!Vấn đề : tạo ứng viên và kiểm tra  Có thể tránh việc tạo ứng viên hay không ? 7NỘI DUNG1. Giới thiệu2. Bài toán khai thác

Ngày đăng: 31/08/2012, 16:12

Hình ảnh liên quan

–Bắt đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mụ cp - Khai thác dữ liệu và ứng dụng

t.

đầu từ mẫu phổ biến cuối bảng của cây FP: hạng mụ cp Xem tại trang 9 của tài liệu.
–Bắt đầu từ mẫu phổ biến cuối bảng của cây  FP - Khai thác dữ liệu và ứng dụng

t.

đầu từ mẫu phổ biến cuối bảng của cây FP Xem tại trang 9 của tài liệu.
Else form ỗi αi trên bảng header của cây – Tạomẫu β= α i∪ αvới supp =supp (αi) ; – Thiết lập cơ sởmẫu điều kiện của βvà cây  - Khai thác dữ liệu và ứng dụng

lse.

form ỗi αi trên bảng header của cây – Tạomẫu β= α i∪ αvới supp =supp (αi) ; – Thiết lập cơ sởmẫu điều kiện của βvà cây Xem tại trang 14 của tài liệu.
B3: XÂY DỰNG TẬP PHỔ BIẾN - Khai thác dữ liệu và ứng dụng

3.

XÂY DỰNG TẬP PHỔ BIẾN Xem tại trang 14 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan