Khai Phá Dữ Liệu-Phát hiện các luật kết hợp ppt

Thông tin tài liệu

Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học:  Giới thiệu về Khai phá dữ liệu ề  Giới thiệu v ề công cụ WEK A  Tiền xử lý dữ liệu  Phát hiện các luật kết hợp  Các kỹ thuật phân lớpvàdự đoán  Các kỹ thuật phân lớp và dự đoán  Các kỹ thuật phân nhóm 2 Khai Phá Dữ Liệu Phát hiện các luật kết hợp – Giới thiệu  Bài toán phát hiện luật kết hợp (Association rule mining)  Với m ộ t t ập các g iao d ị ch ( transactions ) cho trước , cần tìm các ộ ậpgị (), luật dự đoán khả năng xuất hiện trong một giao dịch của các mục (items) này dựa trên việc xuất hiện của các mục khác TID Items 1 Bread, Milk Các ví dụ của luật kết hợp: {Diaper} → {Beer} 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper , Beer {Diaper} → {Beer} {Milk, Bread} → {Eggs, Coke} {Beer, Bread} → {Milk} 4 Bread, Milk, Diaper , Beer 5 Bread, Milk, Diaper, Coke 3 Khai Phá Dữ Liệu Các định nghĩa cơ bản (1)  Tập mục (Itemset)  Một tập hợp gồm một hoặc nhiều mục  Ví dụ: {Milk, Bread, Diaper}  Tập mục mức k (k-itemset)  Một tập mục gồm k mục ổ ố ỗ (S ) TID Items 1 Bread, Milk 2 Bread Diaper Beer Eggs  T ổ ng s ố h ỗ trợ (S upport count ) σ  Số lần xuất hiện của một tập mục  Ví dụ: σ({Milk, Bread, Diaper}) = 2 2 Bread , Diaper , Beer , Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread Milk Diaper Coke  Đ ộ hỗ trợ (Support) s  Tỷ lệ các giao dịch chứa một tập mục  Ví dụ: s({Milk, Bread, Diaper}) = 2/5 5 Bread , Milk , Diaper , Coke  Tập mục thường xuyên (Frequent/large itemset)  Một tập mục mà độ hỗ trợ lớn hơn hoặc bằng một giá trị ngưỡng minsup 4 Khai Phá Dữ Liệu Các định nghĩa cơ bản (2)  Luật kết hợp (Association rule) ể TID Items 1 Bread, Milk  Một bi ể u thức kéo theo có dạng: X → Y, trong đó X và Y là các tập mục  Ví dụ: {Milk Diaper} → {Beer} 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer  Ví dụ: {Milk , Diaper} → {Beer}  Các độ đo đánh giá luật  Độ hỗ tr ợ ( Su pp ort ) s Beer } Diaper Milk { → 5 Bread, Milk, Diaper, Coke ộ ợ (pp)  Tỷ lệ các giao dịch chứa cả X và Y đối với tất cả các giao dịch Beer } Diaper , Milk { → 4.0 5 2 | T | )Bee r Diaper,,Milk( === σ s  Đ ộ tin cậy (Confidence) c  Tỷ lệ các giao dịch chứa cả X và Y đối với các giao dịch chứaX 5 | T | 67.0 3 2 )Diaper,Milk( )BeerDiaper,Milk,( === σ σ c chứa X 5 Khai Phá Dữ Liệu Phát hiện các luật kết hợp  Với một tập các giao dịch T, mục đích của bài toán phát hiệnluậtkếthợp là tìm ra tấtcả các luậtcó: hiện luật kết hợp là tìm ra tất cả các luật có:  độ hỗ trợ ≥ giá trị ngưỡng minsup, và  độ tin cậy ≥ giá trị ngưỡng minconf  Cách tiếp cận vét cạn (Brute-force)  Liệt kê tất cả các luật kết hợp có thể Tí h t á độ hỗ t à độ ti ậ h ỗil ật  Tí n h t o á n độ hỗ t rợ v à độ ti n c ậ y c h o m ỗi l u ật  Loại bỏ đi các luật có độ hỗ trợ nhỏ hơn minsup hoặc có độ tin cậy nhỏ hơn minconf ⇒ Phương pháp vét cạn này có chi phí tính toán quá lớn, không áp dụng được trong thực tế! 6 Khai Phá Dữ Liệu Phát hiện luật kết hợp Các luật kết hợp: {Milk, Diaper} → {Beer} (s=0.4, c=0.67) TID Items 1 Bread, Milk 2 BdDi B E {Milk, Beer} → {Diaper} (s=0.4, c=1.0) {Diaper, Beer} → {Milk} (s=0.4, c=0.67) {Beer} → {Milk, Diaper} (s=0.4, c=0.67) {Diaper} → {Milk Beer} (s = 04 c = 05) 2 B rea d , Di aper, B eer, E ggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer  Tất cả các luật trên đều là sự phân tách (thành 2 tập con) của {Diaper} → {Milk , Beer} (s 0 . 4 , c0 . 5) {Milk} → {Diaper, Beer} (s=0.4, c=0.5) 5 Bread, Milk, Diaper, Coke cùng tập mục : {Milk, Diaper, Beer}  Các luật sinh ra từ cùng một tập múc sẽ có cùng độ hỗ trợ, nhưng có thể khác về độ tin cậy nhưng có thể khác về độ tin cậy  Do đó, trong quá trình phát hiện luật kết hợp, chúng ta có thể tách riêng 2 yêu cầu về độ hỗ trợ và độ tin cậy 7 Khai Phá Dữ Liệu Phát hiện luật kết hợp  Quá trình phát hiện luật kết hợp sẽ gồm 2 bước (2 giai đoạn) quan trọng: đoạn) quan trọng:  Sinh ra các tập mục thường xuyên (frequent/large itemsets)  Sinh ra tất cả các tập mục có độ hỗ trợ ≥ minsup  Sinh ra các luật kết hợp  Từ mỗi tập mục thường xuyên (thu được ở bước trên), sinh ra tấtcả các luậtcóđộ tin cậycao( ≥ minconf ) tất cả các luật có độ tin cậy cao ( ≥ minconf )  Mỗi luật là một phân tách nhị phân (phân tách thành 2 phần) của một tập mục thường xuyên  Bước sinh ra các tập mục thường xuyên (bước thứ 1) vẫn có chi phí tính toán quá cao! 8 Khai Phá Dữ Liệu Lattice biểu diễn các tập mục cần xét Với d null mục, thì phải xét đến 2 d A B C D E đến 2 các tập mục có thể! AB AC AD AE BC BD BE CD CE DE thể! ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE ABCD ABCE ABDE ACDE BCDE 9 Khai Phá Dữ Liệu ABCDE Sinh ra các tập mục thường xuyên TID Items 1 BdMilk 1 B rea d , Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer Phương pháp vét cạn(Brute force) 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke  Phương pháp vét cạn (Brute - force)  Mỗi tập mục trong lattice đều được xét  Tính độ hỗ trợ của mỗi tập mục, bằng cách duyệt qua tất cả các idị h g i ao dị c h  Với mỗi giao dịch, so sánh nó với mỗi tập mục được xét  Độ phức tạp ~ O(N.M.w)  Với M = 2 d , thì độ phức tạp này là quá lớn! 10 Khai Phá Dữ Liệu [...]... 136 345 125 457 159 367 357 124 356 368 689 458 Khai Phá Dữ Liệu 18 Phát hiện luật kết hợp bằng cây băm (2) (Hàm băm) 1,4,7 Cây băm lưu các tập mục cần xét 3,6,9 2,5,8 258 234 567 145 Băm (hash) (h h) đối với 2, 5, hoặc 8 136 345 125 457 159 367 357 124 356 368 689 458 Khai Phá Dữ Liệu 19 Phát hiện luật kết hợp bằng cây băm (3) (Hàm băm) 1,4,7 Cây băm lưu các tập mục cần xét 3,6,9 2,5,8 258 234 567 145... các tập mục mức mức (k 1) cần xét (k+1) Loại bỏ các tập mục mức (k+1) chứa các tập con là các tập mục không thường xuyên mức k Tính độ hỗ trợ của mỗi tập mục mức (k+1), bằng cách duyệt qua (k+1) tất cả các giao dịch Loại bỏ các tập mục không thường xuyên mức (k+1) Thu được các tập mục thường xuyên mức (k+1) Khai Phá Dữ Liệu 15 Giảm bớt số lượng các so sánh Các so sánh (matchings/comparisons) giữa các. .. 356 368 689 458 Khai Phá Dữ Liệu 20 Các tập mục mức k trong một giao dịch Đối với giao dịch t, hãy xác định các tập mục mức 3? Gả Giả sử trong o g mỗi tập mục, các mục được liệt kê theo thứ tự từ điển Khai Phá Dữ Liệu 21 Xác định các tập mục bằng cây băm (1) (Hàm băm) 1 2 3 5 6 Giao dịch t 1+ 2356 2+ 356 1,4,7 3+ 56 3,6,9 2,5,8 234 567 145 136 345 124 457 125 458 159 356 357 689 Khai Phá Dữ Liệu 367 368... giao dịch (N.M) ( ) Sử dụng các cấu trúc dữ liệu phù hợp (hiệu quả) để lưu các tập mục cần xét hoặc các giao dịch Không cần phải so sánh mỗi tập mục với mỗi giao dịch Khai Phá Dữ Liệu 11 Giảm bớt số lượng các tập mục cần xét Nguyên tắc của giải thuật Apriori – Loại bỏ (prunning) dựa trên độ hỗ trợ Nếu một tập mục là thường xuyên, thì tất cả các tập con (subsets) của nó đều là các tập mục thường xuyên... lượng các giao dịch tăng lên Kích thước trung bình của các giao dịch Khi kích thước (số lượng các mục) trung bình của các giao dịch tăng lên, thì độ dài tối đa của các tập mục thường xuyên cũng tăng, tăng và chi phí duyệt cây băm cũng tăng Khai Phá Dữ Liệu 24 Biểu diễn các tập mục thường xuyên Trong thực tế, số lượng các tập mục thường xuyên được sinh ra từ một csdl giao dịch có thể rất lớn Cần một cách... lượng các tập mục phải xét và độ ể dài (kích thước) tối đa của các tập mục thường xuyên Số lượng các mục trong cơ sở dữ liệu (các giao dịch) Cân thêm bộ nhớ để lưu giá trị độ hỗ trợ đối với mỗi mục Nếu số lượng các mục (tập mục mức 1) thường xuyên tăng lên, thì chi phí tính toán và chi phí I/O (duyệt các giao dịch) cũng tăng Kích thước của cơ sở dữ liệu (các giao dịch) Giải thuật Apriori duyệt cơ sở dữ. .. Số lượng tối đã các tập mục được lưu ở một nút lá (Nếu số lượng các tập mục vượt quá giá trị này, nút đó sẽ tiếp tục bị phân chia) – Ví dụ: Max leaf size = 3 (Hàm băm) 3,6,9 1,4,7 147 234 567 345 136 145 2,5,8 124 457 Khai Phá Dữ Liệu 125 458 356 357 689 367 368 159 17 Phát hiện luật kết hợp bằng cây băm (1) (Hàm băm) 1,4,7 Cây băm lưu các tập mục cần xét 3,6,9 2,5,8 258 234 567 Băm (hash) đối với 1,... biểu diễn dữ liệu của các giao dịch bằng một cấu trúc dữ liệu gọi là FP-tree FP tree FP-Growth sử dụng cấu trúc FP-tree để xác định trực tiếp các tập mục thường xuyên Khai Phá Dữ Liệu 31 Biểu diễn bằng FP-tree Với mỗi giao dịch, FP-tree xây dựng một đường đi (path) trong cây Hai giao dịch có chứa cùng một số các mục, thì đường đi của chúng sẽ có phần (đoạn) chung Càng nhiều các đường đi có các phần... xuyên Các tập mục thường xuyên lớn nhất Các tập mục không thường xuyên Ranh giới Khai Phá Dữ Liệu 26 Các tập mục thường xuyên đóng Một tập mục thường xuyên là đóng (Closed frequent itemset), nếu không có tập cha nào của nó có cùng độ hỗ trợ với nó g ập g ộ ợ TID 1 2 3 4 5 Items {A,B} {B,C,D} {A,B,C,D} {A B C D} {A,B,D} {A,B,C,D} Itemset {A} {B} {C} { } {D} {A,B} {A,C} {A,D} {B,C} {B,D} {C,D} Khai Phá Dữ. .. biểu diễn ngắn gọn (compact representation) Bằng một tập (nhỏ) các tập mục thường xuyên đại diện – mà có thể dùng để suy ra (sinh ra) tất cả các tập mục thường xuyên khác Có 2 cách biểu diễn như vậy Các tập mục thường xuyên lớn nhất (Maximal frequent itemsets) Các tập mục thường xuyên đóng (Closed frequent itemsets) Khai Phá Dữ Liệu 25 Các tập mục thường xuyên lớn nhất Một tập mục thường xuyên là lớn . đoán  Các kỹ thuật phân nhóm 2 Khai Phá Dữ Liệu Phát hiện các luật kết hợp – Giới thiệu  Bài toán phát hiện luật kết hợp (Association rule mining)  Với m ộ t t ập các g iao d ị ch ( transactions ) . hỗ trợ và độ tin cậy 7 Khai Phá Dữ Liệu Phát hiện luật kết hợp  Quá trình phát hiện luật kết hợp sẽ gồm 2 bước (2 giai đoạn) quan trọng: đoạn) quan trọng:  Sinh ra các tập mục thường xuyên. tập các giao dịch T, mục đích của bài toán phát hiệnluậtkếthợp là tìm ra tấtcả các luậtcó: hiện luật kết hợp là tìm ra tất cả các luật có:  độ hỗ trợ ≥ giá trị ngưỡng minsup,

Ngày đăng: 28/06/2014, 22:20

Xem thêm: Khai Phá Dữ Liệu-Phát hiện các luật kết hợp ppt, Khai Phá Dữ Liệu-Phát hiện các luật kết hợp ppt

Khai Phá Dữ Liệu-Phát hiện các luật kết hợp ppt

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan