khai thác luật kết hợp

62 360 1
khai thác luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

KHAI THÁC LUẬT KẾT HỢP TS. Võ Đình Bảy bayvodinh@gmail.com 1 DẪN NHẬP Xét CSDL khảo sát tiện nghi sử dụng ở các hộ gia đình nhƣ sau: Hộ Tiện nghi sở hữu 1 Tivi, MáyVitính 2 Tủlạnh, Máylạnh 3 Tivi, Máygiặt, Máylạnh 4 Tivi, Tủlạnh, Máylạnh 5 Tivi, Máygiặt, MáyVitính 6 Tivi, Tủlạnh, Máygiặt 7 Tivi, Tủlạnh, MáyVitính 8 Tivi, Tủlạnh, Máygiặt, Máylạnh, MáyVitính GV: TS. Võ Đình Bảy 2 LUẬT KẾT HỢP  Luật kết hợp là biểu thức theo có dạng:  Tivi  Máyvitính [50%, 57%] hay sử dụng:Tivi  sử dụng:Máyvitính [50%, 57%] Nghĩa là: “57% hộ gia đình sử dụng Tivi thì cũng sử dụng Máyvitính. Tivi và Máyvitính xuất hiện chung trong 50% dòng dữ liệu." GV: TS. Võ Đình Bảy 3 KHAI THÁC LUẬT KẾT HỢP Khai thác luật kết hợp được chia làm hai giai đoạn: 1. Khai thác tập phổ biến(FIs – Frequent Itemsets). 2. Khai thác luật từ các tập phổ biến(ARs – Association Rules). GV: TS. Võ Đình Bảy 4 KHAI THÁC LUẬT KẾT HỢP Khai thác luật kết hợp được chia làm hai giai đoạn: 1. Khai thác tập phổ biến(FIs – Frequent Itemsets). 2. Sinh luật từ các tập phổ biến(ARs – Association Rules). GV: TS. Võ Đình Bảy CSDL giao dịch Khai thác tập phổ biến Sinh luật CSDL luật FIs 5 6 GV: TS. Võ Đình Bảy 1. Khai thác tập phổ biến 2. Sinh luật kết hợp TÌM TẬP PHỔ BIẾN  Đƣợc đề xuất bởi Agrawal năm 1993.  Mục đích: tìm mối liên hệ giữa các mặt hàng (danh mục) đƣợc bán trong siêu thị.  Đến nay, có nhiều phƣơng pháp đƣợc phát triển nhƣ:  Phƣơng pháp Apriori (Agrawal)  Phƣơng pháp IT-tree (M. Zaki)  Phƣơng pháp FP-tree (J. Han)  … GV: TS. Võ Đình Bảy 7 MỘT SỐ PHƢƠNG PHÁP TÌM TẬP PHỔ BIẾN 1. Phƣơng pháp sinh ứng viên: Apriori do Agrawal đề xuất. 2. Phƣơng pháp không sinh ứng viên: a. Zaki: dựa vào cây IT-tree và phần giao của các Tidset để tính độ phổ biến. b. J. Han: dựa vào FP-tree để khai thác tập phổ biến. c. Ngoài ra, còn có một số phƣơng pháp đƣợc đề xuất nhƣ: Lcm, DCI, … 8 GV: TS. Võ Đình Bảy 9 MỘT SỐ THUẬT TOÁN TÌM TẬP PHỔ BIẾN 1. Phƣơng pháp Apriori. 2. Phƣơng pháp FP-tree (Frequent Patterns Tree). 3. Phƣơng pháp IT-tree (Itemset-Tidset Tree). GV: TS. Võ Đình Bảy 10 ĐỊNH NGHĨA 1. Định nghĩa độ phổ biến: Cho CSDL giao dịch D và tập dữ liệu XI. Độ phổ biến của X trong D, kí hiệu (X), đƣợc định nghĩa là số giao dịch mà X xuất hiện trong D. 2. Định nghĩa tập phổ biến: Tập X I đƣợc gọi là phổ biến nếu (X)minSup ( với minSup là giá trị do ngƣời dùng chỉ định). 22-Jan-13 GV: TS. Võ Đình Bảy [...]... item đơn, sau đó tạo cây FP cục bộ và khai thác trên cây cục bộ một cách đệ qui Sử dụng phƣơng pháp chia để trị để khai thác tập phổ biến Là phƣơng pháp không sinh ứng viên Thƣờng rất hiệu quả trên các CSDL có mật độ trùng lắp dữ liệu cao 27 22-Jan-13 PHƢƠNG PHÁP IT- TREE   GV: TS Võ Đình Bảy Kết nối Galois: Cho quan hệ hai ngôi   I  T chứa CSDL cần khai thác Với: X  I và Y  T Định nghĩa hai... sử dụng Diffset để tính nhanh độ phổ biến nhằm làm giảm không gian lƣu trữ Tidset  Do thuật toán không sinh ứng viên nên hiệu quả khai thác thƣờng cao hơn so với các họ thuật toán sinh ứng viên  Khi số tập phổ biến lớn, thời gian khai thác luật lớn  Cần phƣơng pháp khai thác hiệu quả hơn 34 DIFFSET ĐỂ TÍNH NHANH ĐỘ PHỔ BIẾN  Diffset của X so với Y, kí hiệu d(XY) đƣợc định nghĩa nhƣ sau: Ta có d(PXY)... GV: TS Võ Đình Bảy Cho XI, ta định nghĩa hàm p(X,k)=X[1:k] gồm k phần tử đầu của X và quan hệ tƣơng đƣơng dựa vào tiền tố nhƣ sau: 29 NHẬN XÉT VỀ IT- TREE 1 2 GV: TS Võ Đình Bảy (X) =|t(X)| Chỉ cần kết hợp các phần tử trên cùng một mức của lớp tƣơng đƣơng là đủ để sinh ra các tập phổ biến 30 THUẬT TOÁN TÌM TẬP PHỔ BIẾN GV: TS Võ Đình Bảy ECLAT() [] = {iI| (i) minSup} ENUMERATE_FREQUENT([]) ENUMERATE_FREQUENT([P])... Ck.count  minSup} FIs = kLk; 12 CÁCH TẠO ỨNG VIÊN CỦA APRIORI Nguyên tắc Apriori: Nhớ lại tính chất: mọi tập con của tập phổ biến cũng phổ biến  Giả sử ta có L3 = {abc, abd, acd, ace, bcd}  Xét việc kết để tao ra các ứng viên C4: L3*L3 abcd đƣợc tạo từ abc và abd acde đƣợc tạo từ acd và ace  Rút gọn: acde bị loại vì ade không có trong L3 C4 = {abcd}  GV: TS Võ Đình Bảy 13 VÍ DỤ MINH HỌA Bảng . GV: TS. Võ Đình Bảy 3 KHAI THÁC LUẬT KẾT HỢP Khai thác luật kết hợp được chia làm hai giai đoạn: 1. Khai thác tập phổ biến(FIs – Frequent Itemsets). 2. Khai thác luật từ các tập phổ biến(ARs. GV: TS. Võ Đình Bảy 4 KHAI THÁC LUẬT KẾT HỢP Khai thác luật kết hợp được chia làm hai giai đoạn: 1. Khai thác tập phổ biến(FIs – Frequent Itemsets). 2. Sinh luật từ các tập phổ biến(ARs. TS. Võ Đình Bảy CSDL giao dịch Khai thác tập phổ biến Sinh luật CSDL luật FIs 5 6 GV: TS. Võ Đình Bảy 1. Khai thác tập phổ biến 2. Sinh luật kết hợp TÌM TẬP PHỔ BIẾN  Đƣợc đề

Ngày đăng: 26/01/2015, 10:09

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan