một số kỹ thuật đánh giá luật dựa trên lý thuyết tập thô

79 410 2
một số kỹ thuật đánh giá luật dựa trên lý thuyết tập thô

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ LY SA MỘT SỐ KỸ THUẬT ĐÁNH GIÁ LUẬT DỰA TRÊN THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2010 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ LY SA MỘT SỐ KỸ THUẬT ĐÁNH GIÁ LUẬT DỰA TRÊN THUYẾT TẬP THÔ Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ HƯỚNG DẪN KHOA HỌC TS. VŨ THANH NGUYÊN Thành phố Hồ Chí Minh - 2010 i NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN TP Hồ Chí Minh, ngày …….tháng …… năm 2010 Cán bộ hướng dẫn TS. Vũ Thanh Nguyên ii NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN TP Hồ Chí Minh, ngày …….tháng …… năm 2010 Cán bộ phản biện iii MỤC LỤC Trang NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN I NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN II MỤC LỤC III DANH MỤC CÁC BẢNG VI DANH MỤC CÁC HÌNH VII DANH MỤC CÁC TỪ VIẾT TẮT VIII CHƯƠNG 1. GIỚI THIỆU 1 1.1. KHAI PHÁ DỮ LIỆU 1 1.2. LUẬT KẾT HỢP 2 1.3. THUYẾT TẬP THÔ 2 1.4. ĐÁNH GIÁ LUẬT 3 1.5. TÓM LẠI 4 CHƯƠNG 2. KIẾN THỨC CƠ BẢN 5 2.1. THUYẾT TẬP THÔ 5 2.1.1. Các khái niệm 5 2.1.2. Thuật toán tìm các rút gọn 12 2.1.3. Thuật toán tìm rút gọn tối ưu 16 2.1.4. Tập thô và rời rạc hóa dữ liệu 17 2.2. PHÁT SINH LUẬT KẾT HỢP 23 2.2.1. Giới thiệu 23 2.2.2. Khai thác tập phổ biến 23 2.2.3. Khai thác luật kết hợp từ tập phổ biến 28 2.2.4. Sử dụng luật kết hợp vào việc phân lớp 30 CHƯƠNG 3. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ LUẬT DỰA TRÊN THUYẾT TẬP THÔ 32 3.1. ĐỘ ĐO SỰ HỮU ÍCH CỦA LUẬT 32 3.1.1. Độ hỗ trợ 33 3.1.2. Độ tin cậy 33 3.1.3. Độ đo Lift 34 iv 3.1.4. Độ đo Laplace 34 3.1.5. Độ chắc chắn 35 3.1.6. Độ đo Leverage 35 3.1.7. Độ đo Correlation 35 3.1.8. Độ đo Jaccard 36 3.1.9. Độ đo Cosine 36 3.1.10. Độ đo Odds Ratio 36 3.1.11. Rule Template 36 3.2. ĐỘ ĐO TẦM QUAN TRỌNG CỦA LUẬT 38 3.2.1. Các định nghĩa 38 3.2.2. Một ví dụ về độ đo RIM 39 3.2.3. Nhận xét về độ đo RIM 40 3.3. ĐỘ ĐO XEM LUẬT NHƯ THUỘC TÍNH 41 3.3.1. Xây dựng bảng quyết định mới 41 3.3.2. Các định nghĩa 43 3.3.3. Một ví dụ về độ đo RAM 43 3.3.4. Nhận xét giữa hai độ đo RIM và độ đo RAM 44 3.4. ĐỘ ĐO TẦM QUAN TRỌNG CẢI TIẾN 45 3.4.1. Định nghĩa 45 3.4.2. Quá trình thực hiện 45 3.4.3. Một ví dụ về độ đo ERIM 46 3.4.4. Nhận xét về độ đo ERIM 47 3.5. ĐỘ ĐO WAERIM 47 3.5.1. Định nghĩa 48 3.5.2. Quá trình thực hiện 48 3.6. ĐỘ ĐO AIERIM 49 3.6.1. Định nghĩa 49 3.6.2. Một ví dụ về độ đo AIERIM 50 CHƯƠNG 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ THUẬT ĐÁNH GIÁ LUẬT GIỮA CÁC ĐỘ ĐO 51 4.1. GIỚI THIỆU 51 4.1.1. Nguồn dữ liệu “Nursery” 51 4.1.2. Nguồn dữ liệu “BankLoan” 52 v 4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG 54 4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO 55 4.3.1. Sử dụng nguồn “Nursery” 55 4.3.2. Sử dụng nguồn “BankLoan” 56 4.3.3. Kết luận 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65 TÀI LIỆU THAM KHẢO 67 vi DANH MỤC CÁC BẢNG Bảng 2.1. Một ví dụ về Hệ thông tin 5 Bảng 2.2. Một ví dụ về Bảng quyết định 6 Bảng 2.3. Ma trận khả phân xây dựng từ Bảng 2.2 11 Bảng 2.4. Một ví dụ về Bảng quyết định 11 Bảng 2.5. Ma trận khả phân xây dựng từ Bảng 2.4 12 Bảng 2.6. Quá trình rời rạc hoá 18 Bảng 2.7. Bảng quyết định mới ∗ T 21 Bảng 2.8. Kết quả rời rạc hóa dữ liệu 23 Bảng 2.9. Ví dụ về cơ sở dữ liệu dạng giao dịch 24 Bảng 2.10. Một ví dụ về tập phổ biến 24 Bảng 2.11. Luật kết hợp thỏa minSupp=50%, minConf=80% 29 Bảng 3.1. Ví dụ cho mẫu luật 37 Bảng 3.2. Một số rút gọn từ nguồn Zoo 39 Bảng 3.3. Tập luật quan trọng theo độ đo RIM từ nguồn Zoo 40 Bảng 3.4. Bảng quyết định ví dụ cho độ đo RAM 42 Bảng 3.5. Xây dựng bảng quyết định mới 43 Bảng 3.6. Các luật kết hợp từ nguồn Lenses với minSupp=3% và minConf=70% 44 Bảng 3.7. Tập luật quan trọng theo độ đo RAM từ nguồn Lenses 44 Bảng 3.8. Trọng số cho từng thuộc tính điều kiện của nguồn Car 46 Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car 46 Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car 50 Bảng 3.11. Tập luật với độ đo AIERIM từ nguồn Car 50 Bảng 4.1. Các thuộc tính của nguồn Nursery 51 Bảng 4.2. Các thuộc tính của dữ liệu BankLoan 52 Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan 53 Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery 60 Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) 62 Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 2) 64 vii DANH MỤC CÁC HÌNH Hình 1.1. Quá trình phát hiện tri thức 1 Hình 2.1. Tập các điểm cắt trên thuộc tính a 19 Hình 2.2. Tập các điểm cắt cực tiểu 22 Hình 2.3. Cây tìm kiếm IT-tree 26 Hình 2.4. Cây tìm kiếm tập phổ biến với minSupp=50% 27 Hình 4.1. Mô hình xây dựng ứng dụng 54 Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery 55 Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1) 56 Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) 57 viii DANH MỤC CÁC TỪ VIẾT TẮT AIERIM Attributes Importance Degree Based Enhanced Rule Importance Measure CBA Classification Based on Associations CSDL Cơ Sở Dữ Liệu ERIM Enhanced Rule Importance Measure IT-pair Itemset-Tidset pair IT-tree Itemset-Tidset tree KDD Knowledge Discovery in Database RIM Rule Importance Measure RAM Rule-as-Attribute Measure WAERIM Weight Average Based Enhanced Rule Importance Measure [...]... t Các ph n ti p theo c a lu n văn ư c t ch c như sau: Chương 2: Ki n th c n n t ng v thuy t t p thô và ki n th c cơ b n v lu t k t h p, ng d ng thuy t t p thô vào quá trình phát sinh lu t Chương 3: Các phương pháp ánh giá lu t s d ng các m ts o d a trên cơ s thuy t t p thô và Chương 4: Cài t các năng ánh giá lu t gi a các xu t hai o, gi i thi u o m i o, dùng các ngu n d li u th c t o này Cu... sánh kh năng ánh giá lu t gi a 2 o lu n văn xu t v i các o h u ích và v i các o mà nhóm tác gi 4 Jiye Li ã xu t b ng các ng d ng th c t trên các ngu n d li u t UCI và trên ngu n d li u cho vay ngân hàng (BankLoan) 1.5 TÓM L I Lu n văn gi i thi u các cách ti p c n s thuy t t p thô: o RIM, ánh giá lu t k t h p d a trên cơ o RAM, o AIERIM và ch ng minh hi u qu o ERIM, o WAERIM, ánh giá lu t c a các... −{q} ( D) = 1 ) R = R − {q} } } return R 17 2.1.4 T p thô và r i r c hóa d li u 2.1.4.1 Gi i thi u R i r c hoá d li u là quá trình ti n x d li u có vai trò quan tr ng trong lĩnh v c khai phá d li u ây là quá trình ánh x các giá tr s liên t c vào các giá tr kho ng nh t nh tăng t ng quát c a thông tin, ơn gi n hoá vi c bi u di n cũng như x trên các giá tr s t o i u ki n thu n l i cho quá trình tìm... 5 KI N TH C CƠ B N Chương 2 2.1 THUY T T P THÔ thuy t t p thô( Rough Set Theory) Pawlak[12] vào ư c phát tri n b i Zdzislaw u nh ng năm 1980 ư c xem như m t cách ti p c n m i phát hi n tri th c và nó t o thành m t cơ s v ng ch c cho các ng d ng khai phá d li u, v n n i b t c a thuy t t p thô là vi c ưa ra ý tư ng gi i quy t tính mơ h và không ch c ch n c a h thông tin Thêm vào ó, vi c s d ng... tính rút g n n u nó là m t ph n t c a rút g n Ví d : V i các rút g n tìm ư c trong ví d trên, “ au cơ” và “ au hai thu c tính rút g n Theo thuy t t p thô, d a trên b ng quy t u” là nh trong có ư c mô hình phân l p t t cho thu c tính “Cúm”, chúng ta c n B ng2.2, thông tin c a thu c tính “Thân nhi t” cùng v i thông tin c a thu c tính “ au u” ho c “ au cơ”, hai thu c tính “ au u” và “ au cơ” không... MHS(S) = {H1={1, 3, 4}, H2={2, 4}} Vi c tìm minimal hiting set ví d này có th xem như là v n c a giáo viên và l p h c Có t t c 5 l p h c {S1, S2, S3, S4, S5} và 4 giáo viên 1, 2, 3, 4 Giáo viên 1, 2, 3, 4 có th d y l p S1, giáo viên 1, 2, 4 có th d y l p S2, giáo viên 1, 2 có th d y l p S3, Ta mu n tìm s giáo viên ít nh t mà có th d y t t c các l p, ó chính là tìm minimal hitting set, ví d này ta thu... t k t h p m , lu t k t h p nhi u m c, lu t k t h p ti p c n theo hư ng t p thô, lu t k t h p v i các thu c tính ư c ánh tr ng s … Lu n văn này t p trung vào k thu t phát hi n lu t k t h p theo hư ng ti p c n t p thô trong quá trình khai phá d li u, ti p theo ó gi i thi u nh ng k thu t ánh giá lu t d a trên cơ s thuy t t p thô tr ng và có ích rút trích nh ng lu t quan tri th c phát hi n ư c th t s... 2 2 1 d 1 0 0 1 0 1 1 19 T p nh ng giá tr có th có c a hai thu c tính a và b ư c nh nghĩa b i: Va = [0, 2); Vb = [0, 4) T p nh ng giá tr c a hai thu c tính a và b có ư c t U: a(U) = {0.8, 1, 1.3, 1.4, 1.6}; b(U) = {0.5, 1, 2, 3} Các kho ng giá tr có ư c t nh ng t p giá tr trên: a : [0.8, 1); [1, 1.3); [1.3, 1.4); [1.4, 1.6) b : [0.5, 1); [1, 2); [2, 3) i mc t ư c giá tr thu c Va nh nghĩa là c p (a,... các thu c tính i u ki n có th x p các i tư ng ui và uj vào các l p tương ương khác nhau theo phân ho ch trên U 11 i v i thu c ó N u mij = φ thì b ng quy t nh là không nh t quán (có hai i tư ng ui và uj b ng nhau trên C nhưng khác nhau trên D) Giá tr λ hàm ý r ng c p i tư ng ui và uj không phân bi t trên t p thu c tính quy t nh N u R là m t rút g n thì v i m i a, b ∈ R ta có Dis({a}) ≠ Dis({b}) Ví d :... quá trình khai phá d li u ã lo i b ư c nh ng thông tin dư th a, thi u chính xác Rút g n chính là t p các thu c tính quan tr ng và c n thi t nh t trong CSDL, do ó vi c tìm các rút g n hoàn toàn t nhiên và c n thi t Chương này trình bày v các khái ni m trong thuy t t p thô và các thu t toán tìm các rút g n và lõi 2.1.1 Các khái ni m 2.1.1.1 H thông tin H thông tin (Information System) là m t c p (U, . về lý thuyết tập thô và kiến thức cơ bản về luật kết hợp, ứng dụng lý thuyết tập thô vào quá trình phát sinh luật. Chương 3: Các phương pháp đánh giá luật sử dụng các độ đo, giới thiệu một số. những kỹ thuật đánh giá luật dựa trên cơ sở lý thuyết tập thô để rút trích những luật quan trọng và có ích để tri thức phát hiện được thật sự có ý nghĩa cho ứng dụng. 1.2. LUẬT KẾT HỢP Luật. LIỆU 1 1.2. LUẬT KẾT HỢP 2 1.3. LÝ THUYẾT TẬP THÔ 2 1.4. ĐÁNH GIÁ LUẬT 3 1.5. TÓM LẠI 4 CHƯƠNG 2. KIẾN THỨC CƠ BẢN 5 2.1. LÝ THUYẾT TẬP THÔ 5 2.1.1. Các khái niệm 5 2.1.2. Thuật toán tìm

Ngày đăng: 12/04/2014, 18:21

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan