Luật kết hợp mờ và ứng dụng đối với một số bài toán dự báo

i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng hướng dẫn trực tiếp TS Vũ Vinh Quang Mọi trích dẫn sử dụng báo cáo ghi rõ nguồn tài liệu tham khảo theo qui định Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Thái Nguyên, ngày 27 tháng năm 2014 Tác giả Bùi Văn Thắng ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iii DANH MỤC BẢNG iv DANH MỤC HÌNH VẼ v MỞ ĐẦU CHƯƠNG MỘT SỐ KIẾN THỨC CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu 1.1.1 Giới thiệu 1.1.2 Khái niệm khai phá liệu 1.2 Một số hướng nghiên cứu khai phá liệu 1.2.1 Một số hướng nghiên cứu 1.2.2 Các dạng liệu khai phá 1.3 Nhiệm vụ khai phá liệu 1.3.1 Phân lớp (Classification) 10 1.3.2 Hồi quy (Regression) 10 1.3.3 Khai phá luật kết hợp (Association rule) 10 1.3.4 Gom nhóm (Clustering) 10 1.3.5 Tổng hợp (Summarization) 11 1.3.6 Mô hình ràng buộc (Dependency modeling) 11 1.3.7 Dò tìm biến đổi độ lệch (Change and Deviation Dectection) 11 1.4 Bài toán khai phá luật kết hợp 11 1.4.1 Bài toán 11 1.4.2 Một số thuật toán 16 1.5 Logic mờ 24 1.5.1 Định nghĩa tập mờ 24 1.5.2 Độ cao, miền xác định miền tin cậy tập mờ 27 1.5.3 Các phép toán logic tập mờ 27 1.5.4 Biến ngôn ngữ giá trị 28 1.6 Kết luận 30 CHƯƠNG KHAI PHÁ LUẬT KẾT HỢP MỜ 31 2.1 Rời rạc hóa thuộc tính dựa vào tập mờ 31 2.1.1 Luật kết hợp với thuộc tính số 31 2.1.2 Các phương pháp rời rạc hóa 31 2.2 Luật kết hợp mờ 34 2.2.1 Rời rạc hóa thuộc tính mờ 34 2.2.2 Luật kết hợp mờ 36 2.3 Thuật toán khai phá luật kết hợp mờ dựa thuật toán Apriori 38 2.4 Khai phá luật kết hợp mờ dựa thuật toán Fp-Growth 41 2.4.1 Thuật toán xây dựng CUFP-Tree 41 2.4.2 Thuật toán tìm tập phổ biến FP-Growth dựa cậy CUFP-Tree 42 2.5 Ví dụ thử nghiệm 43 2.5.1 Xây dựng CUFP-Tree 43 2.5.2 Thuật toán tìm tập phổ biến 46 2.6 Kết luận 47 CHƯƠNG ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG MÔ HÌNH DỰ BÁO 49 3.1 Mô hình số toán dự báo 49 3.1.1 Giới thiệu 49 3.1.2 Một mô hình dự báo gì? 50 3.1.3 Các kỹ thuật mô hình hóa dự báo phổ biến 52 3.2 Xây dựng luật kết hợp mờ mô hình dự báo 56 3.3 Một số kết thực nghiệm 56 3.3.1 Môi trường thử nghiệm 56 3.3.2 Kết thử nghiệm với CSDL gồm 20 giao dịch 61 3.3.3 Kết thử nghiệm 62 PHẦN KẾT LUẬN 63 TÀI LIỆU THAM KHẢO 64 iii CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CNTT Công nghệ thông tin CSDL Cơ sở liệu KPDL Khai phá liệu KDD Knowledge Discovery in Databases ItemSet Item Tập mục Mục iv DANH MỤC BẢNG Bảng 1.1: Cơ sở liệu giao tác 12 Bảng 1.2: Kết thuật toán Apriori 17 Bảng 1.3: Những biến đổi liệu FP-Growth 20 Bảng 2.1: CSDL thống kế dân số 10 gia đình [21] 32 Bảng 2.2: Rời rạc hóa thuộc tính số rời rạc hữu hạn thuộc tính hạng mục 32 Bảng 2.3: Rời rạc hóa thuộc tính số “Tuổi" 33 Bảng 2.4: Bảng ký hiệu sử dụng thuật toán khai phá luật kết hợp mờ 39 Bảng 2.5: Bảng ký hiệu sử dụng thuật toán 41 Bảng 2.6: Cơ sở liệu mờ 43 Bảng 2.7: Kết sau thực Bước 43 Bảng 2.8: Header_Table 44 Bảng 2.9: CSDL mờ sau cập nhật 44 Bảng 2.10: Tập phổ biến 47 Bảng 3.1: Giao tác ví dụ CSDL FAM95 57 Bảng 3.2: CSDL giao tác Bảng 3.1 sau mờ hóa 58 v DANH MỤC HÌNH VẼ Hình 1.1: Quá trình khai phá tri thức CSDL Hình 1.2: FP-tree liệu Bảng 1.1 21 Hình 1.3: Thành phần FP-tree 22 Hình 1.4: Hàm thuộc tập kinh điển A 24 Hình 1.5: Hàm thuộc tập mờ B 25 Hình 1.6: Hàm thuộc tập mờ C 25 Hình 1.7: Hàm thuộc F(x) có mức chuyển đổi tuyến tính 26 Hình 1.8: Mô tả giá trị ngôn ngữ tập mờ 28 Hình 2.1: Hàm thuộc tập mờ “Tuổi_trẻ”, “Tuổi_trung_niên”, “Tuổi_già" 34 Hình 2.2: Kết xử lý giao dịch 45 Hình 2.3: Kết xử lý giao dịch 46 Hình 2.4: Cây CUFP-TREE 46 Hình 3.1: Hai khách hàng đặc tính đầu vào họ 51 Hình 3.2: Dữ liệu khách hàng gồm đặc tính đầu vào kết đầu cung cấp cho mô hình dự báo trình huấn luyện 51 Hình 3.3: Khung nhìn hai chiều siêu phẳng tối ưu chia tách liệu vec tơ hỗ trợ 53 Hình 3.4: Khung nhìn hai chiều kết việc phân cụm tập liệu đầu vào thành hai cụm: hình tam giác màu xanh hình vuông màu đỏ 54 Hình 3.5: Mạng nơ-ron hướng thuận với tầng đầu vào, tầng ẩn tầng đầu 55 Hình 3.6: Giao diện chương trình, 20 giao dịch mờ 61 Hình 3.7: Các tập phổ biến tìm 61 Hình 3.8: Luật kết hợp khai phá 62 Hình 3.9: Kết thử nghiệm với hai thuật toán Apriori mờ thuật toán CUFP 62 MỞ ĐẦU Đặt vấn đề Khai phá liệu lĩnh vực nghiên cứu quan trọng lý thuyết sở liệu, có nhiều ứng dụng đời sống xã hội Mục đích nhằm phát thông tin mới, luật từ sở liệu có hay cách tổng quát từ kho liệu Rất nhiều lĩnh vực ứng dụng thực tiễn sử dụng công cụ khai phát liệu tìm kiếm tri thức Trong lý thuyết khai phá liệu, khai phá luật kết hợp quan tâm nghiên cứu nhiều giới Một số hướng nghiên cứu chuyên gia công nghệ thông tin tập chung nghiên cứu là: nghiên cứu thiết kế hệ mờ cho ứng dụng cụ thể hệ trợ giúp định, hệ điều khiển dựa hệ tri thức luật, hệ phân loại dựa hệ tri thức luật, hệ phân loại dựa lập luận dựa hệ luật ứng dụng lĩnh vực như: kinh doanh, thị trường chứng khoán dự đoán thị trường, công nghệ sinh học, giáo dục đào tạo, … Một số hướng nghiên cứu khai phá liệu - Luật kết hợp nhị phân: Đây hướng nghiên cứu luật kết hợp Thuật toán tiêu biểu Apriori - Luật kết hợp có thuộc tính số thuộc tính hạng mục: Nghiên cứu hệ CSDL có thuộc tính số thuộc tính hạng mục cách rời rạc hóa liệu cho thuộc tính số để chuyển chúng thuộc tính nhị phân - Luật kết hợp mờ: Phương pháp rời rạc hóa liệu có thuộc tính số thuộc tính hạng mục gặp phải vấn đề “điểm biên gãy” Để khắc phục điều này, nhà nghiên cứu đề xuất sử dụng lý thuyết tập mờ xây dựng luật kết hợp dạng mờ - Luật kết hợp có trọng số: Sử dụng phương pháp tính độ hỗ trợ cho tập mục dựa trọng số tập mục Ngoài ra, số hướng nghiên cứu: khai phá luật kết hợp song song, khai phá luật kết hợp nhiều mức, luật kết hợp tiếp cận theo hướng tập thô, … Luận văn tập trung nghiên cứu vào khai phá Luật kết hợp mờ ứng dụng toán dự báo Hướng nghiên cứu đề tài - Nghiên cứu lý thuyết tập mờ - Nghiên cứu khai phá liệu khai phá liệu mờ CSDL Tìm hiểu số thuật toán khai phá liệu: Apriori mờ, thuật toán FP Growth, thuật toán biểu diễn liệu giao dịch mờ dựa FP-Tree - Cài đặt thử nghiệm số thuật toán khai phá liệu mờ thử nghiệm số liệu Đánh giá kết sau thử nghiệm Đối tượng nghiên cứu - Nghiên cứu phương pháp luận cho phép phát tri thức dạng luật mờ, luật kết hợp mờ, luật mờ với thuộc tính có trọng số, … từ kho liệu - Cơ sở lý thuyết việc nghiên cứu lập luận xấp xỉ dựa lý thuyết tập mờ, phương pháp tính toán thông tin mờ, đánh giá phương pháp để lấy định - Ứng dụng luật kết hợp mờ số toán dự báo Kết đạt - Tìm hiểu thuật toán nén liệu giao dịch mờ dựa FP Tree, khai phá tập phổ biến dựa xây dựng Đây hướng nghiên cứu mới, giúp làm giảm thời gian khai phá tập phổ biến nhiều so với thuật toán Apriori mờ - Cài đặt thử nghiệm thuật toán Apriori mờ thuật toán khai phá luật kết hợp mờ dựa thuật toán Fp-Growth - Thử nghiệm hai thuật toán với số liệu, so sánh kết thu sau thử nghiệm Bố cục luận văn Phần mở đầu Chương 1: Một số kiến thức khai phá liệu Chương 2: Khai phá luật kết hợp mờ Chương 3: Ứng dụng khai phá liệu mô hình dự báo Kết luận Tài liệu tham khảo CHƯƠNG MỘT SỐ KIẾN THỨC CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm khai phá liệu 1.1.1 Giới thiệu Khai phá liệu (data mining) trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu có Đây trình cốt lõi khai phá tri thức từ CSDL Đánh giá mẫu biểu diễn tri thức Tri thức Khai phá liệu Mẫu liệu Lựa chọn biến đổi Lọc tích hợp Dữ liệu thực Kho liệu Dữ liệu để khai phá Hình 1.1 Quá trình khai phá tri thức CSDL Quá trình khai phá liệu trải qua bước sau: Bước 1: Chuẩn bị liệu Do liệu thu thập từ nhiều nguồn khác nên có sai sót, dư thừa trùng lặp Vì bước chuẩn bị liệu bước quan trọng Dữ liệu sau bước chuẩn bị nhỏ hơn, xử lý nhanh Chuẩn bị liệu bao gồm công đoạn sau: - Lọc liệu (Data cleaning): Loại bỏ liệu nhiễu, liệu không thích hợp - Tích hợp liệu (Data integration): Tích hợp liệu từ nguồn khác 51 Hình 3.1: Hai khách hàng đặc tính đầu vào họ Giả sử mô hình dự đoán học tập có giám sát, thể Hình 3.2, tất liệu khách hàng cung cấp cho mô hình dự báo trình huấn luyện Đầu vào gồm đặc tính có từ CSDL nhật ký (liên quan đến hài lòng, nhân học, …) cho khách hàng kết liên quan Đầu vào cung cấp thông tin cho mô hình dự báo biết có hay ghi liệu đại diện cho khách hàng, người bỏ không bỏ Lý mô hình học khác biệt, hay mẫu, hai nhóm: khách hàng hài lòng có khách hàng bỏ Hình 3.2: Dữ liệu khách hàng cung cấp cho mô hình Hình 3.2 cho thấy CSDL nhật ký cung cấp thông tin đầu vào gồm đặc tính đầu vào kết đầu trình huấn luyện Sau xây dựng mô hình dự báo, cần phải xác nhận tính hợp lệ cho Xác nhận hợp lệ cố gắng trả lời câu hỏi hai mức: “Nó có làm việc không?” có, “Nó xác đến mức nào?” Nếu câu trả lời cho câu hỏi rõ ràng “có” câu trả lời cho câu hỏi thứ hai xác cao, biết mô 52 hình làm việc hay không tổng quát hóa tốt Khi mô hình dự báo sẵn sàng cho khai thác, sử dụng Hiện có tiêu chuẩn tên PMML (Ngôn ngữ đánh dấu mô hình dự báo) cho phép mô hình dự báo dễ dàng di chuyển hệ thống khác Với PMML, sử dụng ứng dụng IBM SPSS Statistics để xây dựng xác nhận hợp lệ mô hình dự báo, lưu trữ tệp định dạng kiểu PMML Sau triển khai, sử dụng mô hình khách hàng bỏ để theo dõi tất hoạt động khách hàng có Một mô hình dự báo tốt tổng quát hóa tri thức để dự đoán nguy bỏ khách hàng khách hàng mà mô hình dự báo chưa gặp trước Hình 3.3 cho thấy liệu khách hàng cung cấp cho mô hình để dự đoán tình trạng rời bỏ khách Nếu mô hình dự đoán nhận thấy nguy khách hàng rời bỏ cao với khách hàng cụ thể, thông tin hỗ trợ cho nhà quản lý đưa định kinh doanh phù hợp để khắc phục nguy Khi mà khách hàng cụ thể lại trở nên hài lòng với sản phẩm dịch vụ bạn, nguy giảm bớt, mô hình dự đoán không đưa dấu hiệu nguy khách hàng bỏ Hình 3.3 Mô hình dự đoán nguy rời bỏ khách hàng 3.1.3 Các kỹ thuật mô hình hóa dự báo phổ biến Hiện nay, có nhiều kỹ thuật dự báo để xây dựng mô hình Các hệ thống nhà cung cấp khác hỗ trợ kỹ thuật khác nhau, môi trường xây dựng mô hình mã nguồn mở sản phẩm thương mại hỗ trợ nhiều kỹ thuật khác Có số kỹ thuật dành riêng cho lớp toán cụ thể, số khác có tính tổng quát sử dụng cho nhiều lớp ứng dụng khách Ví dụ, máy vec tơ hỗ trợ (Support Vector Machine) nằm loại Một SVM ánh xạ vec tơ liệu đầu vào tới không gian có số chiều cao hơn, “siêu phẳng tối ưu” chia tách liệu xây dựng Có hai siêu 53 phẳng (hyperplane) song song xây dựng bên siêu phẳng Hình 3.4 ví dụ siêu phẳng tối ưu chia tách hai loại đối tượng (hình tam giác hình vuông) Siêu phẳng chia tách tối ưu siêu phẳng làm tăng tối đa khoảng cách hai siêu phẳng song song Khoảng cách hai siêu phẳng lớn mô hình giả định xác Các điểm liệu nằm hai siêu phẳng song song xác định khoảng cách lớn gọi vec tơ hỗ trợ Hình 3.4: Siêu phẳng tối ưu chia tách đối tượng vec tơ hỗ trợ Các SVM, mạng nơ-ron mô hình hồi quy logic, kỹ thuật tổng quát mạnh Mặc dù chúng khác mặt toán học tạo kết tương đương Các định kỹ thuật mô hình hóa dự báo tổng quát bật khả dự báo Vì chúng dễ sử dụng dễ hiểu, nên định kỹ thuật mô hình hóa dự báo sử dụng phổ biến Các kỹ thuật phân cụm có khả phân cụm liệu đầu vào theo mức độ giống Hình 3.5 cho thấy ví dụ liệu đầu vào chia thành hai cụm Trong liệu cụm mô tả hình tam giác màu xanh cây, liệu cụm thứ hai mô tả hình vuông màu đỏ 54 Hình 3.5: Kết cụm tập liệu thành hai cụm Mặc dù kỹ thuật dự báo có ưu nhược điểm khác nhau, độ xác mô hình phụ thuộc nhiều vào liệu thô đầu vào đặc tính sử dụng để huấn luyện mô hình dự báo Như đề cập trên, việc xây dựng mô hình đòi hỏi nhiều việc phân tích liệu xử lý liệu Thông thường, từ hàng trăm trường liệu thô ban đầu, chọn tập trường thực xử lý trước trường trước sử dụng chúng cho mô hình hóa dự báo Theo cách này, mô hình dự báo tốt thường phụ thuộc nhiều vào việc xử lý tốt liệu so với kỹ thuật sử dụng để huấn luyện mô hình Điều nghĩa kỹ thuật dự báo không quan trọng Nếu sử dụng sai kỹ thuật chọn tập tham số đầu vào sai, liệu tốt cho kết dự báo sai Với mạng nơ-ron, dùng với tất hình dạng biểu mẫu Việc lựa chọn cấu trúc mạng quan trọng để xây dựng mô hình dự báo tốt Như thể Hình 3.6, mạng nơ-ron truyền thẳng (feed-forward) có lớp đầu vào, với số nút số lượng trường đầu, lớp ẩn tầng đầu (trong toán hồi quy tầng đầu tạo nút đại diện cho trường cần dự báo) Mặc dù tầng đầu vào đầu ra, mạng nơron cấu hình với số lượng tầng ẩn nút ẩn tùy ý, vấn đề chọn cấu trúc mạng nơ-ron nút ẩn, không học hàm ánh xạ trường đầu vào đích Nếu có nhiều nút ẩn cấu trúc mạng 55 phức tạp bị “over fit” Có nghĩa là, học toàn liệu đầu vào, dự báo kiện tương lai Hình 3.6: Mạng nơ-ron hướng thuận với tầng đầu vào, tầng ẩn tầng đầu Các kỹ thuật phân cụm đòi hỏi cung cấp cho mô hình phân cụm số lượng cụm trước huấn luyện Trong trường hợp này, số lượng cụm nhỏ, mô hình không thấy khác biệt quan trọng liệu đầu vào Mặt khác, số lượng cụm lớn, bỏ sót nét tương đồng quan trọng Trong ví dụ thể Hình 3.6 số lượng cụm thiết lập ba Một mô hình dự báo đồng thời sử dụng hỗn hợp kỹ thuật mô hình hóa khác Tức kết hợp nhiều mô hình với thành mô hình dự báo Đầu mô hình dự báo tổng hợp từ đầu mô hình đơn lẻ mà chúng kế thừa ưu điểm kỹ thuật khác 56 Hình 3.7: Mô hình dự báo hỗn hợp Hình 3.7 biểu diễn mô hình dự báo hỗn hợp từ nhiều mô hình với kỹ thuật khác Đầu tính toán phép nội suy, max (min) trung bình có trọng số 3.2 Xây dựng luật kết hợp mờ mô hình dự báo Dự báo lớp toán rộng phức tạp Có thể dự báo vấn đề lĩnh vực kỹ thuật hay lĩnh vực kinh doanh dịch vụ Được sử dụng kết hợp với kỹ thuật khai phá liệu khác, dự báo gồm có việc phân tích xu hướng, phân loại, so khớp mẫu mối quan hệ Bằng cách phân tích kiện cá thể khứ, đưa dự báo kiện tương lai Trong luận văn này, sử dụng kỹ thuật khai phá liệu để thực toán dự báo 3.3 Một số kết thực nghiệm 3.3.1 Môi trường thử nghiệm Dữ liệu thử nghiệm lấy từ CSDL FAM95 [21] Một tập tin ASCII bao gồm 63.756 hồ sơ (một ghi cho gia đình), ghi có 23 thuộc tính Lựa chọn thuộc tính để thử nghiệm gồm: Age, Hours, IncFam, IncHead, Sex Với Age tuổi người dân, Hours số làm việc tuần, IncFam: thu nhập gia 57 đình, IncHead thu nhập người đứng đầu gia đình, Sex giới tính chủ gia đình Các thuộc tính: Age, Hours, IncFam, IncHead thuộc tính mờ, thuộc tính Sex nhận giá trị (nữ) (nam) Số lượng ghi 30000 TID AGE HOURS INCHEAD INCFAM SEX 28 24 24963 24963 54 35 48000 152170 72 15873 20322 52 37 14500 30505 31 36 56060 84145 40 40 34010 34020 52 66918 76249 29 25407 25407 45 32 14680 23680 10 36 56 41354 41373 11 72 14405 27610 12 61 6157 14884 13 43 40 19182 26364 14 25 40 16100 16100 15 36 20 11203 47053 16 27 42 19445 19445 17 23 48 25005 42010 18 48 40 47404 92808 19 45 40 40020 61040 20 29 33 16555 51610 Bảng 3.1: Giao tác ví dụ CSDL FAM95 Ký hiệu: A1: Age_Y, A2: Age_M, A3: Age_O, B1: HOURS_L, B2: HOURS_M, B3: HOURS_H, C1: INCHEAD_L, C2: INCHEAD_M, C3: INCHEAD_H, D1: INCFAM_L, D2: INCFAM_M, D3: INCFAM_H, E1: SEX_M, E2: SEX_FM 58 TID 10 11 12 13 14 15 16 17 18 19 20 A1 0.7 0 0.4 0 0.6 0 0 0.8 0 0.6 A2 0.3 0 0.6 0.4 0.5 0 0.7 0.2 0.2 0.5 0.4 A3 B1 B2 B3 C1 C2 D1 D2 D3 E1 0 0 0.5 0.5 1 0 0.2 0.8 0 1 1 0 0 0.73 0.27 1 1 0 0.22 0.78 0 0 0 1 0 0.01 0.9 0.05 0.95 1 0 0 0 1 0 0.08 0.04 0.48 0.52 0.5 0.3 0.7 0 0.57 0.43 0 0.86 0.14 0.86 0.14 1 0 0 0.37 0.63 1 0 0 0 0.3 1 0 0.43 0.57 0 1 0 0.95 0.06 0 0 0 0.29 0.71 0 0.8 0.2 0 0.78 0.22 0 0 0.2 0.8 0.08 0 0.8 0.2 0.8 0 0.26 0.74 0 1 0.5 0 0 1 0.2 0.8 0 0 Bảng 3.2: CSDL giao tác Bảng 3.1 sau mờ hóa CSDL sau mờ hóa lưu trữ dạng file text có dạng sau: A1:0.7, A2:0.3, B1:1, C1:1, D1:0.5, D2:0.5, E1:1 A3:1, B2:1, C2:0.2, C3:0.8, D3:1, E1:1 A3:1, B1:1, C1:1, D1:0.73, D2:0.27, E1:1 A3:1, B2:1, C1:1, D1:0.22, D2:0.78, E1:1 A1:0.4, A2:0.6, B2:1, C3:1, D3:1, E1:1 A2:1, B2:1, C1:0.01, C2:0.9, D1:0.05, D2:0.95, E1:1 A3:1, B1:1, C3:1, D3:1, E1:1 A1:0.6, A2:0.4, B1:1, C1:0.08, C2:0.04, D1:0.48, D2:0.52, E1:1 A2:0.5, A3:0.5, B1:0.3, B2:0.7, C1:1, D1:0.57, D2:0.43, E1:1 A2:1, B3:1, C2:0.86, C3:0.14, D2:0.86, D3:0.14, E1:1 A3:1, B1:1, C1:1, D1:0.37, D2:0.63, E1:1 E2 0 0 0 0 0 1 1 0 59 A3:1, B1:1, C1:1, D1:1, E2:1 A2:0.7, A3:0.3, B2:1, C1:1, D1:0.43, D2:0.57, E1:1 A1:1, B2:1, C1:1, D1:0.95, D2:0.06, E2:1 A2:1, B1:1, C1:1, D2:0.29, D3:0.71, E2:1 A1:0.8, A2:0.2, B2:0.8, B3:0.2, C1:1, D1:0.78, D2:0.22, E2:1 A1:1, B2:0.2, B3:0.8, C1:0.08, D2:0.8, D3:0.2, E1:1 A2:0.2, A3:0.8, B2:1, C2:0.26, C3:0.74, D3:1, E1:1 A2:0.5, A3:0.5, B2:1, C2:1, D3:1, E1:1 A1:0.6, A2:0.4, B1:0.2, B2:0.8, C1:1, D3:1, E2:1 Các hàm thuộc cho thuộc tính sau: Hàm thuộc cho thuộc tính Tuổi: Hàm thuộc cho thuộc tính Hours: 60 Hàm thuộc cho thuộc tính IncFam: Hàm thuộc cho thuộc tính IncHead: Dư liệu sau mờ hóa lưu file text có dạng sau: a:0.8, b:0.92, e:0.721, f:0.718 b:0.9, e: 0.719, f:0.723 c: 0.87, d:0.872 b:0.9, e:0.723, f: 0.51 c: 0.875, d:0.871, e:0.056 a: 0.012, c:0.876, d:0.82 61 3.3.2 Kết thử nghiệm với CSDL gồm 20 giao dịch Hình 3.8: Giao diện chương trình, 20 giao dịch mờ Hình 3.9: Các tập phổ biến tìm 62 Hình 3.10: Luật kết hợp khai phá 3.3.3 Kết thử nghiệm Thử nghiệm thuật toán trình bày mục 2.4 2.3 ngôn ngữ lập trình C# chạy thử nghiệm máy tính có cấu sau: Intel Core2 Duo CPU T5800 @ 2GHz, RAM 2GB Hình 3.11: Kết thử nghiệm với hai thuật toán Apriori mờ thuật toán CUFP 63 PHẦN KẾT LUẬN Những vấn đề giải luận văn này: Trong chương một, luận văn trình bày nội dụng khai phá liệu, phát biểu toán khai phá luật kết hợp trình bày số nội dung logic mờ Trong chương hai, luận văn trình bày khai phá luật kết hợp mờ: Rời rạc hóa thuộc tính mờ Trong chương trình bày hai thuật toán khai phá luật kết hợp mờ: Thuật toán dựa thuật toán Apriori, thuật toán thứ hai gọi CUFP cho phép nén liệu giao dịch dưa (dựa thuật toán FP Tree) Với thuật toán CUFP cho phép thực tìm tập phổ biến nhanh thuật toán thứ Nội dung trọng tâm chương cung cấp cho người đọc nhìn chung lĩnh vực nghiên cứu đề tài Trong chương 3, luận văn trình bày số mô hình dự báo, ứng dụng luật kết hợp vào toán dự báo Thực cài đặt hai thuật toán trình bày chương Kết thực nghiệm CSDL FAM95 cho thấy thuật toán CUFP cho kết nhanh thuật toán dựa Apriori Trong trình thực luận văn thời gian trước đó, cố gắng tập trung nghiên cứu toán tham khảo nhiều tài liệu liên quan Tuy nhiên, tồn nhiều hạn chế việc nghiên cứu ứng dụng thuật toán, cần tiếp tục thử nghiệm với CSDL có kích thước lớn hơn, đầy đủ hơn; Nghiên cứu lý thuyết cải tiến thuật toán để đảm bảo thời gian tính nhanh Rất mong nhận góp ý chuyên môn cách trình bày luận văn từ thầy giáo, đồng nghiệp 64 TÀI LIỆU THAM KHẢO [1] Ha Quang Thụy, Phan Xuân Hiếu, Đoan Sơn, Nguyễn Trí Thanh, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam, 2009 [2] Nguyễn Thanh Thủy, Khai phá liệu, Nhà xuất Kỹ thuật ứng dụng, 2001 [3] Rakesh Agrawal, Tomasz Imielinski, and Arun Swami Mining association rules between sets of items in large databases In Proc of theACM SIGMOD Conference on Management of Data, pages 207-216, Washington, D.C., May 1993 [4] Rakesh Agrawal and Ramakrishnan Srikant Fast Algorithms for Mining Association Rules In Proc of the 20th International Conference on Very Large Databases, Santiago, Chile, Sep 1994 [5] Agrawal R., Srikant R,"Fast algorithms for mining association rules”, In Proc 20th Int Conf Very Large Data Bases,VLDB, J B Bocca, M Jarke, and C Zaniolo, Eds Morgan Kaufmann, pp 487-499, 1994 [6] Savesere A., Omiecinski E., Navathe S., “An efficient algorithm for mining association rules in large databases”, In Proceedings of 20th International Conference on VLDB, pp.432-444, 1995 [7] Alan Rea , Data Mining - An Introduction The Parallel Computer Centre, Nor of The Queen's University of Belfast, 1995 [8] Fayyad, Piatetsky-Shapiro, Smyth , From Data Mining to Knowledge Discovery: An Overiew In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996 [9] Han J., Pei H., Yin Y, “Mining Frequent Patterns without Candidate Generation”, In: Proc Conf on the Management of Data (SIGMOD'00, Dallas, TX) ACM Press, New York, NY, USA, pp.1-12, 2000 [10] Attila Gyenesei A Fuzzy Approach for Mining Quantitative Association Rules Turku Centre for Computer Science, TUCS Technical Reports, No 336, March 2000 [11] Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann, 2006 65 [12] Gregory Piatetsky-Shapiro,Data MiningCourse (Power Point Version), 2006 [13] R J Miller and Y Yang Association Rules over Interval Data Department of Computer & Information Science, Ohio State University, USA [14] Ramakrishnan Srikant and Rakesh Agrawal Mining Quantitative Association Rules in Large Relational Tables IBM Almaden Research Center, San Jose, CA 95120 [15] Doug Burdick, Manuel Calimlim, and Johannes Gehrke MAFIA: A Maximal Frequent Itemset Algorithmfor Transactional Databases Department of Computer Science, Cornell University [16] Ramakrishnan Srikant and Rakesh Agrawal Mining Quantitative Association Rules in Large Relational Tables IBM Almaden Research Center, San Jose, CA 95120 [17] Jian Pei, Jiawei Han, and Runying Mao CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets Intelligent Database Systems Research Lab, School of Computing Science, Simon Fraser University, Burnaby, B.C., Canada [18] DL Olson, Yanhong Li, “Mining Fuzzy Weighted Association Rules”, Proceedings of the 40th Hawaii International Conference on System Sciences, 2007 [19] Chun-Wei Lin, Tzung-Pei Hong, and Wen-Hsiang Lu, Fuzzy Data Mining Based on the Compressed Fuzzy FP-trees, Fuzzy-IEEE 2009, Korea, August 20-24 2009 [20] Chun-Wei Lin, Tzung-Pei Hong, A new mining approach for uncertain databases using CUFP trees, Expert Systems with Applications 39 (2012) 4084–4093 [21] Cơ sở liệu thử nghiệm FAM95 http://kdm.first.flinders.edu.au/IDM/data.html [22] https://www.ibm.com/developerworks/vn/library/data/2013Q1/ba-data-miningtechniques [23] https://www.ibm.com/developerworks/vn/library/12/ba-predictive-analytics2 [...]... đề xuất luật kết hợp mờ nhằm khắc phục những hạn chế trên và chuyển luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với người sử dụng Một ví dụ về dạng luật này: “Ho khan = 'yes' AND sốt cao AND đau cơ = 'yes' AND khó thở ='yes' => Bị nhiễm SARS = 'yes', với độ hỗ trợ 4% và độ tin cậy 85%” Trong luật trên, điều kiện sốt cao ở vế trái của luật là một thuộc tính đã được mờ hóa - Luật kết hợp nhiều... hữu ích vẫn chưa được tìm ra 1.4.2 Một số thuật toán cơ bản 1.4.2.1 Thuật toán Apriori Thuật toán Apriori được Agrawal và Srikant phát biểu năm 1994 [3] Apriori là thuật toán phổ biến nhất để tìm luật kết hợp, được coi là một sự cải tiến lớn trong lịch sử khai phá luật kết hợp vì đã vượt xa tầm của các thuật toán quen thuộc trong lĩnh vực này Thuật toán dựa trên một nhận xét đơn giản là bất kỳ tập... hợp [8] 1.2 Một số hướng nghiên cứu trong khai phá dữ liệu 1.2.1 Một số hướng nghiên cứu Kể từ khi được R Agrawal đề xuất vào năm 1993 [3], lĩnh vực khai phá luật kết hợp đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau Có những 7 đề xuất nhằm vào cải tiến tốc độ thuật toán, có những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn, … Sau đây là một số hướng chính - Luật kết hợp nhị phân... này yêu cầu số lượng và các dạng thông tin rất khác nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn thuật toán khai phá dữ liệu khác nhau Ví dụ như thuật toán tạo cây quyết định tạo ra được một mô tả phân biệt được các mẫu giữa các lớp nhưng không có các tính chất và đặc điểm của lớp 1.4 Bài toán khai phá luật kết hợp 1.4.1 Bài toán Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association... là thuật toán Apriori và các biến thể của nó [4] Đây là dạng luật đơn giản và như sau này ta biết các dạng luật khác cũng có thể chuyển về dạng luật này bằng một số phương pháp như rời rạc hóa, mờ hóa, … Một ví dụ về dạng luật này: “Mua bánh mì = 'yes' AND mua đường= 'yes' => mua sữa = 'yes' AND mua bơ = 'yes', với độ hỗ trợ 20% và độ tin cậy 80%” - Luật kết hợp có thuộc tính số và thuộc tính hạng mục... nhiễm hội chứng SARS, thông tin về thân nhiệt, đường hô hấp rõ ràng là quan trọng hơn rất nhiều so với thông tin về tuổi tác Trong quá trình tìm kiếm luật, chúng ta sẽ gán cho các thuộc tính thân nhiệt, đường hô hấp các trọng số lớn hơn so với trọng số của thuộc tính tuổi tác Đây là một hướng nghiên cứu rất thú vị và đã được một số nhà nghiên cứu đề xuất cách giải quyết bài toán này Với luật kết hợp có... hình phần cứng 9 - Luật kết hợp tiếp cận theo hướng tập thô (mining association rules based on rough set): Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô Ngoài ra, còn một số hướng nghiên cứu khác về khai phá luật kết hợp như: Khai phá luật kết hợp trực tuyến, khai phá luật kết hợp được kết nối trực tuyến đến các kho dữ liệu đa chiều (multidimensional data, data warehouse) thông qua công nghệ OLAP (Online... (nhị phân - binary, số - quantitative, hạng mục - categorical, …) Để phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc hóa nhằm chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuật toán đã có [16] - Luật kết hợp mờ (fuzzy association rule): Với những hạn chế còn gặp phải trong quá trình rời rạc hóa các thuộc tính số (quantitative attributes),... với các bản ghi chứa một tập con T các tính chất (có thể coi như T I), các bản ghi đều có chỉ số riêng Một luật kết hợp là một mệnh đề kéo theo có dạng X→Y, trong đó X, Y  I, thỏa mãn điều kiện XY= Các tập hợp X và Y được gọi là các tập hợp tính chất (itemset) Tập X gọi là nguyên nhân, tập Y gọi là hệ quả 13 Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ (support) và độ tin cậy (confidence),... trường hợp, mặc dù độ hỗ trợ của luật thấp, ta vẫn cần quan tâm (ví dụ luật kết hợp liên quan đến nguyên nhân gây ra sự đứt liên lạc ở các tổng đài điện thoại) Độ tin cậy: Định nghĩa 1.3: Độ tin cậy của một luật kết hợp X → Y là tỷ lệ giữa số lượng các bản ghi trong D chứa X ∪ Y với số bản ghi trong D có chứa tập hợp X Ký hiệu độ tin cậy của một luật là conf(r) Ta có 0 ≤ conf(r) ≤ 1 Nhận xét: Độ hỗ trợ và ... 2.2.2 Luật kết hợp mờ 36 2.3 Thuật toán khai phá luật kết hợp mờ dựa thuật toán Apriori 38 2.4 Khai phá luật kết hợp mờ dựa thuật toán Fp-Growth 41 2.4.1 Thuật toán xây dựng CUFP-Tree... phá luật kết hợp song song, khai phá luật kết hợp nhiều mức, luật kết hợp tiếp cận theo hướng tập thô, … Luận văn tập trung nghiên cứu vào khai phá Luật kết hợp mờ ứng dụng toán dự báo Hướng... sử dụng lý thuyết tập mờ xây dựng luật kết hợp dạng mờ - Luật kết hợp có trọng số: Sử dụng phương pháp tính độ hỗ trợ cho tập mục dựa trọng số tập mục Ngoài ra, số hướng nghiên cứu: khai phá luật

Luật kết hợp mờ và ứng dụng đối với một số bài toán dự báo

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan