Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng

61 302 0
Khai phá luật kết hợp hiếm trên cơ sở dữ liệu và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN THỊ HẢI LÝ KHAI PHÁ LUẬT KẾT HỢP HIẾM TRÊN CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN .ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT iv DANH MỤC CÁC BẢNG BIỂU v DANH MỤC CÁC HÌNH VẼ vi MỞ ĐẦU CHƢƠNG KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 1.1 Khai phá liệu .3 1.1.1 Quá trình phát tri thức từ sở liệu 1.1.2 Kiến trúc hệ thống khai phá liệu Error! Bookmark not defined 1.1.3 Quá trình khai phá liệu 1.1.4 Nhiệm vụ khai phá liệu Error! Bookmark not defined 1.1.5 Các ứng dụng khai phá liệu 1.2 Khai phá luật kết hợp sở liệu 1.2.1 Bài toán mở đầu Error! Bookmark not defined 1.2.2 Các khái niệm sở 1.2.2.1 Cơ sở liệu giao tác 1.2.2.2 Tập mục phổ biến 1.2.2.3 Luật kết hợp 1.2.3 Khai phá luật kết hợp 1.2.4 Các cách tiếp cận khai phá tập mục phổ biến Error! Bookmark not defined 1.2.5 Các thuật toán điển hình khai phá tập mục phổ biến .10 1.2.5.1 Thuật toán Apriori 10 1.2.5.2.Thuật toán FP_growth 13 1.2.6 Thuật toán sinh luật kết hợp: 14 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 1.2.7 Một số mở rộng khai phá luật kết hợp .17 Kết luận chƣơng 18 Chƣơng 2: LUẬT KẾT HỢP HIẾM 19 2.1 Giới thiệu chung luật kết hợp 19 2.2 Một số hƣớng nghiên cứu phát luật kết hợp 20 2.2.1 Sử dụng ràng buộc phần hệ luật 20 2.2.2 Thiết lập đƣờng biên phân chia tập phổ biến không phổ biến .21 2.2.3 Phát luật kết hợp từ CSDL định lƣợng .22 2.3 Khuynh hƣớng nghiên cứu luật 23 2.4 Phát luật kết hợp Sporadic CSDL giao tác .24 2.4.1 Khái niệm luật Sporadic 24 2.4.2.Thuật toán Apriori-Inverse .27 2.4.3 Thuật toán tìm tập Sporadic tuyệt đối hai ngƣỡng đóng 32 2.4.3.1 Tập Sporadic tuyệt đối hai ngƣỡng 33 2.4.3.2 Thuật toán MCPSI tìm tập Sporadic tuyệt đối hai ngƣỡng đóng 35 Kết luận chƣơng 38 Chƣơng 38 THỰC NGHIỆM TÌM LUẬT HIẾM SPORADIC TUYỆT ĐỐI 38 3.1 Giới thiệu toán 39 3.2 Dữ liệu thực nghiệm .40 3.3 Xây dựng chƣơng trình 42 3.4 Thực nghiệm khai phá 43 3.5 Kết thực nghiệm 47 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 50 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “KHAI PHÁ LUẬT KẾT HỢP HIẾM TRÊN CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG”là công trình nghiên cứu riêng dƣới hƣớng dẫn TS Nguyễn Huy Đức Kết đạt đƣợc luận văn sản phẩm riêng cá nhân tôi, không chép lại ngƣời khác Trong toàn luận văn, điều đƣợc trình bày luận văn cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trính dẫn hợp pháp Tôi xin chịu hoàn toàn trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Thái Nguyên, ngày tháng năm 2015 Người cam đoan Nguyễn Thị Hải Lý Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới TS.Nguyễn Huy Đức - Trƣờng Cao đẳng Sƣ phạm Trung ƣơng, Thầy bảo hƣớng dẫn tận tình cho suốt trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cám ơn dạy bảo, giúp đỡ, tạo điều kiện khuyến khích trình học tập nghiên cứu thầy cô giáo Viện Công nghệ thông tin, Trƣờng Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Và cuối cùng, xin gửi lời cảm ơn tới gia đình, ngƣời thân bạn bè, ngƣời bên lúc khó khăn nhất, động viên khuyết khích sống công việc Tôi xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2015 Tác giả Nguyễn Thị Hải Lý Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu Diễn giải KPDL Khai phá liệu CSDL Cơ sở liệu DB Cơ sở liệu giao tác TID Định danh giao tác I Tập mục liệu T Giao tác (transaction) Ck Tập ứng viên tập mục có k mục liệu Lk Tập tập mục phổ biến có k mục liệu k-itemset Tập mục gồm k mục BFS Breadth First Search (Duyệt theo chiều rộng) DFS Depth First Search (Duyệt theo chiều sâu) FP-growth Frequent-Pattern Growth FP-tree Frequent pattern tree Sup Độ hỗ trợ (support) Conf Độ tin cậy (Confiden) Minsup Ngƣỡng hỗ trợ tối thiểu Minconf Ngƣỡng tin cậy tối thiểu Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Danh mục tập mục CSDLError! Bookmark not defined Bảng 1.2: Biểu diễn ngang CSDL giao tác.Error! Bookmark not defined Bảng 1.3: Biểu diễn dọc CSDL giao tác Error! Bookmark not defined Bảng 1.4: Ma trận giao tác CSDL bảng 1.2Error! Bookmark not defined Bảng 1.5: Cơ sở liệu DB Error! Bookmark not defined Bảng 1.6 : Độ hỗ trợ mục Error! Bookmark not defined Bảng 1.7: Độ hỗ trợ tập mục Error! Bookmark not defined Bảng 1.8: Độ tin cậy luật Error! Bookmark not defined Bảng 1.10: Cơ sở liệu minh họa thực thuật toán COFI-tree.Error! Bookmark no Bảng 1.11 : Các mục liệu độ hỗ trợ Error! Bookmark not defined Bảng 1.12 : Các mục liệu phổ biế Error! Bookmark not defined Bảng 1.13 : Các mục liệ Error! Bookmark n Bảng 2.1 : Ví dụ CSDL giao tác D cho thuật toán Apriori-Inverse 29 Bảng 2.2 : Biểu diễn dọc CSDL D bảng 2.1 29 Bảng 2.3 : Độ hỗ trợ mục liệu CSDL D 30 Bảng 2.4 : Các mục sporadic độ hỗ trợ 30 Bảng 2.5 : Các 2- tập mục ứng viên 31 Bảng 2.6 : Các tập mục sporadic tuyệt đối 31 Bảng 2.7 : Các luật sporadic tuyệt đối 32 Bảng 2.8: CSDL giao tác minh họa thuật toán MCPSI 37 Bảng 3.1: Dữ liệu trích chọn để khai phá 40 Bảng 3.2: Mã hóa mặt hàng 40 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Quá trình khám phá tri thức Hình 1.2 Kiến trúc hệ thống khai phá liệuError! Bookmark not defined Hình 1.3: Quá trình khai phá liệu Hình 1.4 : Phân loạ ật toán khai phá tập mục phổ biến.Error! Bookmark not de Hình 1.5: Cây FP-tree CSDL bảng 1.10 Error! Bookmark not defined Hình 1.6: Cây COFI-tree mục D Error! Bookmark not defined Hình 1.7: Các bƣớc khai phá D-COFI-tree.Error! Bookmark not defined Hình 2.1: Minh họa tìm tập Sporadic tuyệt đối hai ngƣỡng đóng 38 Hình 3.1: Dữ liệu mã hóa chuẩn bị cho khai phá 42 Hình 3.2: Giao diện chƣơng trình 43 Hình 3.3: Giao diện chƣơng trình tìm tập Sporadic tuyệt đối 44 Hình 3.4: Kết tìm tập Sporadic tuyệt đối 45 Hình 3.5: Giao diện chƣơng trình tìm luật Sporadic tuyệt đối 46 Hình 3.6: Kết tìm luật Sporadic tuyệt đối 47 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Đặt vấn đề Trong lĩnh vực khai phá liệu (data mining), luật kết hợp (association rule) đƣợc dùng để mối quan hệ kiểu “điều kiện hệ quả” phần tử liệu (chẳng hạn, xuất tập mặt hàng “kéo theo” xuất tập mặt hàng khác) tập bao gồm nhiều đối tƣợng liệu (chẳng hạn, giao dịch mua hàng)… Phát luật kết hợp phát mối quan hệ phạm vi tập liệu cho Bài toán phát luật kết hợp đƣợc Rakesh Agrawal cộng giới thiệu lần vào năm 1993[4] nhanh chóng trở thành hƣớng nghiên cứu quan trọng khai phá liệu, đặc biệt năm gần Phát luật kết hợp [5, 10] đƣợc ứng dụng thành công nhiều lĩnh vực kinh tế-xã hội khác nhƣ: thƣơng mại, y tế, sinh học, tài - ngân hàng,…Hiện tại, nhiều khuynh hƣớng nghiên cứu ứng dụng liên quan đến phát luật kết hợp tiếp tục đƣợc hình thành Một vấn đề phát luật kết hợphiện nhận đƣợc nhiều quan tâm nhà nghiên cứu phát luật kết hợp Luật kết hợp luật kết hợp xảy Mặc dù tần suất xảy thấp, nhƣng nhiều trƣờng hợp, luật lại có giá trị Từ yêu cầu, thực tế trên, em chọn đề tài “Khai phá luật kết hợp sở liệu ứng dụng” Đối tƣợng phạm vi nghiên cứu Nghiên cứu phƣơng pháp, thuật toán khai phá luật kết hợp, sâu vào toán phát luật kết hợp thuộc lĩnh vực phát tri thức từ liệu ứng dụng Luận văn tìm hiểu luật kết hợp Sporadic, hai loại luật Sporadic luật Sporadic tuyệt đốivà luật Sporadic không tuyệt đối, luận văn sâu tìm hiểu luật Sporadic tuyệt đối sở liệu giao tác Hƣớng nghiên cứu đề tài Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 38 = 0,25 thỏa mãn điều kiện minSup ≤sup(BCH) < maxSup h(BCH) = f(g(BCH)) = f(14) = BCH Theo định nghĩa BCH tập Sporadic tuyệt đối hai ngƣỡng đóng Tiến hành tƣơng tự nhƣ với nhánh C×147, D×16, F×46 H×146 Kết thúc, ta đƣợc kết quả: C = {BCH×14, CF×47, C×147, DH×16, H×146} tập tập Sporadic tuyệt đối hai ngƣỡng đóng cần tìm Hình 2.1: Minh họa tìm tập Sporadic tuyệt đối hai ngƣỡng đóng Kết luận chƣơng Chƣơng trình bày khái niệm luật kết hợp Sporadic, hai loại luật Sporadic : luật Sporadic tuyệt đốivà luật Sporadic không tuyệt đối Luận văn sâu tìm hiểu hai thuật toán tìm luật Sporadic tuyệt đối sở liệu giao tác, thuật toán Apriori-Inverse thuật toán MCPSI] Thuật toán Apriori-Inverse đƣợc phát triển dựa ý tƣởng thuật toán Apriori, duyệt theo chiều rộng, thuật toán MCPSIdựa ý tƣởng thuật toán CHARM, duyệt theo chiều sâu tìm tập Sporadic tuyệt đối đóng Từ tập Sporadic tuyệt đối tìm đƣợc, với ngƣỡng độ tin cậy cho trƣớc, việc sinh luật Sporadic tuyệt đối đƣợc thực theo thuật toán sinh luật kết hợp Chƣơng THỰC NGHIỆM TÌM LUẬT HIẾM SPORADIC TUYỆT ĐỐI Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 39 3.1 Giới thiệu toán Tại Siêu thị thành phố Hải Dƣơng, có tổng số 1200 mặt hàng đƣợc bày bán hai sàn nhà với diện tích gần 1000m2 Hằng ngày số lƣợt ngƣời mua hàng nhiều, nhà quản lý Siêu thị sử dụng phần mền Quản lý bán hàng quầy giao dịch để quản lý mặt hàng đƣợc nhập về, mặt hàng đƣợc bán ngày, hoá đơn chứng từ kế toán… Khách hàng tự lựa chọn mặt hàng cần mua theo tên hàng hoá, đơn giá có in sẵn mặt hàng đặt vào giỏ hàng (xe đẩy) Khi chọn xong hàng hoá, khách hàng đẩy xe đến phận thu ngân Các hàng hoá đƣợc cập nhật vào hệ thống tính toán thông qua máy đọc mã vạch Các tính toán tổng cộng hoá đơn đƣợc thực tự động đƣợc lƣu vào CSDL Trên hoá đơn có thông tin sau: Số hoá đơn, mã số khách hàng, tên khách hàng, địa chỉ, ngƣời đại diện, ngày, giờ, mã số nhân viên thu ngân, quầy, số trang hoá đơn Các thông tin hoá đơn có liên quan đến hàng hoá nhƣ: mã hàng hoá, tên hàng hoá, số lƣợng đóng gói, đơn vị tính, số lƣợng, đơn giá, giá đóng gói, giá trƣớc thuế VAT, % thuế VAT, tiền thuế VAT, thành tiền có thuế VAT,… Với cách quản lý khách hàng nhƣ trên, liệu bán hàng siêu thị chứa đầy đủ thông tin cần thiết để tổng kết đánh giá tính hình kinh doanh nhƣ: sức mua khách hàng, mặt hàng bán chạy, mặt hàng bán, doanh số,…Từ có thể điều chỉnh quản lý, tiếp thị,… để nâng hiệu kinh doanh Bài toán đặt là: Từ liệu bán hàng có, tìm mặt hàng khách hàng mua (chính tập Sporadic tuyệt đối), từ tìm luật Sporadic tuyệt đối Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 40 Vì luật Sporadic tuyệt đối có độ hỗ trợ nhỏ nhƣng có độ tin cậy cao nên luật X Y cho biết khách mua nhóm mặt hàng X dƣờng nhƣ (khả cao) mua nhóm mặt hàng Y 3.2 Dữ liệu thực nghiệm Trong quý 2/2015, CSDL giao tác Siêu thị lớn Hải Dƣơng, 10000 giao tác với 800 mặt hàng đƣợc bán Để thực nghiệm khai phá luật Sporadic tuyệt đối, tác giả trích chọn liệu thực nghiệm gồm 500 giao tác tháng 6/2015 với 20 mặt hàng thiết yếu phục vụ đời sống ngày Bảng 3.1 biểu diễn phần liệu trích chọn Bảng 3.1: Dữ liệu trích chọn để khai phá TID 01 Các mặt hàng giao tác Dầu ăn, bánh kẹo, mì tôm, muối, gạo 02 Khăn mặt, Bàn chải, Kem đánh răng, Nƣớc mắm, Sữa uống 03 Khăn mặt, Bánh mì, Tƣơng ớt, Muối, Bát 04 Khăn mặt, Nƣớc mắm, Sữa uống, Bánh kẹo, Cá biển, Mì tôm, Cốc, Dao, Thìa Chuyển đổi liệu: Để chuẩn bị liệu cho khai phá, mặt hàng đƣợc mã hóa tập số tự nhiên (tức ánh xạ tập mặt hàng sang tập số tự nhiên - đánh thứ tự mục liệu từ đến hết) Bảng 3.2 mô tả việc mã hóa mặt hàng Bảng 3.2: Mã hóa mặt hàng Mã mặt hàng Số hóa Trung tâm Học liệu - ĐHTN Tên mặt hàng Khăn mặt http://www.lrc-tnu.edu.vn/ 41 10 11 12 13 14 15 16 17 18 19 20 Bàn chải Kem đánh Nƣớc mắm Sữa uống Bánh mì Xà phòng Dầu ăn Bánh kẹo Mì Cá biển Tƣơng ớt Mì tôm Muối Gạo Bát Đĩa Cốc Dao Thìa Tiếp đến, liệu đƣợc tiền xử lý đƣa dạng Text, ghi tệp input.txt Mỗi giao tác đƣợc mô tả thành dòng text tệp input.txt nhƣ sau: liệt kê mã mặt hàng, mã cách dấu cách Nhƣ vậy, dòng tệp input.txt biểu diễn cho giao tác, chứa mã mặt hàng giao tác Hình 3.1 tệp input.txt biểu diễn phần liệu bảng 3.1 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 42 Hình 3.1: Dữ liệu mã hóa chuẩn bị cho khai phá Tệp input.txt biểu diễn liệu tiền xử lý, chuẩn bị cho khai phá tập Sporadic tuyệt đối Kết khai phá đƣợc ánh xạ ngƣợc lại để xác định tên mặt hàng, hiểu ý nghĩa thực tế cácluật Sporadic tuyệt đối 3.3 Xây dựng chƣơng trình Chƣơng trình sử dụng thuật toán Apriori-Inverse để tìm tập Sporadic tuyệt đối thuật toán sinh luật kết hợp để tìm luật Sporadic tuyệt đối Chƣơng trình đƣợc xây dựng ngôn ngữ Java, môi trƣờng xây dựng ứng dụng Eeclipse (Eclipse Java EE IDE for Web Developers, phiên Mars Release 4.5.0) chạy hệ điều hành Windows Máy tính thực nghiệm có cấu hình tối thiểu nhƣ sau: Tốc độ CPU: 2.0GHz Dung lƣợng nhớ RAM: 512MB Không gian trống ổ cứng: 1GB Chƣơng trình đƣợc đóng gói thành tệp Sporadic_Rule.jar, thiết kế giao diện tƣơng đối thân thiện trực quan ngƣời sử dụng Để chạy Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 43 chƣơng trình, nhấp đúp vào biểu tƣợng Sporadic_Rule.jar thƣ mục Luat_hiem Tại thƣ mục có sẵn tệp liệu Input.txt Chƣơng trình cho phép thực nhiệm vụ: - Thực thuật toán Apriori-Inverse để tìm tập sporadic tuyệt đối - Tìm luật sporadic tuyệt đối Chƣơng trình nguồn đƣợc trình bày phần phụ lục luận văn Sau khởi động, giao diện chƣơng trình nhƣ hình 3.2 Hình 3.2: Giao diện chƣơng trình 3.4 Thực nghiệm khai phá Khai phá tập Sporadic tuyệt đối: Nhấp nút “Chọn thuật toán”, chọn thuật toán Apriori-Inverse, chƣơng trình yêu cầu nhập tệp liệu vào, tệp kết xuất ra, độ hỗ trợ nhỏ MinSup độ hỗ trợ tối đa MaxSup, ý nhập khuôn dạng % số thập phân (từ đến 1,0) Sau nhập đủ thông số nhấp nút “Thực Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 44 thuật toán” Chƣơng trình thực thuật toán kết xuất tệp text mở lên hình để xem Ví dụ: chọn MinSup=10%, MaxSup=60%, chạy tệp Input.txt nhƣ hình 3.3 Thuật toán thực cho kết hình 3.4 Hình 3.3: Giao diện chƣơng trình tìm tập Sporadic tuyệt đối Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 45 Hình 3.4: Kết tìm tập Sporadic tuyệt đối Đi kèm tập mục Sporadic tuyệt đối, có số đếm hỗ trợ, tức số lần xuất tập mục CSDL Ví dụ: tập mục {3, 12} có số lần xuất 97, tức độ hỗ trợ tập mục là: Sup({3, 12}) = 97/500 =19,4%; Sup({3})= 185/500 = 37%; Sup({12})= 213/500 = 42,6% Tức tập mục {3, 12} mục liệu tập mục có độ hỗ trợ nằm khoảng từ MinSup đến MaxSup Tìm luật Sporadic tuyệt đối: Tƣơng tự nhƣ trên, nhấp nút “Chọn thuật toán”, chọn thuật toán Tìm luật Sporadic tuyệt đối, sau nhập tham số nhấp nút “Thực Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 46 thuật toán” Chƣơng trình thực thuật toán kết xuất tệp text mở lên hình để xem Ví dụ: chọn MinSup=10%, MaxSup=60%, MinConf= 60% chạy tệp Input.txt, giao diện nhƣ hình 3.5 Thuật toán thực cho kết hình 3.6 Hình 3.5: Giao diện chƣơng trình tìm luật Sporadic tuyệt đối Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 47 Hình 3.6: Kết tìm luật Sporadic tuyệt đối Với kết khai phá nhận đƣợc luật {11,12}→{10}, với độ hỗ trợ thấp: sup({11,12}→{10})= 100/500 = 20% độ tin cậy cao: Conf({11,12}→ {10})= 80,6% Để hiểu ý nghĩa thực tiễn luật ta ánh xa ngƣợc lại bảng mã nhận đƣợc luật Sporadic tuyệt đối là: {Cá biển, tƣơng ớt} → {Mì chính} Với độ tin cậy cao dƣờng nhƣ khách hàng mua Cá biểnvà tƣơng ớt mua Mì chính, hay nóichính xác 80,6% số kháchmua Cá biển tƣơng ớtthì mua Mì 3.5 Kết thực nghiệm Chƣơng trình ứng dụng khai phá tập Sporadic tuyệt đối luật Sporadic tuyệt đối thực thành công, cho ta kết tìm đƣợc thông tin hữu ích từ liệu, giúp cho ngƣời quản lý kinh doanh có chiến lƣợc kinh doanh phù hợp, hiệu thời gian Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 48 Kết thực nghiệm khai phá tệp Input.txt khẳng định vấn đề lý thuyết khai phá luật Sporadic tuyệt đối trình bày chƣơng Qua thực nghiệm với ngƣỡng độ hỗ trợ độ tin cậy khác nhận thấy rằng: Khi độ hỗ trợ lớn MaxSup thấp số tập mục Sporadic tuyệt đối tìm thấy ít, độ tin cậy cao sinh luật Sporadic tuyệt đối, nhƣng luật lại “thú vị”, có “giá trị” Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 49 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Những kết đạt đƣợc Có thể nói rằng, khai phá liệu kỹ thuật quan trọng, mang tính thời không Việt Nam mà CNTT giới Sự bùng nổ thông tin, liệu toàn cầu, mặt đời sống xã hội với phát triển ứng dụng ngày rộng rãi CNTT lĩnh vực khiến cho nhu cầu xử lý khối liệu khổng lồ để kết xuất thông tin, tri thức hữu ích cho ngƣời sử dụng cách tự động, nhanh chóng xác trở thành nhân tố quan trọng hàng đầu cho thành công tổ chức cá nhân giới Khai phá liệu đƣợc áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu đƣợc lợi ích to lớn Sau thời gian tìm hiểu nghiên cứu với đề tài “Khai phá luật kết hợp sở liệu ứng dụng”, luận văn đạt đƣợc kết nhƣ sau: - Khái quát vấn đề phát tri thức từ liệu khai phá liệu Trình bày chi tiết vấn đề khai phá luật kết hợp: từ khái niệm đến phát biểu toán Bài toán khai phá luật kết hợp đƣợc phân rã thành hai toán khai phá tập mục phổ biến sinh luật kết hợp từ tập mục phổ biến tìm đƣợc Luận văn trình bày các tiếp cận để khai phá tập mục phổ biến, thuật toán điển hình thuật toán Apriori FP-Growth, đồng thời trình bày phân tích thuật toán sinh luật kết hợp từ tập mục phổ biến tìm đƣợc - Luật kết hợp hàm ý luật kết hợp không xảy thƣờng xuyên CSDL nhƣng nhiều trƣờng hợp chúng lại luật có giá trị Luận văn trình bày khái niệm luật hiếm, luật Sporadic, hai loại luật Sporadic là: luật Sporadic tuyệt đối luật Sporadic không tuyệt đối Luận văn sâu tìm hiểu hai thuật toán tìm luật Sporadic tuyệt đối sở liệu giao tác, thuật toán AprioriInverse thuật toán MCPSI Sinh luật Sporadic tuyệt đối đƣợc thực theo thuật toán sinh luật kết hợp Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 50 - Xây dựng chƣơng trình thực nghiệm thuật toán Apriori-Inverse qua khai phá luật Sporadic tuyệt đối liệu bán hàng siêu thị thành phố Hải Dƣơng nhận đƣợc nhiều luật có ý nghĩa Hƣớng phát triển đề tài là: Thực nghiệm khai phá luật luật Sporadic tuyệt đối liệu bán hàng Siêu thị nhƣ trình bày dừng lại chƣơng trình thử nghiệm tệp liệu đầu vào có kích thƣớc nhỏ Tệp liệu cảng lớn kết khai phá có ý nghĩa Đề tài luận văn đƣợc nghiên cứu hƣớng sau: - Cải tiến để thuật toán khai phá hiểu cao hơn, đáp ứng đƣợc khai phá tệp liệu lớn - Với CSDL CSDL nhị phân mà có số lƣợng hàng bán đƣợc nhƣ lợi nhuận giao tác Cần nghiên cứu để có kỹ thuật khai phá luật Sporadic tuyệt đối không tuyệt đối CSDL dạng - Nghiên cứu để sinh luật không dƣ thừa, tối ƣu hoá tính ứng dụng luật TÀI LIỆU THAM KHẢO Tiếng Việt: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 51 [1] Nguyễn Huy Đức (2009), “Khai phá tập mục cổ phần cao lợi ích cao sở liệu” Luận án tiến sĩ toán học, Viện Công nghệ Thông tin, Hà Nội [2] Cù Thu Thủy (2013), “ Nghiên cứu phát luật kết hợp ứng dụng”, Luận án Tiến sĩ, Đại học Công nghệ (Đại học Quốc gia Hà Nội) [3] Nguyễn Thanh Thủy (2003), “Phát tri thức khai phá liệu: Công cụ, phương pháp ứng dụng” Tiếng Anh: [4] R Agrawal, T Imielinski, and A N Swami (1993), “Mining association rules between sets of items in large databases” In Proc of the 1993 ACM SIGMOD International Conference on Management of Data, Washington, D.C [5] Han J., and Kamber M (2012), Data Mining: Concepts and Techniques, Third Edition, Morgan Kaufmann, Series in Data Management Systems [6] M.J Zaki ,C Hsiao (2002), "CHARM: An Efficient Algorithm, for Closed Itemset Mining", In SDM '02 [7] Kiran R U., and Reddy P K (2009), “An Improved Multiple Minimum Support Based Approach to Mine Rare Association Rules”, Proc of CIDM 2009, pp 340-347 [8] Koh Y S., Rountree N (2005), “Finding Sporadic Rules Using AprioriInverse”, Proc of PAKDD2005, pp 97-106 [9] Koh Y S., Rountree N., O’Keefe R.A (2008), “Mining Interesting Imperfectly Sporadic Rules”, Knowledge and Information System, Vol 14 (2), pp 179-196 [10] Kotsiantis S., Kanellopoulos D (2006), “Association Rules Mining: A Recent Overview”, GESTS International Transactions on Computer Science and Engineering, Vol 32, No 1, pp 71-82 [11] El-Hajj M and Zaiane Osmar R (2003), “COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc 2003 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 52 Int’l Conf on Data Mining and Knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA [12] Laszlo Szathmary, Amedeo Napoli, Petko Valtchev (2007), “Towards Rare Itemset Mining”, Proc ICTAI '07 Proc of the 19th IEEE International Conference on Tools with Artificial Intelligence – Vol 01, PP 305-312 [13] Romero C., Romero J R., Luna J M., and Ventura S (2010), “Mining Rare Association Rules from e-Learning Data”, Proc of the Third International Conference on Education Data Mining, pp 171-180 [14] Szathmary L., Valtchev P., and Napoli A (2010), “Generating Rare Association Rules Using Minimal Rare Itemsets Family”, International Journal of Software and Informatics, Vol (3), pp 219-238 [15] Troiano L., Scibelli G., Birtolo C (2009), “A Fast Algorithm for Mining Rare Itemsets”, Proc of ISDA 2009, pp.1149-1155 [16] Urvi Y Bhatt, Pratik A Patel (2014), “A Recent Overview: Rare Association Rule Mining”, International Journal of Computer Applications (0975 – 8887), Vol 107 – No 18, December 2014 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ [...]... bảo Trên đây là những mở rộng, biến thể của khai phá luật kết hợp) cho phép ta tìm kiếm luật kết hợp một cách linh hoạt trong những cơ sở dữ liệu lớn Ngoài ra còn một số khái niệm mở rộng của các luật kết hợp đó là: Luật kết hợp định lƣợng, Luật kết hợp tổng quát, Việc khai phá luật kết hợp dựa trên các khái niệm mở rộng này cho phép phát hiện đƣợc nhiều luật kết hợp mà các thuật toán khai phá luật kết. .. thu nhờ áp dụng khai phá dữ liệu trong việc phân tích sở thích mua bán của khách hàng 1.2 Khai phá luật kết hợp trong cơ sở dữ liệu 1.2.1 Các khái niệm cơ sở Mô hình đầu tiên của bài toán khai phá luật kết hợp là mô hình nhị phân (hay còn gọi là mô hình cơ bản) đƣợc R Agrawal, T Imielinski và A Swami đề xuất vào năm 1993[4], xuất phát từ nhu cầu phân tích dữ liệu của cơ sở dữ liệu giao tác, phát hiện... phƣơng pháp khai phá luật kết hợp - Tìm hiểu sâu về khai phá luật hiếm Sporadic tuyệt đối trên cơ sở dữ liệu giao tác - Cài đặt, thực nghiệm phát hiện luật kết hợp hiếm trên CSDL 4 Những nội dung nghiên cứu chính Từ những mục tiêu và yêu cầu của đề tài nghiên cứu, đề tài đƣợc xây dựng gồm phần mở đầu, 3 chƣơng nội dung và phần kết luận, cụ thể nhƣ sau: Chƣơng 1: Khai phá dữ liệu và bài toán khai phá luật. .. hỗ trợ tối thiểu minsup và ngƣỡng độ tin cậy tối thiểu minconf Yêu cầu: Tìm tất cả các luật kết hợp X→Y trên cơ sở dữ liệu DB sao cho sup(X→Y) ≥ minsup và conf(X→Y) ≥ minconf Khai phá luật kết hợp này đƣợc gọi là bài toán cơ bản hay bài toán nhị phân, vì ở đây, giá trị của mục dữ liệu trong cơ sở dữ liệu là 0 hoặc 1 (xuất hiện hay không xuất hiện) Bài toán khai phá luật kết hợp trong CSDL chia thành... cực tiểu minSup) và nhƣ vậy chi phí cho việc tìm kiếm sẽ tăng lên Nhằm khắc phục những khó khăn này, cần có những nghiên cứu các phƣơng pháp, thuật toán riêng cho phát hiện luật kết hợp hiếm Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 3 CHƢƠNG 1 KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 1.1 Khai phá dữ liệu 1.1.1 Quá trình phát hiện tri thức từ cơ sở dữ liệu Trong thời đại... tự nhiên của dữ liệu Các luật hiếm thƣờng là sự kết hợp của: (1) các mục dữ liệu hiếm; (2) các mục dữ liệu hiếm và các mục dữ liệu phổ biến; (3) các mục dữ liệu phổ biến, có độ hỗ trợ cao khi xét riêng từng mục dữ liệu, nhƣng khi kết hợp lại tạo thành các tập mục có độ hỗ trợ nhỏ Chính vì vậy không thể dùng các kỹ thuật phát hiện tập phổ biến thông thƣờng để phát hiện các luật kết hợp hiếm Độ hỗ trợ... bài toán khai phá luật kết hợp Chƣơng 2: Luật kết hợp hiếm Chƣơng 3: Thực nghiệm tìm luật hiếm Sporadic tuyệt đối 5 Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu chính là nghiên cứu lý thuyết kết hợp với đánh giá thực nghiệm Cụ thể là: tổng hợp các kết quả nghiên cứu về khai phá luật kết hợp và luật kết hợp hiếm đã công bố trên các bài báo khoa học, hội thảo chuyên ngành trong và ngoài nƣớc, từ đó trình... đó B và D là các kết luận của các luật hợp lệ có 1-mục ở phần kết luận Thuật toán nhanh hơn mô tả ở trên chỉ kiểm tra một luật này 1.2.7 Một số mở rộng khai phá luật kết hợp Lĩnh vực khai phá luật kết hợp cho đến nay đã đƣợc nghiên cứu và phát triển theo nhiều hƣớng khác nhau Các hƣớng chính mở rộng là: - Luật kết hợp nhị phân (Binary association rule): là hƣớng nghiên cứu đầu tiên của luật kết hợp. .. Sporadic), một kiểu của luật kết hợp hiếm, sẽ đƣợc trình bày ở các phần tiếp sau đây 2.4 Phát hiện luật kết hợp hiếm Sporadic trên CSDL giao tác 2.4.1 Khái niệm về luật hiếm Sporadic Y.S Koh và N Rountree [8, 9] đề cập bài toán phát hiện luật Sporadic, một kiểu luật kết hợp hiếm Luật Sporadic là luật ít khi xảy ra, có hỗ trợ thấp nhƣng độ tin cậy cao, ví dụ, sự kết hợp hiếm hoi của hai triệu chứng bệnh cho thấy... Tiền xử lý dữ liệu (data preprocessing): là bƣớc làm sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, v v), rút gọn dữ liệu (sử dụng các phƣơng pháp thu gọn dữ liệu, histograms, lấy mẫu, v .v ), rời rạc hoá dữ liệu (dựa vào histograms, entropy, phân khoảng, v v ) Sau bƣớc này, dữ liệu sẽ nhất quán, đầy đủ, đƣợc rút gọn và đƣợc rời rạc hoá Bƣớc 3: Biến đổi dữ liệu (data ... thể khai phá luật kết hợp) cho phép ta tìm kiếm luật kết hợp cách linh hoạt sở liệu lớn Ngoài số khái niệm mở rộng luật kết hợp là: Luật kết hợp định lƣợng, Luật kết hợp tổng quát, Việc khai phá. .. nghiên cứu ứng dụng liên quan đến phát luật kết hợp tiếp tục đƣợc hình thành Một vấn đề phát luật kết hợphiện nhận đƣợc nhiều quan tâm nhà nghiên cứu phát luật kết hợp Luật kết hợp luật kết hợp xảy... phƣơng pháp, thuật toán riêng cho phát luật kết hợp Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ CHƢƠNG KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP 1.1 Khai phá liệu 1.1.1

Ngày đăng: 16/02/2016, 16:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan