KHAI THÁC LUẬT kết hợp từ các mẫu hữu ÍCH CAO

70 173 1
KHAI THÁC LUẬT kết hợp từ các mẫu hữu ÍCH CAO

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  MAI HOÀNG THẮNG KHAI THÁC LUẬT KẾT HỢP TỪ CÁC MẪU HỮU ÍCH CAO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01 THÀNH PHỐ HỒ CHÍ MINH, NĂM 2017 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  MAI HOÀNG THẮNG KHAI THÁC LUẬT KẾT HỢP TỪ CÁC MẪU HỮU ÍCH CAO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01 NGƯỜI HƯỚNG DẪN KHOA HỌC TS PHẠM THỊ THIẾT THÀNH PHỐ HỒ CHÍ MINH, NĂM 2017 LỜI CAM ĐOAN Tôi cam đoan luận văn “Khai thác luật kết hợp từ mẫu hữu ích cao” nội dung nghiên cứu thân Luận văn có sử dụng thơng tin trích dẫn từ nhiều nguồn khác nhau, thông tin trích dẫn ghi rõ nguồn gốc Khơng có sản phẩm/ nghiên cứu người khác sử dụng luận văn mà khơng trích dẫn theo quy định TPHCM, ngày… tháng….năm… Tác giả Mai Hoàng Thắng LỜI CẢM ƠN Lời xin chân thành cảm ơn TS Phạm Thị Thiết, TS Nguyễn Thị Thúy Loan tận tình hướng dẫn tơi suốt thời gian thực luận văn Tôi xin bày tỏ lòng biết ơn đến q cơ, q thầy Viện đào tạo Sau Đại học trường Đại học Công nghệ Thông tin cung cấp kiến thức quý báu cho tơi suốt q trình học tập nghiên cứu trường Tôi xin gởi lời cảm ơn đến gia đình, bạn bè người thân ln quan tâm giúp đỡ suốt thời gian học tập nghiên cứu để hoàn thành luận văn Do thời gian kiến thức có hạn nên luận văn khơng tránh khỏi thiếu sót định Tơi mong nhận góp ý q báu q cơ, q thầy MỤC LỤC MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN 1.1 Lý chọn đề tài .3 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng nghiên cứu 1.4 Phạm vi nghiên cứu .4 1.5 Nội dung nghiên cứu .5 1.6 Cấu trúc luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai thác liệu 2.1.1 Khái niệm 2.1.2 Mục tiêu 2.1.3 Các bước khai thác liệu 2.1.4 Các dạng sở liệu phục vụ cho việc khai thác liệu 10 2.1.5 Các phương pháp khai thác liệu 11 2.2 Lý thuyết dàn khai thác liệu 11 2.3 Khai thác luật kết hợp từ tập hữu ích cao 12 2.3.1 Vấn đề khai thác tập mục hữu ích cao 12 2.3.2 Một số định nghĩa 13 2.3.3 Bài toán khai thác luật kết hợp hữu ích cao 16 2.4 Một số thuật toán khai thác tập mẫu hữu ích cao 17 2.4.1 Thuật toán Two-Phase 17 2.4.2 Thuật toán UP-Growth 18 2.4.3 Thuật toán UP-Growth+ 19 2.4.4 Thuật toán HUI-Miner 19 2.4.5 Thuật toán FHM 20 2.4.6 Thuật toán FHIM 20 2.4.7 Thuật toán EFIM 20 2.4.8 Thuật toán DUP-Growth + .20 2.5 Khai thác luật kết hợp từ mẫu hữu ích cao 21 2.6 Ứng dụng dàn khai thác liệu 22 CHƯƠNG 3: KHAI THÁC LUẬT KẾT HỢP HỮU ÍCH CAO DỰA TRÊN DÀN .23 3.1 Ý tưởng thuật toán 23 3.2 Thuật toán xây dựng dàn từ mẫu hữu ích cao .23 3.2.1 Mô tả thuật toán .23 3.2.2 Minh họa thuật toán 25 3.3 Thuật toán khai thác luật kết hợp từ dàn 27 3.3.1 Mơ tả thuật tốn .27 3.3.2 Minh họa thuật toán 29 4.1 Môi trường thực nghiệm .32 4.2 Cơ sở liệu kết .32 4.3 Thông số thực nghiệm kết 32 4.4 So sánh thời gian .34 4.5 So sánh về nhớ .46 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 55 5.1 Kết luận 55 5.2 Hướng phát triển 56 DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ 57 TÀI LIỆU THAM KHẢO 58 DANH MỤC CÁC CHỮ VIẾT TẮT Ký hiệu viết tắt Ý nghĩa tiếng việt Ý nghĩa tiếng Anh CSDL Cơ sở liệu Database DGN DLN DLU Giảm độ hữu ích nút Up-Tree tồn cục Giảm độ hữu ích mục khơng triển vọng Discarding global node utilities Discard global unpromising item Loại bỏ mục không triển vọng Discarding local unpromising cục item Item Hạng mục Item Itemset Tập mục Itemset HUI Tập mục hữu ích cao High utility itemset HUIs Các tập mục hữu ích cao High utility itemsets HAR Luật kết hợp hữu ích cao High utility association rule HARs Các luật kết hợp hữu ích cao High utility association rules KTDL Khai thác liệu Data mining min-util Ngưỡng độ hữu ích tối thiểu Minimum utility threshold min-uconf uconf HGB Ngưỡng độ tin cậy hữu ích tối Minimum utility thiểu threshold Độ tin cậy hữu ích Utility confidence Luật kết hợp hữu ích cao khơng dư thừa confidence High utility generic basis HUCI Tập đóng hữu ích cao Closed high utility itemset HUCIs Các tập đóng hữu ích cao closed high utility itemsets Generators Tập sinh Generators HUIL Dàn tập mục hữu ích cao High utility itemsets lattice LARM Khai thác luật kết hợp hữu ích Lattice-based association rules cao dựa dàn mining FIM Khai thác tập phổ biến Frequent itemset mining HUIM Khai thác tập hữu ích cao High utility itemset mining Lattice Dàn Lattice Tid Mã số giao dịch Transaction identifier Id Mã số, mục Identifier sup Độ hỗ trợ Support TWU TU PUCS Trọng số hữu ích giao dịch Độ hữu ích giao dịch Transaction Weighted Utility Transaction Utility Cấu trúc độ hữu ích hứa hẹn Promising Utility Co-Occurrence đồng thời Structure FIL Dàn tập phổ biến Frequent itemset lattice s Giây Second ms Mili giây Milliseconds DANH MỤC BẢNG Bảng - Ví dụ sở liệu giao dịch D 14 Bảng 2 - Ví dụ bảng giá trị hữu ích 14 Bảng - Các HUI khai thác từ CSDL bảng 2.1 bảng 2.2 với min-util = 20 15 Bảng - Tập kết luật kết hợp hữu ích cao với min-uconf = 80% 29 Bảng - Thuộc tính sở liệu 32 Bảng - Kết số luật kết hợp hữu ích cao CSDL thực nghiệm 33 Bảng – Tỉ lệ tỉa luật cần xét sinh luật dàn 34 DANH MỤC HÌNH VẼ Hình 2.1 - Quá trình khám phá tri thức [7] Hình 2 - Quá trình thu thập xử lý liệu khai thác liệu [6] Hình - Dàn tập hữu ích cao từ sở liệu bảng 2.1 bảng 2.2 26 Hình - Thời gian thực thi CSDL Foodmart với min-uconf = 70% 36 Hình - Thời gian thực thi CSDL Chess với min-uconf = 70% 37 Hình - Thời gian thực thi CSDL Chainstore với min-uconf = 70% 37 Hình 4 - Thời gian thực thi CSDL Retail với min-uconf = 70% 38 Hình - Thời gian thực thi CSDL Mushroom với min-uconf = 70% 39 Hình - Thời gian thực thi CSDL Accidents với min-uconf = 70% 40 Hình - Thời gian thực thi CSDL Foodmart với min-util = 0.03% 41 Hình - Thời gian thực thi CSDL Chess với min-util = 28% 42 Hình - Thời gian thực thi CSDL Chainstore với min-util = 0.005% 43 Hình 10 - Thời gian thực thi CSDL Retail với min-util = 0.03% 44 Hình 11 - Thời gian thực thi CSDL Mushroom với min-util = 11% 44 Hình 12 - Thời gian thực thi CSDL Accidents với min-util = 14% 45 Hình 13 - Bộ nhớ sử dụng CSDL Foodmart với min-util = 0.03% 47 Hình 14 - Bộ nhớ sử dụng tên CSDL Foodmart với min-uconf = 70% 48 Hình 15 - Bộ nhớ sử dụng CSDL Chess vớ min-util = 28% 48 Hình 16 - Bộ nhớ sử dụng CSDL Chess với min-uconf = 70% 49 Hình 17 - Bộ nhớ sử dụng CSDL Chainstore với min-util = 0.05% 50 Hình 18 - Bộ nhớ sử dụng CSDL Chainstore với min-uconf = 70% 50 Hình 19 - Bộ nhớ sử dụng CSDL Retail với min-util = 0.03% 51 Hình 20 - Bộ nhớ sử dụng CSDL Retail với min-uconf = 70% 51 Hình 21 - Bộ nhớ sử dụng CSDL Mushroom với min-util = 11% 52 Hình 22 - Bộ nhớ sử dụng CSDL Mushroom với min-uconf = 70% 52 Hình 23 - Bộ nhớ sử dụng CSDL Accidents với min-util = 14% 53 Hình 24 - Bộ nhớ sử dụng CSDL Accidents với min-uconf = 70% 53 4.5 So sánh về nhớ Kết thực nghiệm thể thuật toán LARM sử dụng nhớ tối ưu thuật toán HGB-HAR Cả hai thuật toán LARM HGB-HAR thực xử lý tập HUIs với ngưỡng min-util min-uconf Tuy nhiên, thuật toán HGB-HAR cần trải qua hai giai đoạn để tìm tất luật hữu ích cao Trong giao đoạn đầu, thuật tốn tìm luật thơng qua tập đóng tập sinh Tiếp theo, giai đoạn hai, thuật toán cần phải kiểm tra nhiều tập mục xem tập mục có phải tập mục hữu ích cao hay khơng Ngồi ra, thuật tốn HGB-HAR tốn thời gian kiểm tra xem luật sinh tồn tập kết hay chưa trước thêm luật vào tập kết Do đó, thuật tốn HGB-HAR cần sử dụng nhiều nhớ để lưu trữ xử lý Ngồi ra, thuật tốn LARM tối ưu nhớ sử dụng cách giảm thiểu thời gian xét luật sinh từ cặp tập mục không cần thiết Điều thể thơng qua tính chất 2.1 dòng 20-28 thuật tốn LARM Bên cạnh đó, bảng 4.3 thể tỉ lệ tối ưu nhớ mà thuật toán LARM thực sở liệu chuẩn, cụ thể, thuật tốn LARM loại bỏ trung bình 9.6% luật khơng cần xét q trình sinh luật Kết thực nghiệm cho thấy thuật toán LARM sử dụng nhớ tối ưu thuật toán HGB-HAR Tuy nhiên, độ chênh lệch tổng nhớ sử dụng hai thuật tốn khơng cao Ví dụ, sở liệu Retail, với ngưỡng min-util = 0.03% ngưỡng min-uconf = 70%, nhớ cần thiết cho thuật toán HGB-HAR 231MB, thuật tốn LARM cần 227MB để hồn thành Mặc dù độ chênh lệch nhớ sử dụng không cao (thể qua hình 4.13 đến hình 4.24), thuật toán LARM đánh giá hiệu thuật toán HGB-HAR Trang 46 Foodmart Memory Usage (Mb) 2,450 min-util = 0.03% 2,400 2,350 2,300 2,250 2,200 LARM HGB-HAR 2,150 2,100 90 80 70 60 50 40 30 Min Utility Confidence (%) 20 10 Hình 13 - Bộ nhớ sử dụng CSDL Foodmart với min-util = 0.03% Kết nghiên cứu kiểm chứng sở liệu Foodmart, sở liệu thể kết giao dịch khách hàng siêu thị Trên sở liệu này, thuật toán kiểm chứng cách sử dụng cố định giá trị ngưỡng minutil = 0.03%, đồng nghĩa với việc cố định số lượng tập mục hữu ích cao, thay đổi giá trị ngưỡng min-uconf khoảng 10% - 90% Thuật tốn LARM sử dụng trung bình khoảng 2,245MB, thuật tốn HGB-HAR sử dụng trung bình khoảng 2,321MB, cao thuật tốn LARM khoảng trung bình 76MB (hình 4.13) Trên sở liệu Foodmart, bên cạnh việc cố định giá trị ngưỡng min-util, thay đổi giá trị min-uconf, thuật toán thực kiểm chứng nhớ sử dụng cách cố định ngưỡng min-uconf thay đổi giá trị min-util để đánh giá độ chênh lệch nhớ cần thiết hai thuật toán LARM HGB-HAR số lượng tập mục hữu ích cao đầu vào thay đổi Kết thực nghiệm cho thấy số lượng tập mục hữu ích cao tăng độ chênh lệch nhớ sử dụng hai thuật toán tăng Mặc dù độ chênh lệch không nhiều thuật tốn LARM sử dụng nhớ thuật tốn HGB-HAR (Hình 4.14) Trang 47 Foodmart Memory Usage (Mb) 2,500 min-uconf = 70% 2,000 1,500 1,000 500 LARM HGB-HAR 0.05 0.045 0.04 0.035 Minimum Utility (%) 0.03 Hình 14 - Bộ nhớ sử dụng tên CSDL Foodmart với min-uconf = 70% Chess 70 min-util = 28% Memory Usage (Mb) 60 50 40 30 20 LARM 10 HGB-HAR 90 80 70 60 50 40 30 Min Utility Confidence (%) 20 10 Hình 15 - Bộ nhớ sử dụng CSDL Chess vớ min-util = 28% Tương tự, sở liệu Chess, thuật toán kiểm chứng cách cố định min-util = 28% thay đổi min-uconf từ 10% đến 90% Thuật tốn LARM ln sử dụng nhớ nhớ mà thuật toán HGB-HAR sử dụng Kết so sánh thể hình 4.15 Trang 48 Chess 90 min-uconf = 70% Memory Usage (Mb) 80 70 60 50 40 30 20 LARM HGB-HAR 10 29.5 29 28.5 28 Minimum Utility (%) 27.5 Hình 16 - Bộ nhớ sử dụng CSDL Chess với min-uconf = 70% Ngoài ra, CSDL Chess, cố định min-uconf = 70% thay đổi giá trị min-util từ 29.5% giảm dần 0.5% đến 27.5% Thuật toán LARM sử dụng nhớ nhớ mà thuật toán HGB-HAR sử dụng giá trị min-util nhỏ Điển hình, min-uconf = 70% với min-util = 28%, LARM sử dụng 56MB, HGB-HAR sử dụng 62MB, min-util = 27.5%, LARM sử dụng 65MB, HGB-HAR sử dụng 83MB Độ chênh lệch nhớ tăng từ 6MB lên 18MB ứng với min-util = 28% min-util = 27.5% (Hình 4.16) Thuật tốn đề xuất thực nghiệm sở liệu Chainstore với minutil = 0.005% min-uconf từ 10% đến 90% Kết so sánh nhớ sử dụng thuật toán LARM thuật tốn HGB-HAR thể hình 4.17 Tương tự kết thực nghiệm sở liệu Foodmart Chess, thuật toán LARM sử dụng nhớ thuật tốn HGB-HAR tập tập mục hữu ích cao CSDL Chainstore Trang 49 Chainstore 1,600 min-util = 0.005% Memory Usage (Mb) 1,400 1,200 1,000 800 600 400 LARM 200 HGB-HAR 90 80 70 60 50 40 30 Min Utility Confidence (%) 20 10 Hình 17 - Bộ nhớ sử dụng CSDL Chainstore với min-util = 0.05% Tương tự, thuật tốn LARM sử dụng nhớ thuật toán HGB-HAR thay đổi số lượng tập mục hữu ích cao cố định giá trị ngưỡng min-uconf = 70% thực khai thác luật kết hợp từ mẫu hữu ích cao sở liệu Chainstore (hình 4.18) Chainstore 1,600 min-uconf = 70% Memory Usage (Mb) 1,400 1,200 1,000 800 600 400 LARM HGB-HAR 200 0.03 0.02 0.01 0.005 Minimum Utility (%) 0.004 Hình 18 - Bộ nhớ sử dụng CSDL Chainstore với min-uconf = 70% Trang 50 Các sở liệu lại đưa vào thử nghiệm để so sánh hiệu nhớ hai thuật toán LARM HGB-HAR Cụ thể, với sở liệu Retail, thuật tốn LARM ln tối ưu nhớ sử dụng hai trường hợp thực nghiệm: cố định min-util, thay đổi min-uconf (hình 4.19) cố định min-uconf, thay đổi min-util (hình 4.20) Retail Memory Usage (Mb) 260 min-util = 0.03% 250 240 230 220 LARM HGB-HAR 210 200 90 80 70 60 50 40 30 Min Utility Confidence (%) 20 10 Hình 19 - Bộ nhớ sử dụng CSDL Retail với min-util = 0.03% Retail Memory Usage (Mb) 600 min-uconf = 70% 500 400 300 200 LARM HGB-HAR 100 0.05 0.04 0.03 0.02 Minimum Utility (%) 0.01 Hình 20 - Bộ nhớ sử dụng CSDL Retail với min-uconf = 70% Trang 51 Kết so sánh nhớ sử dụng hình 4.21 hình 4.22 sở liệu Mushroom tương tự kết so sánh nhớ với sơ sở liệu đề cập Nhìn chung, thuật tốn LARM ln ln cần nhớ sử dụng thuật tốn HGB-HAR Mushroom 350 min-util = 11% Memory Usage (Mb) 300 250 200 150 100 LARM HGB-HAR 50 90 80 70 60 50 40 30 Min Utility Confidence (%) 20 10 Hình 21 - Bộ nhớ sử dụng CSDL Mushroom với min-util = 11% Mushroom Memory Usage (Mb) 600 min-uconf = 70% 500 400 300 200 LARM 100 HGB-HAR 14 13 12 11 Minimum Utility (%) 10 Hình 22 - Bộ nhớ sử dụng CSDL Mushroom với min-uconf = 70% Trang 52 Cơ sở liệu Accidents, sở liệu lưu trữ vụ tai nạn giao thông ẩn danh Hình 4.23 thể thuật tốn LARM sử dụng trung bình khoảng 305MB thuật tốn HGB-HAR sử dụng trung bình 380MB khai thác luật kết hợp từ mẫu hữu ích cao sở liệu Accidents với min-util = 14% Accidents min-util = 14% 450 Memory Usage (Mb) 400 350 300 250 200 150 100 LARM HGB-HAR 50 90 80 70 60 50 40 Min Utility Confidence (%) 30 20 Hình 23 - Bộ nhớ sử dụng CSDL Accidents với min-util = 14% Accidents min-uconf = 70% 400 Memory Usage (Mb) 350 300 250 200 150 100 LARM 50 HGB-HAR 15 14 13 Minimum Utility (%) 12 11 Hình 24 - Bộ nhớ sử dụng CSDL Accidents với min-uconf = 70% Trang 53 Trên sở liệu Accidents, thuật toán HGB-HAR cần nhiều thời gian, chí khơng thể trả kết luật min-util < 14% Do đó, hình 25, số kết nhớ sử dụng thuật toán HGB-HAR bị thiếu Tuy nhiên, thuật toán LARM thực tốt việc khai thác luật kết hợp hữu ích cao từ sở liệu thay đổi giá trị thông số ngưỡng min-util cố định min-uconf = 70% Cụ thể, thuật toán LARM cần trung bình khoảng 322MB để hồn thành Trang 54 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Trong nghiên cứu này, tác giả sử dụng mơ hình độ tin cậy hữu ích lý thuyết dàn để khai thác luật kết hợp hữu ích cao nhằm khai thác mối quan hệ tập mục hữu ích cao Hiện lý thuyết dàn áp dụng nhiều trong khai thác luật kết hợp mơ hình tập phổ biến chưa áp dụng khai thác luật kết hợp hữu ích cao mơ hình độ tin cậy hữu ích, nghiên cứu xem nghiên cứu áp dụng lý thuyết dàn khai thác luật kết hợp hữu ích cao Tác giả đề xuất thuật toán HUIL để xây dựng dàn gồm tập mục hữu ích cao Trên sở dàn xây dựng, tác giả đề xuất thuật toán LARM để rút trích luật kết hợp hữu ích cao từ dàn HUIL Kết thực nghiệm số sở liệu chuẩn cho thấy thuật toán đề xuất, LARM, có hiệu cao thời gian thực thi nhớ sử dụng Tính hiệu thuật tốn đóng góp lớn hệ thống dự báo định Bên cạnh đó, thuật tốn đề xuất đảm bảo tính xác kết luật kết hợp hữu ích cao thơng qua kết khai thác CSDL thực nghiệm Các kết thể công bố khoa học Sahoo đồng [18] công bố khoa học tác giả [14] Nghiên cứu ứng dụng hiệu sản xuất kinh doanh, lập kế hoạch kinh doanh sống dựa vào đặc điểm tính chất ứng dụng luật ứng với luật tập luật Kết từ luật kết hợp hữu ích cao mang lại kết hữu ích cho lãnh đạo hoạch định kế hoạch sản xuất, kinh doanh thời gian tới, điển xem xét tập mặt hàng kết hợp với mang lại lợi nhuận cao hoạt động kinh doanh bán lẻ, đề xuất chương trình khuyến nhằm mang lại hiệu kinh doanh cao Ngoài nhà lãnh đạo hoạt động bán lẻ dựa vào để bố trí, xếp, kinh doanh mặt hàng quầy nào, tổ chức sếp quầy gần để có doanh thu phiên giao dịch lớn Bên cạnh đó, áp dụng tri thức để dự đoán số lượng mặt hàng bán chạy thời gian tới Tổng hợp tri thức Trang 55 lãnh đạo lên kế hoạch hoạt động, sản xuất, kinh doanh cách thuận tiên nhằm giảm bớt thời gian thống kê, tìm hiểu thị trường 5.2 Hướng phát triển Bằng cách sử dụng thuật toán HUIL để xây dựng kiến trúc dàn tập hữu ích cao, nghiên cứu mở rộng phát triển thuật toán khai thác luật kết hợp hữu ích cao khơng dư thừa, ngồi ra, phát triển thuật tốn khai thác tập đóng hữu ích cao (closed high utility itemsets) tập sinh hữu ích cao (high utility generators) Bên cạnh đó, độ đo thú vị [15], [25] nghiên cứu áp dụng vào thuật toán đề xuất nhằm tăng thêm tính hiệu khai thác thêm thơng tin hữu ích từ sở liệu giao dịch Ngoài ra, tác giả đề xuất nghiên cứu hướng khai thác tập mục với độ hữu ích âm, luật kết hợp từ tập mục có độ hữu ích thấp Các nghiên cứu góp phần giúp nhà lãnh đạo có thêm hướng tiếp cận q trình lập kế hoạch kinh doanh, ví dụ: nhà lãnh đạo hoạt động siêu thị nghiên cứu măt hàng không mang lại lợi nhuận, mặt hàng kết hợp không kinh doanh hiệu Tương tự, nghiên cứu áp dụng vào nhiều lĩnh vực khác Trang 56 DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ T Mai, L T.T Nguyen (2017) An Efficient Approach for Mining Closed High Utility Itemsets and Generators Journal of Information and Telecommunication (Taylor & Francis) (Accepted) T Mai, L T.T Nguyen, B Vo (2017) A Lattice-Based Approach for Mining High Utility Association Rules Information Sciences 399, 81-97 Trang 57 TÀI LIỆU THAM KHẢO R Agrawal, T Imielinski, A Swami (1993) Mining association rules between sets of items in large databases Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, 207-216 R Agrawal, R Srikant (1994) Fast algorithms for mining association rules VLDB’94, 487–499 H Bui (2016) Khai thác tập mục hữu ích cao sở liệu động Đại Học Công Nghệ Thông Tin – Đại Học Quốc Gia TPHCM V Choi (2006) Faster Algorithms for Constructing a Concept (Galois) Lattice, arXiv:cs.DM/0602069 B A Davey, H A Priestley (1990) Introduction to Lattices and Order Cambridge University Press J Han, M Kamber (2006) Data Mining: Concepts and Techniques, 2nd edition, Morgan Kaufmann B Ho (1998) Introduction to Knowledge Discovery and Data Mining, National Center for Natural Science and Technology P Fournier-Viger, A Gomariz, A Soltani, T Gueniche (2014) SPMF: Opensource data mining library SPMF: A Java open-source pattern mining library Journal of Machine Learning Research 15(1), 3389-3393 P Fournier-Viger, C Wu, S Zida, V.S Tseng (2014) Faster high utility itemset mining using estimated utility co-occurrence pruning Proceedings 21st International Symposium on Methodologies for Intelligent Systems, 83-92 10 W Gan, J.C Lin, P Fournier-Viger, H Chao (2016) More Efficient Algorithms for Mining High-Utility Itemsets with Multiple Minimum Utility Thresholds DEXA(1), 71-87 11 G Grahne, J Zhu (2005) Fast algorithms for frequent itemset mining using FPtrees IEEE Transactions on Knowledge Data Engineering 17(10), 1347–1362 Trang 58 12 Y Liu, W Liao, A Choudhary (2005) A Two-Phase algorithm for fast discovery of high utility itemsets Proceedings of the 9th Pacific-Asia conference on Advances in Knowledge Discovery and Data Mining, 689-695 13 M Liu, J Qu (2012) Mining high utility itemsets without candidate generation Proceedings of the 21st ACM international conference on Information and knowledge management, 55-64 14 T Mai, Loan T.T Nguyen, Bay Vo (2017) A Lattice-Based Approach for Mining High Utility Association Rules Information Sciences 399, 81-97 15 L Nguyen, B Vo, T Hong (2015) CARIM: An efficient algorithm for mining class association rules with interestingness measures The International Arab Journal of Information Technology 12(6A), 627-634 16 U Priss (2000) Lattice-based information retrieval Knowledge Organization 27(3), 132–142 17 J Sahoo, A K Das, A Goswami (2015) An effective association rule mining scheme using a new generic basis Knowledge and Information Systems 43(1), 127-156 18 J Sahoo, A.K Das, A Goswami (2015) An efficient approach for mining association rules from high utility itemsets Expert Systems with Applications 42(13), 5754-5778 19 V S Tseng, C Wu, P Fournier-Viger, P S Yu (2016) Efficient Algorithms for Mining Top-K High Utility Itemsets IEEE Transactions on Knowledge and Data Engineering 28(1), 54-67 20 V.S Tseng, C Wu, B Shie, P.S Yu (2010) UP-Growth: an efficient algorithm for high utility itemset mining Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, 253-262 21 V.S Tseng, C Wu, B Shie, P.S Yu (2013) Efficient algorithms for mining high utility itemsets from transactional databases IEEE Transactions on Knowledge and Data Engineering 25(8), 1772–1786 Trang 59 22 B Vo, T Hong, B Le (2013) A lattice-based approach for mining most generalization association rules Knowledge-Based System 45, 20-30 23 B Vo and B Le (2009) Mining traditional association rules using frequent itemsets lattice 39th International Conference on Computers & Industrial Engineering, 1401-1406 24 B Vo, B Le (2011) Mining minimal non-redundant association rules using frequent itemsets lattice Journal of Intelligent Systems Technology and Applications 10(1), 92– 106 25 B Vo, B Le (2011) Interestingness for association rules: combination between lattice and hash tables Expert Systems with Applications 38(9), 11630–11640 26 B Vo, H Nguyen, B Le (2009) Mining high utility itemsets from vertical distributed databases International Conference Computing and Communication Technologies, 1-4 27 U Yun, H Ryang, K H Ryu (2014) High utility itemset mining with techniques for reducing overestimated utilities and pruning candidates Expert Systems with Applications 41(8), 3861-3878 28 M.J Zaki and C.J Hsiao (2005) Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure IEEE Transactions on Knowledge and Data Engineering 17(4), 462–478 29 S Zida, P Fournier-Viger, J.W Lin, C Wu, V.S Tseng (2016) EFIM: A Fast and Memory Efficient Algorithm for High-Utility Itemset Mining Knowledge and Information Systems (In press) DOI 10.1007/s10115-016-0986-0 Trang 60 ... hợp với CSDL 2.5 Khai thác luật kết hợp từ mẫu hữu ích cao Bài toán khai thác luật kết hợp từ mẫu hữu ích cao Sahoo đồng khởi đầu nghiên cứu đề xuất thuật tốn khai thác luật kết hợp hữu ích cao. .. khai thác luật kết hợp có tính chất tiềm ẩn có độ hữu ích cao từ sở liệu Vấn đề khai thác luật kết hợp từ tập hữu ích cao Sahoo đồng đề xuất hướng tiếp cận khai thác luật kết hợp từ tập hữu ích. .. vi nghiên cứu khai thác luật kết hợp từ mẫu hữu ích cao Trang 1.5 Nội dung nghiên cứu Nghiên cứu khai thác tập hữu ích cao sở liệu Nghiên cứu khai thác luật kết hợp từ mẫu hữu ích cao Cải tiến

Ngày đăng: 23/12/2018, 06:15

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan