KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG

84 233 0
KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 137 CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN o0o Luận văn tựa đề “KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG” Võ Thiện Khoa thực nộp nhằm thỏa yêu cầu tốt nghiệp Thạc sĩ ngành Khoa Học Máy Tính Ngày bảo vệ luận văn, TPHCM, ngày 05 tháng 12 năm 2015 Chủ tịch Hội đồng GS.TSKH Hoàng Văn Kiếm Đại học Quốc tế Hồng Bàng Ngày tháng năm 20 Hiệu Trưởng PGS.TS Thái Bá Cần Ngày tháng năm 20 Footer Page of 137 Người hướng dẫn PGS.TS Võ Đình Bảy Đại học Công Nghệ - TpHCM Ngày tháng năm 20 Viện Đào Tạo Sau Đại Học GS TSKH Hoàng Văn Kiếm Ngày tháng năm 20 Header Page of 137 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG Luận văn thạc sĩ: Khai thác tập mục hữu ích cao sở liệu tăng trưởng Do học viên: Võ Thiện Khoa - Cao học khóa: – Đợt - Ngành: Khoa học máy tính thực Người hướng dẫn: PGS TS Võ Đình Bảy Đã bảo vệ trước Hội đồng, ngày: 05/12/2015 theo Quyết định số ……., / ngày / Hiệu trưởng ĐH Quốc Tế Hồng Bàng Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng GS.TSKH Hoàng Văn Kiếm Chủ tịch PGS.TS Trần Công Hùng Phản biện PGS.TS Lê Hoàng Thái Phản biện TS Nguyễn Hòa Ủy viên TS Lê Xuân Trường Ủy viên, Thư ký Chủ tịch Hội đồng đánh giá Luận văn GS.TSKH Hoàng Văn Kiếm Footer Page of 137 Header Page of 137 LÝ LỊCH CÁ NHÂN  SƠ LƯỢC LÝ LỊCH - Họ tên : Võ Thiện Khoa - Ngày sinh : 16/10/1983 - Nơi sinh : Thành Phố Hồ Chí Minh - Tốt nghiệp THPT : Trường THPH Bà Điểm, xã Bà Điểm, huyện Hóc Môn, TP.HCM QUÁ TRÌNH HỌC TẬP Thời gian Nơi học tâp 2001 - 2003 Học trường Trung cấp Giao Thông Vận Tải khu vực 2004 - 2006 Học trường Cao đẳng Công Nghiệp 2007 - 2009 Học trường Đại học Kỹ Thuật Công Nghệ QUÁ TRÌNH CÔNG TÁC Thời gian Nơi công tác 2009 - 2010 Làm việc Công ty phát triển phần mềm Khoa Việt 2011 - Làm việc Bệnh viện Chợ Rẫy - Địa liên lạc: 8/5D tổ ấp Bắc Lân, xã Bà Điểm, huyện Hóc Môn, TP HCM - Email: vokhoa1610@gmail.com - Điện thoại di động: 0908.650.611 Footer Page of 137 i Header Page of 137 LỜI CAM ĐOAN  Tôi cam đoan luận văn “Khai thác tập mục hữu ích cao sở liệu tăng trưởng” nghiên cứu Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, cam đoan phần lại luận văn chưa công bố hay sử dụng để nhận cấp nơi khác Không có sản phẩm hay nghiên cứu người khác sử dụng luận văn mà không trích dẫn theo quy định TP HCM, ngày tháng năm 2015 Tác giả luận văn Võ Thiện Khoa Footer Page of 137 ii Header Page of 137 LỜI CẢM ƠN  Lời đầu xin chân thành cảm ơn TS Võ Đình Bảy tận tình truyền đạt hướng dẫn suốt thời gian thực luận văn Thầy tận tâm giúp đỡ, định hướng cho suốt thời gian nghiên cứu khoa học Thầy giúp tiếp cận với khoa học biết cách sáng tạo khoa học, với điều xã hội đạt thành công nghiên cứu Tiếp theo xin bày tỏ lòng biết ơn đến Ban Giam hiệu, quí thầy cô Viện đào tạo Sau Đại học trường Đại học Quốc tế Hồng Bàng cung cấp kiến thức quý báu cho suốt trình học tập nghiên cứu trường Cuối cùng, chân thành gởi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Vì thời gian có hạn kiến thức hạn chế, nên luận văn khó tránh khỏi thiếu sót, mong nhận đóng góp ý kiến quý báu quý thầy cô, anh chị bạn Footer Page of 137 iii Header Page of 137 TÓM TẮT  Khai thác liệu trình khám phá thông tin tìm ẩn mối liên hệ lẫn có sở liệu lớn Khai thác liệu truyền thống thường dạng tĩnh xử lý liệu thực hàng loạt Nhưng thực tế, sở liệu thường xuyên biến động cách không hiệu gây lãng phí lượng nhỏ liệu thêm vào sở liệu lớn Do đó, Hong đồng [11] đề xuất khái niệm tập gần phổ biến để khai thác tập phổ biến sở liệu tăng trưởng Tác giả xử dụng hai ngưỡng phổ biến là: ngưỡng phổ biến (tương đương với ngưỡng phổ biến tối thiểu, minSup) ngưỡng phổ biến để giảm số lần duyệt lại sở liệu gốc Thuật toán Pre-HUI thuật toán khai thác tập mục hữu ích cáo sở liệu tăng trưởng đề xuất vào năm 2014 [7] Luận văn đề xuất thuật toán khai thác tập mục hữu ích cao sở liệu trưởng dựa cấu trúc WIT (Weighted Itemset-Tidset tree) cách tỉa ứng viên có độ hữu ích thấp cải tiến bước sinh tập ứng viên trước sử dụng phương pháp khai thác liệu đề xuất Do đó, thuật toán cải thiện tốt thời gian nhớ sử dụng trình khai thác tập mục hữu ích cao Footer Page of 137 iv Header Page of 137 ABSTRACT  Data mining is the process of discovering hidden information and mutual relationships in large databases Traditional data mining is often static and data is processed in batch mode But in reality, the database is constantly fluctuating so this approach is inefficient when a small amount of data is added to the database Therefore, Hong and colleagues [11] have proposed the concept of “Pre-large” to discover nearly frequent itemsets in incremental databases The authors have used two bounds: upper bound utility and lower bound utility to reduce the number of scans on the original database Pre-HUI is an algorithm for mining high itemset utility in incremental databases [7] Thesis proposes a new algorithm for mining high itemset utility in incremental databases based on the WIT tree (Weighted itemset-Tidset tree) by pruning the low utility candidates Therefore, this new algorithm will improve the time and memory used in the process of mining high itemset utility Footer Page of 137 v Header Page of 137 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN -o0o Footer Page of 137 vi Header Page of 137 NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN -o0o Footer Page of 137 vii Header Page 10 of 137 NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN -o0o Footer Page 10 of 137 viii Header Page 70 of 137 4.2.2 So sánh thời gian chạy thực nghiệm Để so sánh đánh giá kết thực thuật toán Pre-HUI thuật toán cải tiến tác giả đưa ngưỡng SU = 1,4 ngưỡng SL = 0,6 Để trình thực nghiệm dễ hiểu tác giả xét giao dịch từ đến 130.000 Tác giả chia trường hợp để thấy chi tiết trình thực nghiệm:  Thử nghiệm 1: Giả sử CSDL ban đầu có giao dịch từ đến 120.000 10.000 giao dịch lại sẻ chia làm lần thêm vào lần 2.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.1: Thời gian thực nghiệm CSDL bán thuốc với lần thêm 2.000 giao dịch Lần Từ Trans Đến Trans 120.001 122.000 122.001 124.000 124.001 126.000 126.001 128.000 128.001 130.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 66 32 67 34 65 35 65 36 67 34 330 171 Thuật toán Pre-HUI Thuật toán cải tiến 80 Thời gian (giây) 70 60 50 40 30 20 10 122k 124k 126k 128k Số lượng giao dịch 130k Hình 4.1: Thực nghiệm CSDL bán thuốc thêm 2.000 giao dịch cho lần Footer Page 70 of 137 Trang 53 Header Page 71 of 137  Thử nghiệm 2: Giả sử CSDL ban đầu có giao dịch từ đến 110.000 20.000 giao dịch lại sẻ chia làm lần thêm vào lần 4.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.2: Thời gian thực nghiệm CSDL bán thuốc với lần thêm 4.000 giao dịch Lần Từ Trans Đến Trans 110.001 114.000 114.001 118.000 118.001 122.000 122.001 126.000 126.001 130.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 65 32 66 35 65 36 67 36 65 36 328 175 Thuật toán Pre-HUI Thuật toán cải tiến 80 70 Thời gian (giây) 60 50 40 30 20 10 114k 118k 122k 126k Số lượng giao dịch 130k Hình 4.2: Thực nghiệm CSDL bán thuốc thêm 4000 giao dịch cho lần  Thử nghiệm 3: Giả sử CSDL ban đầu có giao dịch từ đến 105.000 25.000 giao dịch lại sẻ chia làm lần thêm vào lần 5.000 giao dịch dùng để đánh giá thời gian thực thuật toán Footer Page 71 of 137 Trang 54 Header Page 72 of 137 Bảng 4.3: Thời gian thực nghiệm CSDL bán thuốc với lần thêm 5.000 giao dịch Lần Từ Trans Đến Trans 105.001 110.000 110.001 115.000 115.001 120.000 120.001 125.000 125.001 130.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 65 31 65 34 65 35 67 35 65 35 327 170 Thuật toán Pre-HUI Thuật toán cải tiến Thời gian (giây) 80 60 40 20 110k 115k 120k 125k 130k Số lượng giao dịch Hình 4.3: Thực nghiệm CSDL bán thuốc thêm 5.000 giao dịch cho lần Nhận xét: dựa vào kết thực nghiệm CSDL bán thuốc ta thấy thời gian thực thuật toán cải tiến nhanh đáng kể so với thuật toán PreHUI Khi chạy hai thuật toán ngưỡng phổ biến ngưỡng phổ biến dưới, số lượng giao dịch thêm vào nhiều thuật toán cải tiến chứng tỏ hiệu nhiều so với thực toán Pre-HUI từ cho thấy khả tỉa ứng viên thuật toán cải tiến hiệu thuật toán gốc Bên cạnh số lần quét toàn liệu thuật toán gốc góp phần làm chậm thuật toán Trong thuật toán cải tiến quét lại toàn liệu dựa Tidset việc quét CSDL tốn thời gian nhiều so với thuật toán gốc Footer Page 72 of 137 Trang 55 Header Page 73 of 137 4.3 Thực nghiệm CSDL chuẩn Ngoài CSDL bán thuốc tác giả tiếp tục tiến hành thực nghiệm CSDL chuẩn có nguồn góc từ “http://fimi.ua.ac.be/data/” để thấy đa dạng liệu, CSDL nhiều tác giả nhiều công trình nghiên cứu trước sử dụng để đánh giá thuật toán mà họ nghiên cứu lĩnh vực khai thác tập mục hữu ích cao Để thực nghiệm CSDL chuẩn tác giả chọn CSDL là: Retail MBS-POS Bảng 4.4: Các CSDL thực nghiệm chuẩn Số mục Tên CSDL Retail BMS-POS Số giao dịch 16.469 88.162 1.656 515.597 4.3.1 Thực nghiệm CSDL Retail Để so sánh đánh giá kết thực thuật toán Pre-HUI thuật toán cải tiến tác giả đưa ngưỡng SU = 1,8 ngưỡng SL = 0,9 Để trình thực nghiệm dễ hiểu tác giả xét giao dịch từ đến 80.000 Tác giả chia trường hợp để thấy chi tiết trình thực nghiệm:  Thử nghiệm 1: Giả xử CSDL ban đầu có giao dịch từ đến 75.000 5.000 giao dịch lại sẻ chia làm lần thêm vào lần 1.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.5: Thời gian thực nghiệm CSDL Retail với lần thêm 1.000 giao dịch Lần Footer Page 73 of 137 Từ Trans Đến Trans 75.001 76.000 76.001 77.000 77.001 78.000 78.001 79.000 79.001 80.000 Tổng thời gian thực Thời gian TT Pre-HUI 72 76 82 82 77 389 Trang 56 TT cải tiến 7 37 Header Page 74 of 137 Thuật toán Pre-HUI Thuật toán cải tiến 90 80 Thời gian (giây) 70 60 50 40 30 20 10 76k 77k 78k 79k Số lượng giao dịch 80k Hình 4.4: Thực nghiệm CSDL Retail thêm 1.000 giao dịch cho lần  Thử nghiệm 2: Giả xử CSDL ban đầu có giao dịch từ đến 70.000 10.000 giao dịch lại sẻ chia làm lần thêm vào lần 2.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.6: Thời gian thực nghiệm CSDL Retail với lần thêm 2.000 giao dịch Lần Footer Page 74 of 137 Từ Trans Đến Trans 70.001 72.000 72.001 74.000 74.001 76.000 76.001 78.000 78.001 80.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 76 76 75 84 79 390 35 Trang 57 Header Page 75 of 137 Thuật toán Pre-HUI Thuật toán cải tiến 90 80 Thời gian (giây) 70 60 50 40 30 20 10 72k 74k 76k 78k Số lượng giao dịch 80k Hình 4.5: Thực nghiệm CSDL Retail thêm 2.000 giao dịch cho lần  Thử nghiệm 3: Giả xử CSDL ban đầu có giao dịch từ đến 65.000 10.000 giao dịch lại sẻ chia làm lần thêm vào lần 3.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.7: Thời gian thực nghiệm CSDL Retail với lần thêm 2.000 giao dịch Lần Từ Trans Đến Trans 65.001 68.000 68.001 71.000 71.001 74.000 74.001 77.000 77.001 80.000 Tổng thời gian thực Footer Page 75 of 137 Thời gian TT Pre-HUI TT cải tiến 68 71 74 76 78 367 36 Trang 58 Header Page 76 of 137 Thuật toán Pre-HUI Thuật toán cải tiến 90 80 Thời gian (giây) 70 60 50 40 30 20 10 68k 71k 74k 77k Số lượng giao dịch 80k Hình 4.6: Thực nghiệm CSDL Retail thêm 3.000 giao dịch cho lần Nhận xét: dựa vào kết thực nghiệm CSDL Retail ta thấy thời gian thực thuật toán cải tiến nhanh nhiều so với thuật toán Pre-HUI số lượng mục (item) với CSDL Retail lớn nhiều so với CSDL bán thuốc Việc tỉa ứng viên quét liệu cách sử dụng Tidset tỏa hiệu số lượng mục lớn 4.3.2 Thực nghiệm CSDL BMS-POS Để so sánh đánh giá kết thực thuật toán Pre-HUI thuật toán cải tiến tác giả đưa ngưỡng SU = ngưỡng SL = Để trình thực nghiệm dễ hiểu tác giả xét giao dịch từ đến 500.000 Tác giả chia trường hợp để thấy chi tiết trình thực nghiệm:  Thử nghiệm 1: Giả xử CSDL ban đầu có giao dịch từ đến 450.000 50.000 giao dịch lại sẻ chia làm lần thêm vào lần 10.000 giao dịch dùng để đánh giá thời gian thực thuật toán Footer Page 76 of 137 Trang 59 Header Page 77 of 137 Bảng 4.8: Thời gian thực nghiệm CSDL BMS-POS với lần thêm 10.000 giao dịch Thời gian Lần Từ Trans Đến Trans TT Pre-HUI TT cải tiến 94 290 100 88 134 706 65 209 65 48 93 480 450.001 460.000 460.001 470.000 470.001 480.000 480.001 490.000 490.001 500.000 Tổng thời gian thực Thời gian (giây) Thuật toán Pre-HUI Thuật toán cải tiến 350 300 250 200 150 100 50 460k 470k 480k 490k Số lượng giao dịch 500k Hình 4.7: Thực nghiệm CSDL BMS-POS thêm 10.000 giao dịch cho lần  Thử nghiệm 2: Giả xử CSDL ban đầu có giao dịch từ đến 400.000 100.000 giao dịch lại sẻ chia làm lần thêm vào lần 20.000 giao dịch dùng để đánh giá thời gian thực thuật toán Footer Page 77 of 137 Trang 60 Header Page 78 of 137 Bảng 4.9: Thời gian thực nghiệm CSDL BMS-POS với lần thêm 20.000 giao dịch Từ Trans Lần Đến Trans Thời gian TT Pre-HUI TT cải tiến 74 155 110 182 97 618 50 122 81 145 63 461 400.001 420.000 420.001 440.000 440.001 460.000 460.001 480.000 480.001 500.000 Tổng thời gian thực Thuật toán Pre-HUI Thuật toán cải tiến 200 180 Thời gian (giây) 160 140 120 100 80 60 40 20 420k 440k 460k 480k Số lượng giao dịch 500k Hình 4.8: Thực nghiệm CSDL BMS-POS thêm 20.000 giao dịch cho lần  Thử nghiệm 3: Giả xử CSDL ban đầu có giao dịch từ đến 350.000 150.000 giao dịch lại sẻ chia làm lần thêm vào lần 30.000 giao dịch dùng để đánh giá thời gian thực thuật toán Footer Page 78 of 137 Trang 61 Header Page 79 of 137 Bảng 4.10: Thời gian thực nghiệm CSDL BMS-POS với lần thêm 30.000 giao dịch Thời gian Lần Từ Trans Đến Trans TT Pre-HUI TT cải tiến 69 93 152 174 102 590 50 63 107 128 62 410 350.001 380.000 380.001 410.000 410.001 440.000 440.001 470.000 470.001 500.000 Tổng thời gian thực Thời gian (giây) Thuật toán Pre-HUI Thuật toán cải tiến 200 180 160 140 120 100 80 60 40 20 380k 410k 440k 470k Số lượng giao dịch 500k Hình 4.9: Thực nghiệm CSDL BMS-POS thêm 30.000 giao dịch cho lần Nhận xét: dựa vào kết thực nghiệm CSDL BMS-POS ta thấy thời gian thực thuật toán cải tiến nhanh so với thuật toán PreHUI Độ lệnh pha hai thuật toán tương đối thấp so với thực nghiệm CSDL thực nghiệm CSDL Retail Footer Page 79 of 137 Trang 62 Header Page 80 of 137 4.4 Kết thực nghiệm Nhìn chung, thời gian thực thuật toán cải tiến nhanh so với thuật toán Pre-HUI CSDL thực nghiệm CSDL chuẩn:  Trên CSDL thực nghiệm, số lượng giao dịch tương đối lớn số lượng item mức trung bình số lượng item tham gia giao dịch trung bình item thời gian thực thuật toán cải tiến nhanh gần gấp hai lần so với thuật toán Pre-HUI  Số lượng item lớn thời gian thực thuật toán cải tiến hiệu so với thuật toán Pre-HUI so sánh CSDL Retail với số lượng item 16.469  Số lượng giao dịch lớn số lượng item mức trung bình CSDL BMS-POS thời gian thực thuật toán cải tiến nhanh so với thuật toán gốc Tuy nhiên độ lệch pha so với kết thực nghiệm CSDL Retail Footer Page 80 of 137 Trang 63 Header Page 81 of 137 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn đáp ứng nội dung đăng ký đề cương Cụ thể luận văn đạt số kết sau:  Tìm hiểu tổng quan KTDL, khai thác luật kết hợp, khai thác tập mục hữu ích cao thuật toán khai thác tập mục hữu ích cao như: Two-Phase TWU-Mining  Tìm hiểu khai thác tập mục hữu ích cao sở liệu tăng trưởng Nghiên cứu thuật toán khai thác tập mục hữu ích cao sở liệu tăng trưởng  Nghiên cứu mặt hạn chế thuật toán Pre-HUI từ đề xuất thuật toán khai thác tập mục hữu ích cao sở liệu tăng trưởng dựa cấu trúc WIT(Weighted Itemset-Tidset tree) nhằm tăng hiệu thuật toán  Thử nghiệm thành công CSDL giao dịch thực tế nhà thuốc số CSDL chuẩn lớn khác nhiều nhà nghiên cứu sử dụng, kết thực nghiệm cho thấy thời gian thuật toán cải tiến nhanh thuật toán gốc Luận văn đóng góp thuật toán mặt khoa học lĩnh vực KTDL đặc biệt khai thác tập mục hữu ích cao CSDL tăng trưởng với thời gian thực giảm bớt kế với số lượng item lớn 5.2 Hạn chế đề tài Về vấn đề thực tế liệu nghiên cứu thu thập thời điểm việc nghiên cứu hạn chế Để đạt kết tốt ta cần thu thập nhiều liệu để việc kiểm chứng xác hiệu Mặc dù thuật toán cải tiến cải thiện đáng kể mặt thời gian so với thuật toán Pre-HUI số hạn chế như: số lượng ứng viên phát sinh Footer Page 81 of 137 Trang 64 Header Page 82 of 137 nhiều làm để giảm số lượng ứng viên phát sinh từ làm giảm thời gian hướng phát triển đề tài 5.3 Hướng phát triển Trên sở nghiên cứu trình bày luận văn, tác giả tiếp tục nghiên cứu sâu thuật toán khai thác tập mục hữu ích cao CSDL tăng trưởng Hiện thuật toán Pre-HUI thuật toán cải tiến nghiên cứu việc thêm giao dịch vào CSDL gốc Ngoài ra, thực tế CSDL bị xóa bớt dòng liệu cập nhật Đó vấn đề cần quan tâm giải Bên cạnh phát triển không ngừng liệu đòi hỏi thuật toán phải phát triển thời gian xử lý hạn chế sử dụng tài nguyên hệ thống Chính hướng khai thác tập mục hữu ích cao CSDL tăng trưởng hướng nghiên cứu thú vị thực tế Footer Page 82 of 137 Trang 65 Header Page 83 of 137 DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Đại học Kinh Doanh Công Nghệ Thông Tin Hà Nội, "Giáo trình Data Mining" http://el.hubt.edu.vn/giao-trinh-dataminingkhai-pha-du-lieu.htm, (28/05/2015) [2] TS Đỗ Phúc, “Giáo trình Khai thác liệu”, Trường Đại học Công Nghệ Thông Tin - Đại học quốc gia TPHCM, 2009 [3] Hoàng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc “Giáo trình hệ sở tri thức” NXB Đại học Quốc gia TP Hồ Chí Minh, 2002 [4] Ngô Tân Khai, “Nghiên cứu phương pháp ứng viên toán khai thác tập mục hữu ích cao”, Luận văn thạc sĩ , Trường Đại học Quốc Tế Hồng Bàng, 2014 [5] Phạm Thị Hân, “Khai phá luật kết hợp CSDL phân tán”, Luận văn thạc sĩ, Trường Học Viện Công Nghệ Bưu Chính Viễn Thông, 2012 Tài liệu tiếng anh [6] B Le, H Nguyen, T A Cao, B Vo, “A Novel Algorithm for Mining High Utility Itemsets”, In Proceedings of 1st Asian Conference on Intelligent Information and Database Systems, Quang Binh, Vietnam (IEEE press), pp 13 – 17, 2009 [7] C.-W Lin, T.-P Hong, G.-C Lan, J.-W Wong, W.-Y Lin: “Incrementally mining high utility patterns based on pre-large concept” Applied Intelligence, 40(2), 343-357 (2014) [8] J Han, M Kamber, “Data Mining: Concepts and Techniques”, 2nd edition, Morgan Kaufmann, 2006 [9] J Han, J Pei, and Y Yin, “Mining frequent patterns without candidate generation”, in ACM-SIGMOD Int'l Conference on Management of Data, pp 1-12, 2000 Footer Page 83 of 137 Trang 66 Header Page 84 of 137 [10] R Agrawal, R Srikant, “Fast algorithms for mining association rules”, In VLDB'94, pp 487 – 499, 1994 [11] TP Hong , CY Wang, Tao YH (2001), “A new incremental data mining algorithm using pre-large itemsets”, Intell Data Anal 5: 111-129 [12] Y Liu , W-k Liao, A Choudhary, “A two-phase algorithm for fast discovery of high utility itemsets”, in PAKDD 2005, LNAI3518, pp 689-695 Footer Page 84 of 137 Trang 67 ... Việc khai thác tính hữu ích trở thành đề tài quan trọng khai thác liệu nhằm khám phá tập mục có độ hữu ích hay lợi nhuận cao 2.3 Giới thiệu khai thác tập mục hữu ích cao Khai thác tập mục hữu ích. .. quan khai thác liệu (KTDL), khai thác luật kết hợp phương pháp khai thác tập phổ biến Giới thiệu khai thác tập mục hữu cao thuật toán Nghiên cứu toán khai thác tập mục hữu ích cao từ sở liệu tăng. .. lại sở liệu gốc Thuật toán Pre-HUI thuật toán khai thác tập mục hữu ích cáo sở liệu tăng trưởng đề xuất vào năm 2014 [7] Luận văn đề xuất thuật toán khai thác tập mục hữu ích cao sở liệu trưởng

Ngày đăng: 27/06/2017, 14:38

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan