Khai thác tập phổ biến đóng liên giao dịch

67 9 0
  • Loading ...
1/67 trang

Thông tin tài liệu

Ngày đăng: 02/01/2019, 10:55

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM MAI CHÍNH HỮU KHAI THÁC TẬP PHỔ BIẾN ĐÓNG LIÊN GIAO DỊCH LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM MAI CHÍNH HỮU KHAI THÁC TẬP PHỔ BIẾN ĐÓNG LIÊN GIAO DỊCH LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS VÕ ĐÌNH BẢY TP HỒ CHÍ MINH, tháng năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS TS VÕ ĐÌNH BẢY Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày… tháng… năm… Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: T T1 Chức C da hủ P P Ủ y Ủ y Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH - ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày… tháng… năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Giới tính:………… Ngày, tháng, năm sinh: Nơi sinh:………… Chuyên ngành: MSHV: …………… I- Tên đề tài: II- Nhiệm vụ nội dung: III- Ngày giao nhiệm vụ: (Ngày bắt đầu thực LV ghi QĐ giao đề tài) IV- Ngày hoàn thành nhiệm vụ: V- Cán hướng dẫn: CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cám ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn ii LỜI CÁM ƠN Trước tiên, xin gửi lời cám ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Võ Đình Bảy, người tận tình bảo hướng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tơi chân thành cám ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu Trường Đại học Công nghệ Tp HCM Tôi xin gửi lời cám ơn tới anh chị bạn học viên nhóm “Khai thác liệu” giúp nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt luận văn Cuối cùng, muốn gửi lời cám ơn vô hạn tới gia đình bạn bè, người thân u ln bên cạnh động viên tơi suốt q trình thực luận văn tốt nghiệp Tôi xin chân thành cám ơn! Học viên Mai Chính Hữu TĨM TẮT Việc khai thác tập liên giao dịch từ sở liệu lớn công việc khai thác liệu phổ biến, khai thác tập số giao dịch sở liệu giao dịch Đã có nhiều thuật tốn đề xuất cho cơng việc này, nhiên tốn mặt tính tốn Để giải vấn đề trên, luận văn này, đề xuất thuật toán hiệu gọi DIC-Miner để khai thác tập phổ biến đóng liên giao dịch Thuật toán đề xuất bao gồm bốn giai đoạn Đầu tiên, thuật toán quét sở liệu lần để tìm tất tập phổ biến có độ dài với tidset chúng Giai đoạn thứ hai, thuật toán sinh tất tập ứng viên có độ dài với giá trị span khác xếp tăng dần theo độ hỗ trợ Giai đoạn tiếp theo, dựa vào đối tượng tìm thấy giai đoạn 2, thuật tốn tìm tất tập phổ biến có độ dài lưu với diffset Trong giai đoạn 4, thuật toán sử dụng diffset kỹ thuật duyệt theo chiều sâu DFS (Depth-First-Search) để tìm tất tập phổ biến đóng liên giao dịch (FITIs) Ngoài ra, ba mệnh đề giúp tỉa sớm mẫu khơng phổ biến q trình khai thác Mệnh đề sử dụng để tỉa sớm tập khơng phổ biến liên giao dịch có độ dài 1, mệnh đề sử dụng để tính nhanh độ hỗ trợ tập, mệnh đề (subsume concept) dùng để tính nhanh độ hỗ trợ tập tỉa sớm tập không phổ biến, điều giảm không gian tìm kiếm Thơng qua kết thực nghiệm, thuật tốn đề xuất hiệu thuật toán IC-Miner thời gian khai thác nhớ sử dụng ABSTRACT Mining inter-transaction itemsets from large databases is a common data mining task, which discovers the itemsets across several transactions in a transaction database Although, several algorithms have been proposed for this task, they remain computationally expensive To address this issue, in this thesis, we propose an efficient algorithm called DIC-Miner to mine closed inter-transaction itemsets Our proposed algorithms consists of four phases First, we scan the database once to find frequent 1- itemsets with their tidsets Second, we generate inter-transaction 1-itemset candidates with the given span values and sort all the frequent 1-itemsets in an ascending order according to their supports Third, based on frequent items found in phases and 2, we find frequent 2-itemsets with their diffsets In the fourth phase, we use diffsets and DFS (Depth-First-Search) technique to find all frequent closed inter-transaction itemsets (FITIs) In addition, three propositions are also offered to early prune infrequent itemsets in the processing Proposition is used to early prune infrequent inter-transaction 1-itemsets, proposition is used to quickly compute the support of itemsets, and proposition (subsume concept) is used to quickly compute the support of itemsets and to early prune infrequent itemsets, which reduce the search space Through experimental results, we find out our proposed algorithm is more efficient then IC-Miner in both the mining time and the memory usage MỤC LỤC Chương 1: GIỚI THIỆU 1.1 Tổng quan 1.2 Giới thiệu tốn tìm tập phổ biến luật kết hợp 1.3 Mục tiêu đề tài .4 1.4 Cấu trúc luận văn Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Cơ sở liệu giao dịch (transaction) 2.1.1 Cơ sở liệu giao dịch nội (intra-transaction) 2.1.2 Cơ sở liệu liên giao dịch (inter-transaction) .6 2.1.3 Cửa sổ trượt (Sliding Window) .7 2.1.4 Quan hệ khoảng cách 2.1.5 So sánh quan hệ hai item .8 2.1.6 Inter-transaction .9 2.1.7 Inter-transaction mở rộng 2.1.8 Chiều dài tập đối tượng 2.1.9 Quan hệ hai tập đối tượng .9 2.1.10 Siêu tập đối tượng (Super-itemset) 10 2.1.11 Độ phổ biến .10 2.2 Tập phổ biến tập phổ biến đóng 10 2.2.1 Tập phổ biến 10 2.2.2 Tập phổ biến đóng .11 2.2.3 Kết nối Galois 11 2.2.4 Tốn tử đóng 12 2.2.5 Tập đóng 12 2.3 Tập phổ biến liên giao dịch 12 2.4 Tập phổ biến đóng liên giao dịch .15 2.4.1 Sử dụng hướng tiếp cận bảng băm 15 2.4.2 Sử dụng chiến lược cắt xén (Pruning Strategies) 16 2.5 Thuật toán IC–Miner (Inter – Transaction Closed Miner) 19 2.5.1 Thuật toán IC-Miner 19 2.5.2 Ví dụ minh họa 23 Chương 3: 26 KHAI THÁC TẬP PHỔ BIẾN ĐÓNG LIÊN GIAO DỊCH SỬ DỤNG DIFFSET 26 3.1 Khái niệm diffset 26 3.2 Nhận xét IT-PAIR 27 3.3 Thuật toán DIC-Miner .28 3.4 Ví dụ minh họa 30 Chương 4: 34 KẾT QUẢ THỰC NGHIỆM 34 4.1 Môi trường sở liệu thực nghiệm 34 4.2 So sánh thời gian khai thác 35 4.3 So sánh nhớ sử dụng 38 4.4 Nhận xét kết thực nghiệm 41 Chương 5: 42 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 TÀI LIỆU THAM KHẢO 44 400 350 Time (s) 300 250 200 IC-Miner 150 DIC-Miner 100 50 0 Span Hình 4.2 Biểu đồ so sánh thời gian khai thác, CHESS với minSup=95% 25 Time (s) 20 15 IC-Miner 10 DIC-Miner 85% 88% 91% Support 94% 97% Hình 4.3 Biểu đồ so sánh thời gian khai thác, ACCIDENT với maxSpan = 70 60 Time (s) 50 40 IC-Miner 30 DIC-Miner 20 10 0 Span Hình 4.4 Biểu đồ so sánh thời gian khai thác, ACCIDENT với minSup = 95% 90 80 70 Time (s) 60 50 40 IC-Miner 30 DIC-Miner 20 10 95% 96% 97% Support 98% 99% Hình 4.5 Biểu đồ so sánh thời gian khai thác, CONNECT với maxSpan = 200 180 160 Time (s) 140 120 100 IC-Miner 80 DIC-Miner 60 40 20 Span Hình 4.6 Biểu đồ so sánh thời gian khai thác, CONNECT với minSup = 95% 4.3 So sánh nhớ sử dụng 1800 1600 Memory (MB) 1400 1200 1000 800 IC-Miner 600 DIC-Miner 400 200 88% 90% 92% 94% Support 96% 98% Hình 4.7 So sánh nhớ sử dụng, CHESS với maxSpan = 14000 Memory (MB) 12000 10000 8000 IC-Miner 6000 DIC-Miner 4000 2000 0 Span Hình 4.8 So sánh nhớ sử dụng, CHESS với minSup = 95% 2500 Memory (MB) 2000 1500 IC-Miner 1000 DIC-Miner 500 85% 88% 91% Support 94% 97% Hình 4.9 So sánh nhớ sử dụng, ACCIDENT với maxSpan = 6000 Memory (MB) 5000 4000 3000 IC-Miner DIC-Miner 2000 1000 0 Span Hình 4.10 So sánh nhớ sử dụng, ACCIDENT với minSup = 95% 300000 Memory (MB) 250000 200000 150000 IC-Miner DIC-Miner 100000 50000 95% 96% 97% Support 98% 99% Memory (MB) Hình 4.11 So sánh nhớ sử dụng, CONNECT với maxSpan = 200 00 180 00 160 00 140 00 120 00 100 8000 00 6000 IC-Miner DIC-Miner 4000 2000 Span Hình 4.12 So sánh nhớ sử dụng, CONNECT với minSup = 95% 4.4 Nhận xét kết thực nghiệm Kết thực nghiệm thể qua đồ thị hình từ Hình 4.1 đến Hình 4.12 cho thấy thuật tốn đề xuất DIC-Miner khai thác hiệu thuật toán IC-Miner thời gian khai thác nhớ sử dụng Do đó, thuật tốn đề xuất luận văn xem đóng góp đáng kể việc khai thác tập phổ biến đóng liên giao dịch, giai đoạn quan trọng trình khai thác luật kết hợp sở liệu giao dịch Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Việc nghiên cứu khai thác tập phổ biến liên giao dịch công việc cần thiết khai thác liệu sở liệu giao dịch, bước quan trọng việc sinh luật kết hợp liên giao dịch Các luật kết hợp liên giao dịch giúp nắm bắt dự đốn thay đổi thông tin cần thiết thông tin dự báo khí tượng, thơng tin dự báo giá chứng khốn thị trường chứng khốn có dạng “Nếu giá chứng khốn cơng ty A tăng vào ngày thứ 1, giá chứng khốn cơng ty B giảm vào ngày thứ lại tăng vào ngày thứ 4“ Tuy nhiên, số lượng tập phổ biến liên giao dịch khai thác trường hợp lớn tốn nhớ để lưu trữ, dẫn đến tốn thời gian khai thác Các luật kết hợp liên giao dịch sinh từ tập phổ biến có nhiều tập dư thừa trùng lắp Do đó, việc khai thác tập phổ biến đóng liên giao dịch cần thiết để sinh luật kết hợp liên giao dịch đầy đủ, không dư thừa phục vụ tốt q trình dự đốn, dự báo thơng tin Luận văn đề xuất phương pháp hiệu DIC-Miner để khai thác tập phổ biến đóng liên giao dịch (frequent closed inter-transaction itemset) sử dụng diffset để giảm nhớ sử dụng cho việc lưu trữ thông tin tidset Ngoài ra, luận văn đề xuất ba mệnh đề dựa vào mệnh đề giúp tỉa sớm tập khơng phổ biến q trình khai thác tính nhanh độ phổ biến tập Kết thực nghiệm thực ba sở liệu lấy từ http://archive.ics.uci.edu/ml/datasets.html cho thấy thuật toán đề xuất DIC-Miner luận văn thực tốt thuật toán IC- Miner nhớ sử dụng thời gian khai thác Trong tương lai, nghiên cứu thuật toán khai thác tập phổ biến đóng liên giao dịch với sở liệu có phân cấp item Bên cạnh đó, áp dụng phương pháp để khai thác tập phổ biến đóng liên giao dịch, tập phổ biến tối đại liên giao dịch, tập phổ biến liên giao dịch có trọng số (frequent closed inter- transaction itemset, maximal frequent inter-transaction itemset, weighted frequent inter-transaction itemset)./ TÀI LIỆU THAM KHẢO [1] Agrawal, R., Srikant, R., 1994 Fast algorithms for mining association rules In Proc 1994 Int Conf Very Large Data Bases (VLDB’94), Santiago, Chile, 487-499 [2] Feng, L., Lu, H., Yu, J., Han, J., 1999 Mining inter-transaction association rules with templates, in: Proc ACM CIKM Intl Conf Information and Knowledge Management 225–233 [3] Feng, L., Dillon, T., Liu, J., 2001 Inter - transactional association rules for multidimensional contexts for prediction and their application to studying meteorological data Data and Knowledge Engineering 37 85-115 [4] Feng, L., Lu, H., Yu, J., Han, J., 2002 A template model for multidimensional inter- transactional association rules, VLDB journal 11 (2) 153–175 [5] Huang, K., Y., Chang, C., H., Lin, K., Z., 2005 ClosePROWL : efficient mining of closed frequent continuities by projected window list technology, in: Proceedings of the 5th SIAM International Conference on Data Mining, Newport Beach, CA, USA [6] Lee, A.J.T., Wang, C.S., 2007 An efficient algorithm for mining frequent intertransaction patterns Infomation Sciences 177 , 3453-3476 [7] Lee, A.J.T., Wang, C.S., Weng, W.Y., Chen, Y.A., Wu, H.W., 2008 An efficient algorithm for mining closed inter-transaction itemsets Data and Knowledge Engineering 66 , 68-91 [8] Le, T., Vo, B., 2015 An N-list-based Algorithm for Mining Frequent Closed Patterns, Expert Systems with Applications, 6648-6657 [9] Li, Q., Feng, L., Wong, A., 2005 From intra-transaction to generalized intertransaction: landscaping multidimensional contexts in association rule mining Information Sciences 172 (3-4), 361-395 [10] Lu, H., Han, J., Feng, L., 1998 Stock movement prediction and n-dimensional inter-transaction association rules, in: Proc Of the ACM SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery, Seattle, Washington 12:112:7 [11] Lu, H., Feng, L., Han, J., 2000 Beyond intra – transactional association analysis: mining multi – Dimensional inter – transaction association rules, ACM Transactions on Information Systems 18 (4) 423-454 [12] Pasquier, N., Bastide, Y., Taouil, R., Lakhal, L., 1999 Discovering frequent closed itemsets for association rules In7th Intl Conf On Database Theory [13] Peng, W.C., Liao, Z.X., 2009 Mining sequential patterns across multiple sequence databases Data and Knowledge Engineering 68 1014-1033 [14] Tung, K., H., Lu, H., Han, J., Feng, L., 1999 Breaking the barrier of transaction: mining inter-transaction association rules, in: Proc ACM SIGKDD Intl Conf Knowledge Discovery and Data Mining 297-301 [15] Wang, C.S., Lee, A.J.T., 2009 Mining inter-sequence patterns Expert Systems with Applicatins 36 8649-8658 [16] Wang, C.S., Chu, K.C., 2011 Using a projection-base approach to mine frequent inter-transaction patterns Expert Systems with Applications [17] Wang, C.S., Liu, Y.H., Chu, K.C., 2013 Closed inter-sequence pattern mining The Journal of Systems and Software 1603-1612 [18] Zaki, J., Hsiao, C., 1999 CHARM: An efficient algorithm for closed association rule mining In Tech Rep 99-10, Computer Science, Rensselaer Polytechnic Institute [19] Zaki, J., Hsiao, C., 2005 Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transactions on Knowledge and Data Engineering 17 (4) 462-478 ... =0.5/0.5=100% Mục tiêu việc khai thác tập phổ biến liên giao dịch tìm tập phổ biến sở liệu giao dịch với ngưỡng minSup maxSpan người dùng định nghĩa 2.4 Tập phổ biến đóng liên giao dịch [7] 2.4.1 Sử dụng... i(1345) = ACW => ACW tập đóng 2.3 Tập phổ biến liên giao dịch [6] Giới thiệu số ký hiệu mô tả khai thác tập phổ biến liên giao dịch: Định nghĩa 2.1 Xét I tập đối tượng liệu, N tập số nguyên không... việc khai thác tập phổ biến đóng liên giao dịch Bằng cách sử dụng ID- tree, tính chất tập đóng thuật tốn CHARM [18] tính chất Apriori (Downdward closure property) [1] để khai thác tập phổ biến đóng
- Xem thêm -

Xem thêm: Khai thác tập phổ biến đóng liên giao dịch , Khai thác tập phổ biến đóng liên giao dịch

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay