Khai phá tập mục lợi ích cao dựa trên cấu trúc cây tiền tố

109 155 0
Khai phá tập mục lợi ích cao dựa trên cấu trúc cây tiền tố

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ LUYẾN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO DỰA TRÊN CẤU TRÚC CÂY TIỀN TỐ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH thái nguyên - năm 2014 ii I HC THI NGUYấN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ LUYẾN [ KHAI PHÁ TẬP MỤC LỢI ÍCH CAO DỰA TRÊN CẤU TRÚC CÂY TIỀN TỐ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 Người hướng dẫn khoa học: TS LÊ VĂN PHÙNG Thái Nguyên, 2014 LỜI CAM ĐOAN Tôi xin cam đoan Luận văn "Khai phá tập mục lợi ích cao dựa cấu trúc tiền tố" thực theo mục tiêu đề hướng dẫn TS Lê Văn Phùng Kết đạt luận văn sản phẩm cá nhân tơi Trong tồn luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin chịu hồn tồn trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Thái Nguyên, ngày 29 tháng năm 2014 Người cam đoan Nguyễn Thị Luyến LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới TS Lê Văn Phùng – Trường Đại học công nghệ Thông tin Truyền thông, Thầy bảo hướng dẫn tận tình cho tơi suốt q trình làm việc thực luận văn Tôi xin chân thành cảm ơn dạy bảo, giúp đỡ, tạo điều kiện khuyến khích tơi q trình học tập nghiên cứu thầy cô giáo Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Và cuối cùng, tơi xin gửi lời cảm ơn tới gia đình, người thân bạn bè, người bên lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống cơng việc Tơi xin chân thành cảm ơn! Thái Nguyên, ngày 29 tháng năm 2014 Tác giả Nguyễn Thị Luyến MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iv DANH MỤC CÁC HÌNH VẼ vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC KÝ HIỆU ix DANH MỤC CHỮ VIẾT TẮT x MỞ ĐẦU .1 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Quá trình khám phá tri thức .3 1.1.1 Khái niệm trình khám phá tri thức khai phá liệu 1.1.2 Kiến trúc số hệ thống khai phá liệu 1.1.3 Một số ứng dụng khai phá liệu 1.2 Một số phương pháp khai phá liệu thông dụng 1.2.1 Phương pháp luật kết hợp 1.2.2 Phương pháp định 1.3 Kết luận chương 12 CHƯƠNG 2: KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN VÀ TẬP MỤC LỢI ÍCH CAO 13 2.1 Khai phá tập mục thường xuyên 13 2.1.1 Cơ sở liệu giao tác .13 2.1.2 Tập mục thường xuyên luật kết hợp 15 2.1.3 Bài toán khai phá luật kết hợp số thuật toán khai phá tập mục thường xuyên .17 2.2 Bài tốn Khai phá tập mục lợi ích cao 29 2.2.1 Khái niệm tập mục lợi ích cao .29 2.2.2 Một số toán khai phá tập mục lợi ích cao 29 2.3 Khai phá tập mục lợi ích cao dựa tiền tố 34 2.3.1 Định nghĩa tiền tố .34 2.3.2 Một số thuật tốn khai phá tập mục lợi ích cao dựa tiền tố 35 2.3.3 Các cấu trúc tiền tố cho khai phá lợi ích cao .56 2.3.4 Thuật toán UP-Growth .59 2.4 Kết luận chương 62 CHƯƠNG 3: THỰC NGHIỆM KHAI PHÁ TẬP MỤC LỢI ÍCH CAO DỰA TRÊN CẤU TRÚC CÂY TIỀN TỐ 63 3.1 Bài tốn phát nhóm mặt hàng có lợi nhuận cao .63 3.2 Mô tả liệu 63 3.3 Xây dựng chương trình 70 3.4 Thực nghiệm khai phá tìm tập mục lợi ích cao .71 3.5 Kết luận chương 72 KẾT LUẬN .73 Những kết luận văn 73 Hướng nghiên cứu 73 TÀI LIỆU THAM KHẢO .74 A Tiếng việt 74 B Tiếng Anh 74 vi i DANH MỤC CÁC HÌNH VẼ Hình 1.1 Các bước Data Mining KDD Hình 1.2 Kiến trúc hệ thống khai phá liệu Hình 1.3 Luồng thông tin sử dụng theo cách kết hợp Hình 1.4 Cây định khái niệm mua máy tính Hình 1.5 Cây định phân lớp (bad/good) mức lương 11 Hình 1.6 Các bước thực thuật toán K-Mean 12 Hình 2.1 Cây FP-tree CSDL bảng 2.5 27 Hình 2.2 Cây COFI-tree mục D 27 Hình 2.3 Minh họa bước khai phá D-COFI-tree 28 Hình 2.4 Cây TWUI-tree sau lưu giao tác T1 39 Hình 2.5 Cây TWUI-tree sau lưu giao tác T1 T2 39 Hình 2.6 Cây TWUI-tree CSDL bảng 2.9 bảng 2.10 40 Hình 2.7 Cây C-COUI-tree sau lưu mẫu CBE 42 Hình 2.8 Cây C-COUI-tree sau lưu mẫu CBE CE 43 Hình 2.9 Cây C-COUI-tree sau xây dựng xong 43 Hình 2.10 Cây D-COUI-tree 43 Hình 2.11 Cây B-COUI-tree 44 Hình 2.12 Các bước khai phá D-COUI-Tree 45 Hình 2.13 Khơng gian tìm kiếm tập mục lợi ích cao theo thuật tốn Hai pha 56 Hình 2.14 Cây TWUI-tree có mục liệu tăng dần theo trật tự từ điển sở liệu bảng 2.9 bảng 2.10 57 Hình 2.15 Cây TWUI-tree có mục liệu giảm dần theo số lần xuất chúng sở liệu bảng 2.9 bảng 2.10 57 Hình 2.16 Cây TWUI-tree có mục liệu giảm dần theo TWU chúng sở liệu bảng 2.9 bảng 2.10 58 Hình 2.17 Cây TWUI-tree CSDL bảng 2.8 với minutil = 40 62 Hình 2.18 Cây UP-tree CSDL bảng 2.8 với minutil = 40 62 Hình 3.1 Tệp CSDL.txt biểu diễn liệu đầu vào 70 Hình 3.2 Giao diện chương trình 71 Hình 3.3 Tập mục lợi ích cao 72 DANH MỤC CÁC BẢNG Bảng 1.1: Tập liệu huấn luyện định phân lớp mức lương 10 Bảng 2.1: Biểu diễn ngang sở liệu giao tác 14 Bảng 2.2: Biểu diễn dọc sở liệu giao tác 14 Bảng 2.3: Ma trận giao tác sở liệu cho bảng 2.1 15 Bảng 2.4: Cơ sở liệu giao tác minh họa thực thuật toán Apriori 21 Bảng 2.5: CSDL giao tác minh họa thực thuật toán COFI-tree 25 Bảng 2.6: Các mục liệu độ hỗ trợ 25 Bảng 2.7: Các mục liệu thường xuyên thứ tự 25 Bảng 2.8: Các mục DL giao tác xếp giảm dần theo độ hỗ trợ 26 Bảng 2.9 CSDL giao tác 32 Bảng 2.10 Bảng lợi ích 32 Bảng 2.11: Lợi ích giao tác sở liệu bảng 2.9 bảng 2.10 37 Bảng 2.12: Lợi ích TWU mục liệu 37 Bảng 2.13: Các mục liệu có lợ 38 Bảng 2.14 Các mục liệu giao tác giảm dần theo lợi ích TWU 38 Bảng 2.15 Kết tính lợi ích tập mục ứng viên .46 Bảng 2.16: Cơ sở liệu ví dụ cho thuật tốn UP-Growth 60 Bảng 2.17: Bảng lợi ích CSDL bảng 2.15 61 Bảng 2.18: Các giao tác lại mục liệu theo TWU giảm dần 61 Bảng 3.1 Dữ liệu trích chọn để khai phá 65 Bảng 3.2 Mã hóa mặt hàng 68 Bảng 3.3 Bảng lợi ích mặt hàng .69 DANH MỤC CÁC KÝ HIỆU X : Số phần tử tập hợp X A, B, C,…: Tên mục liệu sở liệu giao tác ví dụ Conf(X->Y): Độ tin cậy luật X->Y db DB : db sở liệu giao tác DB DB = {T1, T2,…, Tm}: Cơ sở liệu có m giao tác I = {i1, i2,…, in}: Tập n mục liệu Ip: Mục liệu thứ p m: Số giao tác sở liệu giao tác Minconf: Độ tin cậy tối thiểu minShare: Ngưỡng cổ phần tối thiểu minsup: Ngưỡng độ hỗ trợ tối thiểu minutil: Ngưỡng lợi ích tối thiểu n: Số mục liệu sở liệu giao tác Nếu X Y X gọi tập tập Y, Y gọi tập cha tập X P(Y/X): Xác suất có điều kiện (độ tin cậy luật Y->X) P(Y/X): Xác suất có điều kiện (độ tin cậy luật kết hợp X->Y) Sup(X): Tỷ lệ % giao tác chứa tập X Tq: Giao tác thứ q U(X): Lợi ích tập mục CSDL DB X = ABC thay cho X = {A, B, C} sở liệu giao tác ví dụ X, Y,…: Tập tập mục liệu I, X, Y I 10 DANH MỤC CHỮ VIẾT TẮT AIS CHARM CNTT CSDL Thuật toán AIS Thuật toán CHAM Công nghệ thông tin Cơ sở liệu FP-Growth SETM UP-Growth Thuật toán FP-Growth Thuật toán SETM Thuật toán UP-Growth DM HU Data Mining High Utility Khai phá liệu Khai phá tập mục lợi ích cao TWU Transaction Weighted Utility Tập mục ràng buộc lợi ích theo giao tác TWUI-tree Transaction Weighted Utility Là cấu trúc tiền tố tree KDD Knowledge Discovery from Data Phát tri thức từ liệu PT Prefix-tree Cây tiền tố Gốc C: 5, 96 Bảng đầu mục Mục liệu WU Con trỏ C 96 E 88 A 65 B 61 D 58 E: 4, 88 A: 1, D: 1, A: 2, 57 B: 1, 30 B: 2, 31 D: 1, 20 D: 1, 30 Hình 2.17: Cây TWUI-tree CSDL bảng 2.8 với minutil = 40 Gốc Bảng đầu mục Mục liệu WU Con trỏ C 96 E 88 A 65 B 61 D 58 C: 5, 13 E: 4, 27 A: 1, D: 1, A: 2, 31 B: 1, 13 B: 2, 23 D: 1, 20 D: 1, 25 Hình 2.18: Cây UP-tree CSDL bảng 2.8 với minutil = 40 (iii) Cả hai kỹ thuật (i) (ii) áp dụng tiếp cho bước khai phá UPtree xây dựng chiếu mục liệu theo phương pháp UP-growth Nhờ áp dụng kỹ thuật này, số tập mục lợi ích cao tiềm tìm giảm nhiều, giúp cho bước xác định tập mục lợi ích cao từ tập mục lợi ích cao tiềm thực nhanh chóng 2.4 Kết luận chương Chương trình bày tốn khai phá tập mục lợi ích cao, phương pháp khai phá tập mục lợi ích cao sử dụng cấu trúc tiền tố hai thuật toán khai phá COUI-Mine UP-Growth Các thuật toán khai phá tập liệu lớn nhanh hiệu thuật toán Hai pha [9], [11] sử dụng cấu trúc tiền tố CHƯƠNG THỰC NGHIỆM KHAI PHÁ TẬP MỤC LỢI ÍCH CAO DỰA TRÊN CẤU TRÚC CÂY TIỀN TỐ 3.1 Bài tốn phát nhóm mặt hàng có lợi nhuận cao Tại Siêu thị 168 Thanh Phượng thành phố Thái Nguyên, có tổng số 700 mặt hàng bày bán sàn nhà với diện tích 500 m địa Tổ – Phường Tân Thịnh – TP Thái Nguyên Hàng ngày có hàng nghìn lượt người mua hàng, nhà quản lý siêu thị sử dụng phần mềm Quản lý bán hàng quầy giao dịch để quản lý mặt hàng nhập về, mặt hàng bán hàng ngày với hoá đơn chứng từ kế toán,… Khách hàng tùy theo nhu cầu mình, lựa chọn mặt hàng cho vào giỏ, sau lựa chọn xong mặt hàng muốn mua quầy thu ngân để tốn Các tính tốn tổng cộng hố đơn thực tự động lưu vào CSDL Trên hố đơn có thơng tin hàng hố như: mã hàng, tên hàng, đơn vị tính, số lượng, đơn giá, giá trước thuế VAT, % thuế VAT, tổng thành tiền có thuế VAT,… Từ liệu bán hàng siêu thị chứa đầy đủ thơng tin cần thiết để nhà quản lý tổng kết đánh giá tình hình kinh doanh như: Sức mua khách hàng, mặt hàng bán chạy, doanh số bao nhiêu,…Từ có chiến lược kinh doanh cho phù hợp Bài toán đặt là: Từ liệu bán hàng có, tìm mặt hàng khách hàng mua mang lại lợi nhuận cao (chính tập mục lợi ích cao), kết tìm hỗ trợ ệu 3.2 Mô tả liệu Trong quý II năm 2014, CSDL giao tác siêu thị lớn, 4.500 giao tác với 550 mặt hàng bán Để thực nghiệm khai phá tập mục lợi ích cao, liệu thực nghiệm trích chọn 2.000 giao tác với 24 mặt hàng thiết yếu hàng ngày Bảng 3.1 biểu diễn phần liệu bán hàng quý I năm 2014 trích chọn Bảng 3.1 Dữ liệu trích chọn để khai phá ID Các mặt hàng giao tác Dầu gội đầu Clear 300gr – 12 cuộn/bịch(10); Bát ăn cơm men trắng 10 chiếc/01 bộ(20), Đĩa men bóng cao cấp 18,25 cm(10); 01 Cốc bầu UG (Thailand) 12 cái/01 bộ(6); Dầ Net Café in (8) (11); 3kg(5); Bánh Choco-Pie Orion 12p(5); Mì 02 Ajinomoto 400g(3), Nước lau sàn Sunlight, hương hoa Hạ, bóng & thơm mát, bình 4kg/Unilever(10); Dầu gộ 350gr(4); Giấy vệ sinh Việt – Nhật(30); Băng vệ sinh Kotex có cánh(5); Dầu gội đầu Clear 300gr (7); Quạt Vinawin thấp 450 (15); 03 75g(30); Cà phê Trung Nguyên G7 (10); – 190g(25) – 12 cuộn/bịch(10); Bát cơm men trắng 10 chiếc/01 bộ(20); QuạtănVinawin thấp 450(7); Kem đánh Close Up 350gr(4); Băng vệ sinh 04 Kotex có cánh(9); Giấy vệ sinh Việt – Nhật(2); Bàn chải đánh Thái(5); Bánh Bông Lan 450g(10); Net Café in 1(14) – 190g(20); – 12 cuộn/bịch(10); Bát ăn cơm men trắng 10 chiếc/01 bộ(6); Đĩa men bóng cao cấp 18,25 cm(5); Bánh Choco-Pie Orion 12p(2); Mì Ajinomoto 05 06 75g(4); – 190g(2) – 12 cuộn/bịch(1); Nước lau sàn Sunlight, hương hoa Hạ, bóng & thơm mát, bình 4kg/Unilever(2);Dầu gộ 350gr(20); Mì tơm Omachi 75g(1); Dầ (3); Net Café in 1(5) Dầu gội đầu Clear 300gr(2); Quạt Vinawin thấp 450(10); Giấy vệ sinh Việt – Nhật(8); B 3kg(15); Bánh Choco-Pie Orion 12p(4); Mì Ajinomoto 400g(20) – 12 cuộn/bịch(2); Bát ăn cơm men trắng 10 chiếc/01 bộ(20); Đĩa men bóng cao cấp 18,25 cm(4); Cốc bầu UG (Thailand) 12 cái/01 bộ(4); 66 07 Kem đánh Close Up 350gr(6); Giấy vệ sinh Việt – Nhật(5); Băng vệ sinh Kotex có cánh(30); 3kg(25); Dầ (13); Dầu gộ 350gr(27); Đĩa men bóng cao cấp 18,25 cm(3); Cốc bầu UG (Thailand) 12 cái/01 bộ(5); Nước lau sàn Sunlight, hương hoa Hạ, bóng & thơm mát, bình 4kg/Unilever(3); Dầu gộ Bỉ 350gr(3) 75g(5); Cà phê Trung Nguyên G7 (2); – 12 cuộn/bịch(1); Bát ăn cơm men trắng 10 chiếc/01 08 bộ(4); 09 cay 75g(3); 175gr(12); Cà phê Trung Nguyên G7 (5); Bỉ 75g(2); – 190g(2) – 12 cuộn/bịch(1); 3kg(10); Bỉm Pamper cho bé(12); Net Café in 10 11 12 13 14 (12); Mì Omachithấp 75g450 (9); (15); Cà phê Trung Ngun G7 (10); Quạttơm Vinawin 175gr(20); Mì 75g(10); Đĩa men bóng cao cấp 18,25 - cm(6); Cốc bầu UG (Thailand) 12 cái/01 bộ(10); 175gr(2); Băng vệ sinh Kotex có cánh (8); – i Châu 190g(2); Dầu xả Sunsilk mềm mượt 350g (10); Xà phòng tắm lifebuoy (15); Nước lau sàn Sunlight, hương hoa Hạ, bóng & thơm mát, bình 4kg/Unilever (2); Dầu gội 350gr (10) 175gr (5); Mì Cốc bầu UG (Thailand) 12 cái/01 (2); Dầ 15 – 3kg (1); Dầu gộ 190g (15) Số hóa Trung tâm Học liệu 75g (20); 350gr (5); http://www.lrc-tnu.edu.vn/ 67 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 68 Chuyển đổi liệu: Để chuẩn bị liệu cho khai phá, mặt hàng mã hóa tập số tự nhiên (tức ánh xạ tập mặt hàng sang tập số tự nhiên - đánh thứ tự mục liệu từ đến hết) Bảng 3.2 mơ tả việc mã hóa mặt hàng Bảng 3.2 Mã hóa mặt hàng Mã mặt hàng Tên mặt hàng A Dầu gội đầu Clear 300gr B Quạt Vinawin thấp 450 C Kem đánh Close Up 350gr D Giấy vệ sinh Việt – Nhật E F Băng vệ sinh Kotex có cánh 3kg G Bỉm Pamper cho bé H Bánh Choco-Pie Orion 12p I Xà phòng tắm lifebuoy J 175gr 75g K L Cà phê Trung Nguyên G7 M Nước mắm Chin Su Nam Ngư 750ml N – O 190g – 12 cuộn/bịch P Bát ăn cơm men trắng 10 chiếc/01 Q Đĩa men bóng cao cấp 18,25 cm R Cốc bầu UG (Thailand) 12 cái/01 S Nước lau sàn Sunlight, hương hoa Hạ, bóng & thơm mát, bình 4kg/Unilever T Dầu gộ U Bàn chải đánh Thái X Dầu xả Sunsilk mềm mượt 350g Y Mì tơm Omachi 75g Z Net Café in Số hóa Trung tâm Học liệu 350gr http://www.lrc-tnu.edu.vn/ 69 Bảng 3.3 Bảng lợi ích mặt hàng Tên mặt hàng Lợi nhuận ($/đơn vị) Dầu gội đầu Clear 300gr Quạt Vinawin thấp 450 Kem đánh Close Up 350gr Giấy vệ sinh Việt – Nhật Băng vệ sinh Kotex có cánh 3kg Bỉm Pamper cho bé Bánh Choco-Pie Orion 12p Mì Ajinomoto 400g 175gr 75g Cà phê Trung Nguyên G7 75g 190g – 12 cuộn/bịch – Bát ăn cơm men trắng 10 chiếc/01 Đĩa men bóng cao cấp 18,25 cm Cốc bầu UG (Thailand) 12 cái/01 Nước lau sàn Sunlight, hương hoa Hạ, bóng & thơm mát, bình 4kg/Unilever Dầu gộ 350gr Bàn chải đánh Thái Dầu xả Sunsilk mềm mượt 350g Mì tơm Omachi 75g Net Café in 1 Mì tơm Ozion 50gr Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 70 Tiếp đến, liệu tiền xử lý đưa dạng Text, ghi tệp CSDL.txt có cấu trúc sau: Hình 3.1 Tệp CSDL.txt biểu diễn liệu đầu vào Mã mặt hàng số thứ tự cột, mã cách dấu cách, dòng, ứng với cột mã hàng ghi số lượng hàng bán giao tác khơng có mặt hàng Tệp CSDL.txt biểu diễn liệu tiền xử lý, chuẩn bị cho khai phá tập mục lợi ích cao Kết khai phá ánh xạ ngược lại để xác định tên mặt hàng 3.3 Xây dựng chương trình Chương trình thử nghiệm áp dụng Thuật tốn COUI - Mine cơng cụ Visual C# 2012 Chương trình thiết kế khơng cần cài đặt, kích đúp vào biểu tượng COUI - Mine.exe giao diện chương trình hình 3.2: Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 71 Hình 3.2 Giao diện chương trình 3.4 Thực nghiệm khai phá tìm tập mục lợi ích cao Với CSDL mã hóa (hình 3.1) Trước tìm tập mục lợi ích cao ta xem lại CSDL bán hàng bảng lợi ích, sau nhập ngưỡng lợi ích (%) nhấn nút chạy chương trình Kết tập mục lợi ích cao liệt kê phía Giả sử nhập ngưỡng lợi ích 30% kết sau: Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 72 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 73 Hình 3.3 Tập mục lợi ích cao Giải thích : Nhóm mặt hàng mặt hàng mang lại lợi nhuận cao Nếu lấy ánh xạ ngược trở lại ta tên mặt hàng tương ứng - Lợi ích: Là tổng lợi ích mà nhóm mặt hàng bán - Phần trăm lợi ích: Là tổng lợi ích nhóm mặt hàng bán tính theo phần trăm 3.5 Kết luận chương Chương trình bày cụ thể toán bán hàng siêu thị với nhiều mặt hàng có lợi nhuận khác nhau, thực nghiệm tìm mặt hàng, nhóm mặt hàng có lợi nhuận cao dựa lý thuyết nêu chương Sau đưa vào thử nghiệm kết thực nghiệm khai phá liệu tệp CSDL.TXT khẳng định vấn đề lý thuyết khai phá tập mục lợi ích cao trình bày chương Qua thực nghiệm với ngưỡng lợi ích khác nhận thấy rằng: Khi ngưỡng lợi ích thấp số tập mục lợi ích cao tìm thấy nhiều Kết khai phá tập mục lợi ích cao chương trình thực nghiệm tìm phát nhóm mặt hàng mang lại lợi nhuận cao, từ hỗ trợ tốt cho nhà quản lý siêu thị việc tổ chức kinh doanh ngày phát triển thêm nhiều mặt hàng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ KẾT LUẬN Những kết luận văn Luận văn nghiên cứu mơ hình mở rộng tốn tìm tập mục thường xun tốn tìm tập mục lợi ích cao Từ toán giới thiệu có nhiều thuật tốn nhiều nhóm nghiên cứu giới đề xuất Vì cần phải lựa chọn nghiên cứu thuật toán hiệu cách sâu sắc để góp phần hệ thống lại kiến thức lĩnh vực khám phá tri thức khai phá liệu Mục tiêu luận văn muốn giúp cho người nghiên cứu tiếp cận nhanh kiến thức cập nhật giới lĩnh vực Luận văn khái quát vấn đề khai phá liệu khai phá tập mục thường xuyên, trình bày khái niệm cách tiếp cận để khai phá tập mục lợi ích cao Đồng thời trình bày chi tiết hai thuật tốn điển hình dựa cấu trúc dạng tiền tố tìm tập mục lợi ích cao: thuật tốn COUI-Mine UP-Growth Các thuật tốn minh họa qua ví dụ cụ thể có nhận xét tính hiệu Phần thực nghiệm, luận văn xây dựng chương trình khai phá phát nhóm mặt hàng mang lại lợi nhuận cao tập liệu bán hàng siêu thị 168 Thanh Phượng Hướng nghiên cứu Trên sở nghiên cứu trình bày luận văn, tiếp tục nghiên cứu sâu thuật tốn khai phá tập mục lợi ích cao, tìm cách cải tiến nhằm nâng cao hiệu thuật toán để áp dụng vào số toán khai phá liệu đặt nhiều lĩnh vực, đặc biệt lĩnh vực kinh doanh TÀI LIỆU THAM KHẢO A Tiếng việt [1] Nguyễn Huy Đức (2009), “Khai phá tập mục cổ phần cao lợi ích cao sở liệu” Luận án tiến sĩ toán học, Viện Công nghệ Thông tin, Hà Nội [2] Đỗ Phúc (2007), ”Bài giảng môn học: Khai thác liệu”, Trường Đại học Quốc gia, TP Hồ Chí Minh [3] TS Lê Văn Phùng, Ths Quách Xuân Trưởng (2012), “Khai phá liệu”, Nhà xuất Thông tin truyền thông [4] Nguyễn Nhật Quang (2010), ”Bài giảng môn học: Khai phá liệu”, Trường Đại học Bách khoa Hà Nội [5] Vũ Đức Thi, Nguyễn Huy Đức (2008), “Thuật tốn hiệu khai phá tập mục lợi ích cao cấu trúc liệu cây”, Tạp chí tin học điều khiển học B Tiếng Anh [6] Yao H., Hamilton H J., and Geng L (2006), “A Unified Framework for Utility Based Measures for Mining Itemsets”, UBDM’06 Philadelphia, Pennsylvania, USA [7] Agrawal R And Srikant R (1994), “Fast algorithms for mining association rules”, in proceeding of 20th International Conference on Very Large Databases, Santiago, Chile [8] El-Hajj M and Zaiane Osmar R (2003), “COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc 2003 Int’l Conf.on Data Mining and Knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA [9] Erwin A., Gopalan R P., & Achuthan N R (2007), “A Bottom-Up Projection Based Algorithm for Mining High Utility Itemsets”, IEEE 7th International Conferences on Computer and Information Technology, Aizu Wakamatsu, Japan [10] Han J and M Kamber (2006), “Data Mining-Concepts and Techniques” (Second Edition), Morgan Kaufmann Publishers [11] Liu Y., W Liao K., and Choudhary A (2005), “A fast high utility itemsets mining algorithm”, in Proc 1st Intl conf on Utility-Based Data Mining, Chicago Chicago Illinois, pp.90-99, USA [12] Yao H., Hamilton H J (2006), “Mining Itemsets Utilities from Transaction Databases”, Data and Knowledge Engeneering, Vol 59, issue ... tin tập mục lợi ích cao khai phá tập mục lợi ích cao khơng ?” Với mục ích tìm hiểu tốn tập mục lợi ích cao thuật toán khai phá dựa cấu trúc tiền tố, em chọn đề tài Khai phá tập mục lợi ích cao. .. trình khai phá tập mục lợi ích cao Trong chương trình bày khái niệm tập mục thường xuyên tập mục lợi ích cao, cấu trúc tiền tố thuật toán khai phá tập mục lợi ích cao sử dụng cấu trúc tiền tố CHƯƠNG... 2.2.1 Khái niệm tập mục lợi ích cao .29 2.2.2 Một số tốn khai phá tập mục lợi ích cao 29 2.3 Khai phá tập mục lợi ích cao dựa tiền tố 34 2.3.1 Định nghĩa tiền tố .34

Ngày đăng: 11/02/2019, 19:11

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan