Luận văn khai phá luật kết hợp trên dữ liệu dãy

64 351 0
Luận văn khai phá luật kết hợp trên dữ liệu dãy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B ộ• GIÁO DỤC • VÀ ĐÀO TẠO • TRƯỜNG ĐẠI HỌC s PHẠM HÀ NỘI • • • • ===8oEŨ!g8=== LÊ THỊ THU HÀ KHAI PHÁ LUẬT KẾT HỢP TRÊN D ữ LIỆU DÃY Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ MÁY TÍNH Người hướng dẫn khoa học: TS Nguyễn Long Giang HÀ NỘI, 2015 LỜI CẢM ƠN Bằng kính trọng lòng biết ơn sâu sắc, em xin trân thành cảm ơn T.s Nguyễn Long Giang, người tận tình hướng dẫn giúp đỡ em suốt trình nghiên cứu hoàn thành luận văn Em xin trân thành cảm ơn thầy cô khoa Công nghệ thông tin, phòng Sau đại học Trường Đại học Sư phạm Hà Nội 2, thầy cô trực tiếp giảng dạy toàn khóa học truyền thụ kiến thức quý báu tạo điều kiện thuận lợi cho em suốt trình học tập nghiên cứu trường Trong trình nghiên cứu, hoàn thiện luận văn khó tránh khỏi thiếu sót Rất mong nhận góp ý Quý thầy cô bạn bè đồng nghiệp quan tâm đến luận văn Vĩnh Phúc, ngày 06 tháng 12 năm 2015 Học viên Lê Thị Thu Hà LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học TS Nguyễn Long Giang Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Học viên Lê Thị Thu Hà MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iii DANH MỤC CÁC BẢNG iv DANH MỤC CÁC H ÌN H V MỞ ĐẦ U .1 CHƯƠNG 1: TÔNG QUAN VỀ KHAI PHÁ TẬP MỤC THƯỜNG X U Y ÊN 1.1 Các khái niệm b ả n 1.1.1 Cơ sở liệu giao tá c 1.1.2 Tập mục thường xuyên luật kết hợ p 1.1.3 Các tính chất tập mục thường xuyên 1.1.4 Bài toán khai phá luật kết h ợ p 1.2 Thuật toán A p rio ri 1.3 Thuật toán FP-Growth 12 1.4 Tập mục thường xuyên có trọng số sở liệu giao tác 19 1.5 Kết luận chương 21 CHƯƠNG 2: KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN CÓ TRỌNG SỐ 23 2.1 Bài toán khai phá mẫu dãy thường xuyên với trọng số chuẩn h ó a 24 2.1.1 Các khái niệm b ả n 24 2.1.2 Cơ sở toán học cho toán khai phá mẫu dãy thường xuyên với trọng số chuẩn h ó a 25 2.1.3 Ví dụ minh họa 28 ii 2.2 Thuật toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa (W prefixSpan) 35 2.2.1 Mô tả thuật toán W prefixSpan 35 2.2.2 Độ phức tạp thuật toán W prefixSpan 36 2.3 Kết luận chương 37 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC THUẬT T O Á N .38 3.1 Công cụ thử nghiệm 38 3.2 Số liệu thử nghiệm 38 3.3 Môi trường thử nghiệm 39 3.4 Ket thử nghiệm đánh giá thuật to n .39 3.4.1 So sánh thời gian thực thuật toán PrefixSpan WPrefixSpan 39 3.4.2 So sánh số mẫu dãy thường xuyên thuật toán PreíixSpan W PrefixSpan 40 3.4.3 So sánh nhớ sử dụng thuật toán PrefixSpan WPrefixSpan 40 3.4.4 So sánh độ dài mẫu dãy thường xuyên thuật toán PrefixSpan W PrefixSpan 41 3.5 Kết luận chương 41 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 PHỤ LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Diễn giải CSDL Cơ sở liệu TID Transction Identifcation w Tập trọng số mục L Tập tất mục thường xuyên ck Tập k-tập mục ứng viên Lk Tập k-tập mục thường xuyên SC(X) Số đếm hỗ trợ tập mục X WFIk Tập k-tập mục thường xuyên có trọng số WFI Tập tất tập mục thường xuyên có trọng số MaxW Trọng sô có giá trị lớn nhât CSDL giao tác MinW Trọng số có giá trị nhỏ tập mục điều kiện min_weight Ngưỡng trọng sô thiêu min_sup Ngưỡng hỗ trợ tối thiểu support Độ hỗ trợ tập mục conf Độ tin cậy minconf Độ tin cậy cực tiểu DANH MỤC CÁC BẢNG Bảng 1.1 Biểu diễn ngang sở liệu giao tá c Bảng 1.2 Biểu diễn dọc sở liệu giao tá c Bảng 1.3 Ma trận giao tác sở liệu bảng 1.1 Bảng 1.4 CSDL giao tác minh họa thực thuật toán Apriori 10 Bảng 1.5 CSDL giao tác minh họa cho thuật toán FP- growth 13 Bảng 1.6 CSDL giao tác 21 Bảng 1.7 Trọng số m ụ c 21 Bảng 2.1 Cơ sở liệu dãy s 28 Bảng 2.2 Giá trị trọng số mục liệu 28 Bảng 2.3 Cơ sở liệu điều kiện với tiền tố < a > 31 Bảng 2.4 Cơ sở liệu điều kiện với tiền tố < a a> 32 Bảng 2.5 Cơ sở liệu điều kiện với tiền tố 33 V DANH MỤC CÁC HÌNH • H ình 1.2 Cây FP-tree xây dựng dần thêm giao tác ti, t2, t3 14 H ình 1.3 Cây FP-tree CSDL DB b ả n g 15 Hình 1.4 FP-tree phụ thuộc m 17 Hình 1.5 Các FP-tree phụ thuộc am, cm c a m 18 Hình 3.1 Thời gian thực thuật toán PreíixSpan W prefixSpan 39 H ình 3.2 Số mẫu dãy thường xuyên thuật toán PreíixSpan WprefixSpan „40 H ình 3.3 Bộ nhớ sử dụng thuật toán PreíixSpan W prefixSpan 40 H ình 3.4 Độ dài mẫu dãy thường xuyên thuật toán PreíixSpan WprefixSpan 41 MỞ ĐẦU Lý chọn đề tài Khai phá luật kết hợp (Mining association rules) toán quan trọng ữong lĩnh vực khai phá liệu Khai phá luật kết hợp giới thiệu Agrawal [2] vào năm 1994 phân tích sở liệu bán hàng siêu thị, phân tích sở thích mua khách hàng cách tìm mặt hàng khác khách hàng mua lần mua Những thông tin giúp người quản lý kinh doanh tiếp thị chọn lọc thu xếp không gian bày hàng hợp lý hơn, giúp cho kinh doanh hiệu Bài toán khai phá luật kết hợp bao gồm hai toán Bài toán thứ tìm tập mục thường xuyên (Frequent itemset) thỏa mãn ngưỡng hỗ trợ tối thiểu cho trước, toán thứ hai sinh luật kết hợp (Association rule) thỏa mãn ngưỡng tin cậy cho trước từ tập mục thường xuyên tìm Mọi khó khăn toán khai phá luật kết hợp tập trung toán thứ nhất, khai phá tất tập mục thường xuyên thỏa mãn ngưỡng độ hỗ trợ cho trước, nghiên cứu khai phá luật kết hợp phần lớn tập ữung vào toán khai phá tập mục thường xuyên Bài toán khai phá tập mục thường xuyên Agrawal cộng đề xuất [2] gọi toán khai phá tập mục thường xuyên nhị phân giá trị mục liệu giao tác 1, tức quan tâm mục liệu có xuất giao tác hay không Do đó, toán mang ngữ nghĩa thống kê, không phản ánh vai trò khác thuộc tính đặc tính liệu vốn có chúng sở liệu Đe đáp ứng yêu cầu thực tiễn, toán khai phá tập mục thường xuyên có nhiều cách thức mở rộng ứng dụng Một hướng mở rộng xem xét mức độ quan ữọng khác mục liệu cách gán cho mục giá trị gọi trọng số (số lượng giá trị tập mục) Khi đó, toán khai phá luật kết hợp kinh điển trở thành toán khai phá luật kết hợp có trọng số [3] Hướng mở rộng thu hút quan tâm nhà nghiên cứu khai phá luật kết hợp dãy liệu, gọi liệu dãy (sequence) Khi đó, toán khai phá tập mục thường xuyên trở thành toán khai phá mẫu dãy thường xuyên (Mining sequential patterns) toán khai phá luật kết hợp truyền thống trở thành toán khai phá luật kết hợp dãy [5, 6, 7, 8, 9] Khai phá luật kết hợp dãy có ứng dụng thực tiễn cao ữong thực tế tồn phổ biến dãy liệu như: dãy liệu mua sắm khách hàng, dãy liệu mô tả nhật ký truy cập Website Như trình bày trên, hướng nghiên cứu mở rộng khai phá luật kết hợp liệu dãy có ý nghĩa khoa học thực tiễn cao Do đó, chọn đề tài “K hai phá luật kết hợp liệu dãy” Mục đích nghiên cứu Nắm bắt kiến thức tổng quan toán khai phá luật luật kết hợp kinh điển hướng nghiên cứu mở rộng khai phá luật kết hợp có trọng số liệu dãy Trên sở cài đặt, thử nghiệm, đánh giá thuật toán ữên số liệu mẫu 3.Nhiệm vụ nghiên cứu Nắm bắt khái niệm thuật toán khai phá luật kết hợp kinh điển Apriori, FP-Growth Tìm hiểu thử nghiệm thuật toán khai phá tập mục thường xuyên có trọng số sở liệu dãy, gọi khai phá mẫu dãy thường xuyên có trọng số Đổi tượng phạm vi nghiên cứu - Đổi tượng nghiên cứu: Là sở liệu dãy - Phạm vỉ nghiên cứu' Nghiên cứu hướng mở rộng toán khai phá tập mục thường xuyên liệu dãy Phương pháp nghiên cứu - Nghiên cứu lý thuyết Tìm hiểu khái niệm, thuật toán công bố khai phá mẫu dẫy thường xuyên có trọng số - Nghiên cứu thực nghiệm: Luận văn thực cài đặt thuật toán, chạy thử nghiệm đánh giá kết thực thuật toán Cấu trúc luận văn Luận văn gồm: Lời mở đầu, ba chương nội dung, phần kết luận, tài liệu tham khảo phụ lục 42 kiểm tra để thực tỉa mục ứng viên mẫu dãy thường xuyên với trọng số chuẩn hóa, cho phép giảm đáng kể không gian tìm kiếm đảm bảo tính phản đơn điệu giải thuật Với nhận xét kết thử nghiệm số liệu mẫu cho phép kết luận: thuật toán WPrefixSpan thuật toán hiệu để khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa 43 KẾT LUẬN Những kết luận văn 1) Tìm hiểu nắm bắt khái niệm toán khai phá luật kết hợp Nắm bắt thuật toán kinh điển Apriori thuật toán FP-Growth theo cấu trúc khai phá tập mục thường xuyên 2) Xây dựng thuật toán khai mẫu dãy thường xuyên với trọng số chuẩn hóa WprefixSpan dựa thuật toán khai phá mẫu dãy thường xuyên PreíixSpan [5] đưa vào trọng số tập mục 3) Thử nghiệm so sánh hai thuật toán PreíixSpan WprefixSpan dựa tiêu chí: thời gian thực hiện, số mẫu dãy thường xuyên thu được, nhớ sử dụng độ dài mẫu dãy thường xuyên Kết thử nghiệm cho thấy thuật toán WprefixSpan hiệu PreíĩxSpan bốn tiêu chí sử dụng Hướng nghiên cứu đề tài Áp dụng thuật toán khai phá mẫu dãy thường xuyên có trọng số chuẩn hóa xây dựng phương pháp khai phá luật kết hợp dãy có trọng số vào toán thực tiễn lĩnh vực kinh doanh, tài chính, ngân hàng 44 TÀI LIỆU THAM KHẢO Tiếng Việt: Nguyễn Huy Đức, Khai phá tập mục cổ phần cao lợi ích cao sở liệu, Luận án tiến sĩ toán học, Viện Công nghệ thông tin, 2010 Tiếng Anh: Agrawal R And Srikant R., “Fast algorithms for mining association rules”, in proceedings o f 20th International Conference on Very Large Databases, Santiago, Chile, 1994 C.H.Cai, A.W.Chee Fu, C.H.Cheng, and W.W.Kwong “Mining Association Rules with Weighted Items”, IDEAS '98 Proceedings o f the 1998 International Symposium on Database Engineering & Applications, pp.68-77, 1998 J.Han, J.Pei, and Y.Yin, “Mining Frequent Patterns without Candidate Generation,” Proceedings o f the 2000 ACM SIGMOD International Conference on Management o f Data, pp 1-12 J.Pei, J.Han, B.M.Asi, and H.Pino PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Patte Growth Proceedings o f the Seventeenth International Conference on Data Engineering:2\5-224, 2001 Zhuo Zhang, Lu Zhang, Shaochun Zhong, Jiwen Guan, A New Algorithm for Mining Sequential Pattern, FSKD 2008:625-629, 2008 Floriana Esposito, Nicola Di Mauro, Teresa Maria Altomare Basile, Stefano Ferilli, Multi-Dimensional Relatio Sequence Mining, Fundarn Inform 89, 2008, pp 23-43 Yu Ning, Hongbin Yang, Sequence Mining for User Behavior Patterns in Mobile Commerce, CMECG ’08 Proceedin o f the 2008 International Conference on Management o f e-Commerce and e-Government: 2008, pp 6164 Ming-Yen Lin, Sue-Chen Hsueh, Ming-Hong Chen, Hong-Yang Hsu, Mining Sequential Patterns for Ima Classification in Ubiquitous Multimedia Systems, 45 Intelligent Information Hiding and Multimedia Signal Proccessi 2009(IIHM SP ’09), 2009, pp 303-306 10 The UCI machine learning repository, PHỤ LỤC Một sấ giao dỉện chương trình thử nghiệm Giao diện hình I Luân: v ă n t h a c gỹ - Lẻ T h i T h u H ằ File Tham 30 T h u ậ tlo n Thuật toán khai phá tập m ục th n g xuyên FP-Grow th Thuật toán khai m i mẫu dãy th n g xuyên P re ỉix S p a n Thuật toán khai m i mẫu dãy th n g xuyên có trọng số chuẩn hóa W P re fix S p a n Lẽ Thị Thu Hà Thừ nghiệm thuật 10án PretĩxSpan WPrefixSpan Phiên 1.0 Ị q I [ẼLỈ Ị l B É w d Nạp liệu 2.2 Nạp tệp liệu đẫy [i+j Luận* văn thạc sỹ - L ê Thị Thu H ằ File Tham sổ Thuật toán vể phần m ềm Nạp file d ữ liệu dãy Nạp file trọng só X ỏ a lĩiằ n hinh Thoát Lé Thị Thu Hà T nghiệm thuật 1q án Prefix Span WPrefixSpan Phiên bãn 1.0 2.2 Nạp tệp liệu trọng sổ U ; I Luận văn thạc sỹ - Lê Thị Tbu Hà * File Tham sổ Thuật toán p h ầ E i Nạptlle-dữliệu dãy Hạplile trọng sổ Xóa hình Thoát Lẻ Thị Thu Hà Thử nghiệm ihuặi toần PrelĩxSpan WPreflxSpan Phiên băn 1.0 1tã! \mtàmÀ Thực thuật toán PrefixSpan w Prefix Span l-jfrl L u ậ n v a n thac s ỹ - L ê T h j Thu H File Tham só T h u ậl toán Thuật toán khai phá tập m ục th n g xuyên FP-Growth Thuật toán khai mâ m ẫu dãy th n g Kuyên P refixSp an Thuật toán khai mã m ẫu dãy th n g xuyên có trọng s ố c h u n hóa W P re fixS p a n Lẽ Thị Thu Hà Tnử ngniệm tnuậttoân PreTixSpan WPrefixSpan Phiên bân 1.0 Ị.rõl Kết thực thuật toán WprefixSpan sổ liệu mẫu Kết thực thuật toán WPrefixSpan số liệu mẫu BMS-WebViewl địa http://www.vhilivve-fournier-viger.com/svmf/datasets/BMSl svmf với giá trị trọng số mục ữong khoảng 0,3< Wj [...]... Thut toỏn WprefixSpan c xõy dng da trờn thut toỏn khai phỏ mu dóy thng xuyờn (khụng cú trng s) PreớixSpan [5] bng cỏch a vo trng s ca mu dóy (da trờn ý tng thut toỏn khai phỏ tp mc thng xuyờn cú trng s trong [3] 23 CH NG 2: KHAI PH MU DY THNG XUYấN Cể TRNG S Khai phỏ mu dóy (Mining Sequential Patterns) l mt trong nhng lnh vc rt quan trng trong nghiờn cu khai phỏ d liu v c ỏp dng trong nhiu lnh vc khỏc...3 Chng 1: Trỡnh by tng quan v bi toỏn khai phỏ tp mc thng xuyờn, bao gm cỏc khai nim c bn v hai thut toỏn kinh in: thut toỏn Apriori [2] v thut toỏn FP-Growth [4] Chng 2: Trỡnh by thut toỏn khai phỏ mu dóy thng xuyờn vi trng s chun húa (WprefixSpan) da trờn thut toỏn khai phỏ mu dóy thng xuyờn PreớixSpan trong [5] bng cỏch a vo trng s ca mu dóy Chng 3:... 1.1.4 Bi toỏn khai phỏ lut kt hp Cho c s d liu giao tỏc DB, ngng h tr ti thiu mnsup v ngng tin cy ti thiu minconf Yờu cu: Tỡm tt c cỏc lut kt hp X > y trờn c s d liu DB sao cho sup(X >Y) > minsup v conf(X > Y ) > m in co n f Bi toỏn khai phỏ lut kt hp ny c gi l bi toỏn c bn hay bi toỏn nh phõn, vỡ õy giỏ tr ca mc d liu trong c s d liu l 0 hoc 1 (xut hin hay khụng xut hin) Bi toỏn khai phỏ lut kt... trung gii quyt bi toỏn th nht l tỡm cỏc tp mc thng xuyờn Phn tip theo sau õy s ỡnh by chi tit v khai phỏ tp mc thng xuyờn 1.2 Thut toỏn Apriori Apriori l thut toỏn khai phỏ tp mc thng xuyờn do R Agrawal v R Srikant xut vo nm 1994 [2] í tng ca thut toỏn Apriori cũn l nn tng cho vic phỏt trin nhiu thut toỏn khai phỏ tp mc thng xuyờn khỏc v sau í tng chớnh ca thut toỏn nh sau: sinh ra cỏc tp mc ng viờn... Thc hin phng phỏp khai phỏ phỏt trin (growth) tng on da trờn cõy FP-tree gi l phng phỏp FP-growth (3) K thut tỡm kim c dựng õy l da vo s phõn chia, chia tr, phõn ró nhim v khai phỏ thnh cỏc nhim v nh hn Thut toỏn FP-growth do nộn ton b c s d liu lờn mt cu trỳc d liu 13 nh hn l cõy FP-tree nờn trỏnh c vic duyt nhiu ln c s d liu (thut toỏn ch duyt c s d liu 2 ln) Tip theo thut toỏn khai phỏ cõy bng... s cỏc khỏi nim c bn trong khai phỏ lut kt hp v hai thut toỏn in hỡnh trong khai phỏ tp mc thng xuyờn l thut toỏn Apriori v FP-growth Thut toỏn Apriori tiờu biu cho phng phỏp sinh ra cỏc tp mc ng viờn ri duyt c s d liu kim tra h tr ca chỳng, thut toỏn FP-growth i din cho phng phỏp khụng sinh ra cỏc tp mc ng viờn m nộn c s d liu 22 lờn cu trỳc cõy Chng 2 s trỡnh by thut toỏn khai phỏ mu dóy thng xuyờn... trong [5] bng cỏch a vo trng s ca mu dóy Chng 3: Trỡnh by phn ci t, th nghim v ỏnh giỏ thut toỏn WprefixSpan trờn mt s b d liu mu 4 CH NG 1: TNG QUAN V KHAI PH TP MC THNG XUYấN Chng ny trỡnh by mt s khỏi nim c bn trong khai phỏ lut kt v hai thut toỏn khai phỏ tp mc thng xuyờn kinh in: thut toỏn Apriori [2] v thut toỏn FP-Growĩi [4] 1.1 Cỏc khỏi nim Ctf bn 1.1.1 Ctf s d liu giao tỏc nh ngha 1.1 Cho tp... Mc ớch chớnh ca khai phỏ mu dóy l phỏt hin tt c cỏc dóy con xut hin lp li trong mt c s d liu theo yu t thi gian Hin nay trờn th gii cú nhiu nhúm tỏc gi nghiờn cu xut cỏc thut toỏn vi cỏc phng phỏp tip cn khai phỏ mu dóy khỏc nhau [5, 6, 7, 8, 9] nhm gii quyt s a dng ca cỏc loi bi toỏn cng nh a ra cỏc hng ci tin nhm gim thiu chi phớ thi gian v ti nguyờn h thng Cỏc thut toỏn hin nay khai phỏ mu dóy... toỏn khai phỏ mu dóy thng xuyờn vi trng s chun húa Lun vn khụng ch quan tõm n s ln xut hin ca cỏc dóy ( h tr) m cũn quan tõm n mc quan trng khỏc nhau (trng s) ca chỳng Trng tõm chớnh i vi khai phỏ mu dóy thng xuyờn vi trng s chun húa l xõy dng gii thut nhm tha món tớnh cht phn n iu (downward closure property) Lun vn s dng tớnh cht rng buc gia h tr v trng s ca dóy sinh cỏc tp ng viờn trong khai phỏ... khi vn s dng tớnh cht phn n iu cho phộp cõn bng h tr v trng s ca mt dóy Trong chng 2, tụi trỡnh by bi toỏn v thut toỏn khai phỏ mu dóy thng xuyờn vi trng s chun húa WprefixSpan da trờn thut toỏn khai phỏ mu dóy thng xuyờn PrefixSpan bng cỏch a thờm trng s vo cỏc tp mc 24 2.1 Bi toỏn khai phỏ mu dóy thng xuyờn vi trng s chun húa 2.1.1 Cỏc khỏi nim C tf Cho I = {, i2, bn i j l tp hp cỏc mc d liu Mi mc

Ngày đăng: 09/05/2016, 10:28

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan