Khai phá tập mục thường xuyên lợi ích cao trong cơ sở dữ liệu

27 154 0
Khai phá tập mục thường xuyên lợi ích cao trong cơ sở dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN AN KHÁNH KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn THÁI NGUYÊN - 2012 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN AN KHÁNH KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: GS TS: Vũ Đức Thi THÁI NGUYÊN - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Lời cho xin gửi lời cảm ơn chân thành biết ơn sâu sắc đến GS TS Vũ Đức Thi – Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam, ngƣời thầy đáng kính bảo hƣớng dẫn tận tình cho suốt trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn dậy bảo, giúp đỡ, tạo điều kiện khuyến khích trình học tập nghiên cứu thầy cô giáo Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam Xin chân thành cảm ơn Ban Giám hiệu thầy cô giáo Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên, nơi học tập làm việc, xin đƣợc gửi lời cảm ơn chân thành sâu sắc đến thầy cô Và cuối cùng, xin gửi lời cảm ơn tới gia đình, bạn bè đồng nghiệp – ngƣời bên lúc khó khăn nhất, động viên tôi, khuyến khích sống công việc Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 20 tháng năm 2012 Tác giả Nguyễn An Khánh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “ Khai phá tập mục thƣờng xuyên lợi ích cao sở liệu “ đƣợc thực theo mục tiêu đề dƣới hƣớng dẫn GS TS Vũ Đức Thi Trong toàn luận văn, điều đƣợc trình bày cá nhân đƣợc tổng họp từ nhiều nguồn tài liệu Tất loại tài liệu có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Thái Nguyên, ngày 20 tháng năm 2012 Tác giả Nguyễn An Khánh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Trong luận văn này, dùng thống ký hiệu chữ viết tắt sau: Các ký hiệu: I = {i1,i2,…,in}: Tập n mục liệu DB = {T1,T2,…,Tm}: Cơ sở liệu có m giao tác db: sở liệu giao tác DB, db  DB ip: Mục liệu thứ p Tq: Giao tác thứ q n: Số mục liệu sở liệu giao tác m: Số giao tác sở liệu giao tác A, B, C,…: Tên mục liệu sở liệu giao tác ví dụ X, Y,…: Tập tập mục liệu I, X, Y  I X = ABC thay cho X={A,B,C} sở liệu giao tác ví dụ Nếu X  Y X gọi tập tập Y, Y gọi tập cha tập X minsup: Ngƣỡng độ hỗ trợ tối thiểu minShare: Ngƣỡng cổ phần tối thiểu minutil: Giá trị lợi ích tối thiểu X: Số phần tử tập hợp X Viết tắt: CSDL: Cơ sở liệu CNTT: Công nghệ Thông tin CNTT TT: Công nghệ Thông tin Truyền thông DL: Dữ liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC MỞ ĐẦU .7 Chƣơng KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG 1.1MỞ ĐẦU 1.2CÁC KHÁI NIỆM CƠ BẢN 10 1.2.1 Cơ sở liệu giao tác 10 1.2.2 Tập mục thƣờng xuyên luật kết hợp 13 1.2.3 Bài toán khai phá luật kết hợp 14 1.3 KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN .15 1.3.1 Các cách tiếp cận khai phá tập mục thƣờng xuyên 15 1.3.2 Thuật toán Apriori 16 1.3.3 Thuật toán FP-growth 21 1.4 MỞ RỘNG BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 27 1.5 KẾT LUẬN CHƢƠNG .28 Chƣơng KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 30 2.1 GIỚI THIỆU 30 2.2 BÀI TOÁN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 32 2.3 THUẬT TOÁN COUI-Mine1 35 2.3.1 Xây dựng TWUI-tree 37 2.3.2 Khai phá TWUI-tree 42 2.3.3 Đánh giá thuật toán COUI-Mine1 51 2.3.3.1: Bƣớc xây dựng TWUI-tree: 51 2.3.3.2: Bƣớc khai phá TWU-tree 52 2.3.4 Nhận xét thuật toán COUI-Mine1 54 2.3.5 Khai phá tƣơng tác với TWUI-tree 55 2.4 THUẬT TOÁN COUI-Mine2 57 2.4.1 Xây dựng UP-tree 57 2.4.2 Khai phá UP-tree 59 2.4.3 Ví dụ áp dụng minh họa 61 2.4.3.1 Xây dựng UP-tree 62 2.4.3.2 Khai phá UP-tree 64 2.4.4 Nhận xét thuật toán COUI-Mine2 68 2.5 THUẬT TOÁN COUI-Mine3 70 2.5.1 Cơ sở thuật toán 70 2.5.2 Xây dựng khai phá mảng giao tác 71 2.5.2.1 Xây dựng mảng giao tác 71 2.5.2.2 Khai phá mảng giao tác : 75 2.5.3 Nhận xét thuật toán COUI-Mine3 78 2.6 KẾT LUẬN CHƢƠNG .80 Chƣơng THỰC NGHIỆM THUẬT TOÁN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 81 PHẦN KẾT LUẬN .85 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Ngày nay, với phát triển không ngừng ngành công nghệ thông tin truyền thông vào nhiều lĩnh vực đời sống văn hóa xã hội, quản lý kinh tế, khoa học kỹ thuật, … tạo nhiều sở liệu khổng lồ Để khai thác hiệu nguồn thông tin liệu lớn, hỗ chợ tiến trình định, bên cạnh phƣơng pháp khai thác thông tin truyền thống khuynh hƣớng kỹ thuật đời Kỹ thuật Khai phá liệu khám phá tri thức (KDD – Knownledge Discovery and DataMining) lĩnh vực quan trọng nghành Công nghệ thông tin Đây lĩnh vực thu hút đƣợc đông đảo nhà khoa học giới nƣớc tham gia nghiên cứu Khai phá tập mục thƣờng xuyên toán có vai trò quan trọng nhiều nhiệm vụ khai phá liệu Mô hình khai phá tập mục thƣờng xuyên có nhiều ứng dụng thực tế bên cạnh có hạn chế, không đáp ứng đƣợc nhu cầu ngƣời sử dụng Để đáp ứng yêu cầu thực tiễn, số hƣớng mở rộng toán đƣợc quan tâm nghiên cứu, theo hƣớng này, từ toán khai phá tập mục thƣờng xuyên ban đầu nhà nghiên cứu đề xuất mô hình mở rộng, số có mô hình Khai phá tập mục lợi ích cao, đánh giá lợi ích mà tập mục liệu mang lại sở liệu Khai phá tập mục lợi ích cao thực lĩnh vực thu hút nhiều nhà nghiên cứu tham gia Trong luận văn này, trình bày ba thuật toán khai phá tập mục lợi ích cao dựa cấu trúc đơn giản cách khai phá không đệ quy (Thuật toán COUIMine1, COUI-Mine2, COUI-Mine 3) Các thuật toán đề xuất sử dụng cấu trúc FP-tree đƣợc Han, Wang Yin giới thiệu năm 2000 cách khai phá FPtree không đệ quy cấu trúc COFI-tree Mohammad El-Hajj Osmar R Zaiane đề xuất năm 2003 Hai thuật toán đầu sử dụng cấu trúc FP-tree để xây dựng chứa thông tin giao tác, sau khai phá để tìm tập Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn mục lợi ích cao Thuật toán thứ chuyển đổi liệu thành mạng ma trận để lƣu nhớ ngoài, sau chuyển đổi sang dạng biểu diễn mới, khai phá ngƣỡng lợi ích khác Thuật toán thứ ba khai phá đƣợc tập liệu lớn hầu nhƣ toàn liệu đặt nhớ ngoài, đƣa vào nhớ phần nhỏ liệu để khai phá Ba thuật toán đề xuất thực khai phá hiệu lí do: 1) Số lần duyệt sở liệu ít, 2) Không sinh khối lƣợng khổng lồ tập ứng viên, giảm chi phí toán 3) sử dụng tiết kiệm nhớ Với thời gian kiến thức hạn chế, luận văn không tránh khỏi thiếu sót, mong đƣợc quan tâm định hƣớng thầy cô giáo góp ý bạn đồng nghiệp để báo cáo hoàn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG 1.1 MỞ ĐẦU Khai phá tập mục thƣờng xuyên đóng vai trò quan trọng nhiều nhiệm vụ khai phá liệu Khai phá tập mục thƣờng xuyên xuất nhƣ toán nhiều lĩnh vực khai phá liệu nhƣ khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tƣơng quan, phân lớp, phân cụm liệu, khai phá Web,…Bài toán khai phá tập mục thƣờng xuyên đƣợc giới thiệu lần đầu Agrawal vào năm 1993 phân tích sở liệu bán hàng siêu thị, mô hình toán khai phá luật kết hợp Khai phá luật kết hợp phát mối quan hệ giá trị liệu sở liệu, mối quan hệ luật kết hợp Khai phá luật kết hợp có hai bƣớc: bƣớc thứ nhất, tìm tập mục thƣờng xuyên thỏa mãn ngƣỡng độ hỗ trợ tối thiểu minsup cho trƣớc, bƣớc thứ hai, từ tập mục thƣờng xuyên tìm đƣợc, sinh luật kết hợp thỏa mãn ngƣỡng độ tin cậy minconf cho trƣớc Mọi khó khăn toán khai phá luật kết hợp tập trung bƣớc thứ nhất, khai phá tất tập mục thƣờng xuyên thỏa mãn ngƣỡng độ hỗ trợ cho trƣớc Kể từ Agrawal đề xuất, khai phá tập mục thƣờng xuyên thu hút đƣợc quan tâm nhiều nhà nghiên cứu, có hàng trăm kết nghiên cứu đƣợc công bố giới thiệu thuật toán hay đề xuất giải pháp nâng cao hiệu thuật toán có Tập mục thƣờng xuyên có vai trò quan trọng nhiều ứng dụng thực tế nhƣ quản lý quan hệ khách hàng, nâng cao hiệu thƣơng mại điện tử, lĩnh vực tin sinh học, phân tích cấu trúc Protein DNA, mở rộng truy vấn, phát xâm nhập mạng,… Mô hình khai phá tập mục thƣờng xuyên có nhiều ứng dụng thực tế nhƣng có hạn chế, không đáp ứng đầy đủ yêu cầu ngƣời sử dụng Rằng buộc độ hỗ trợ độ tin cậy luật kết hợp mang ngữ nghĩa thống kê, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 không phản ánh đƣợc vai trò khác thuộc tính nhƣ đặc tính liệu vốn có chúng sở liệu Để đáp ứng yêu cầu thực tiễn, khai phá tập mục thƣờng xuyên có nhiều cách thức mở rộng ứng dụng, từ thay đổi phƣơng pháp luận đến thay đổi đa dạng kiểu liệu, mở rộng nhiệm vụ khai phá đa dạng ứng dụng Trong năm qua, có nhiều hƣớng mở rộng toán đƣợc quan tâm nghiên cứu Chƣơng trình bày vấn đề toán khai phá tập mục thƣờng xuyên số mở rộng toán 1.2 CÁC KHÁI NIỆM CƠ BẢN Khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu Mục tiêu khai phá phát mối quan hệ giá trị liệu sở liệu Mô hình toán khai phá luật kết hợp mô hình nhị phân (hay gọi mô hình bản) đƣợc R.Agrawal, T.Imielinski A.Swami đề xuất vào năm 1993, xuất phát từ nhu cầu phân tích liệu sở liệu giao tác, phát mối quan hệ tập mục hàng hóa (Itemsets) bán đƣợc siêu thị Việc xác định quan hệ không phân biệt vai trò khác nhƣ không dựa vào đặc tính liệu vốn có thuộc tính mà dựa vào xuất lúc chúng Phần tiếp sau nêu số khái niệm phát biểu toán khai phá luật kết hợp, toán dẫn đến toán khai phá tập mục thƣờng xuyên 1.2.1 Cơ sở liệu giao tác Định nghĩa 1.1: Cho tập mục (item) I={i1,i2,…,in} Một giao tác (transaction) T tập I, T  I Cơ sở liệu giao tác tập giao tác DB ={T1,T2,…,Tm} Mỗi giao tác đƣợc gán định danh TID Một tập mục X  I, gồm k mục phân biệt đƣợc gọi k-tập mục Giao tác T gọi chứa tập mục X X  T Biểu biễn sở liệu giao tác: Cơ sở liệu giao tác thƣờng đƣợc biểu diễn dạng biểu diễn ngang, biểu diễn dọc biểu diễn ma trận giao tác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... toán khai phá tập mục thƣờng xuyên ban đầu nhà nghiên cứu đề xuất mô hình mở rộng, số có mô hình Khai phá tập mục lợi ích cao, đánh giá lợi ích mà tập mục liệu mang lại sở liệu Khai phá tập mục lợi. .. TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 27 1.5 KẾT LUẬN CHƢƠNG .28 Chƣơng KHAI PHÁ TẬP MỤC LỢI ÍCH CAO 30 2.1 GIỚI THIỆU 30 2.2 BÀI TOÁN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO ... đề toán khai phá tập mục thƣờng xuyên số mở rộng toán 1.2 CÁC KHÁI NIỆM CƠ BẢN Khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu Mục tiêu khai phá phát mối quan hệ giá trị liệu sở liệu Mô

Ngày đăng: 21/04/2017, 13:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan