Một số phương pháp khai phá luật kết hợp trên cơ sở dữ liệu gia tăng

13 261 0
Một số phương pháp khai phá luật kết hợp trên cơ sở dữ liệu gia tăng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ =======   ====== NGUYỄN NGỌC QUỲNH CHÂU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ =======   ====== NGUYỄN NGỌC QUỲNH CHÂU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: GS TS Vũ Đức Thi Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan kết luận văn sản phẩm riêng cá nhân Trong toàn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tôi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan Hà Nội, ngày 15/5/2015 Ngƣời cam đoan Nguyễn Ngọc Quỳnh Châu LỜI CẢM ƠN Trƣớc tiên, xin chân thành cảm ơn tới thầy cô giáo Khoa Công nghệ thông tin, Đại học công nghệ, Đại học quốc gia nhiệt tình giảng dạy, truyền đạt kiến thức Tôi xin bày tỏ lời cảm ơn sâu sắc tới thầy giáo GS Vũ Đức Thi tận tình hƣớng dẫn, định hƣớng giải vấn đề luận văn Tôi xin cảm ơn Ban lãnh đạo đồng nghiệp Khoa Công nghệ thông tin, Đại học Thủy Lợi tạo điều kiện cho suốt trình học tập Cuối cùng, xin cảm ơn gia đình, bạn bè đồng hành trình học tập 3 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .5 DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU CHƢƠNG 1: KHAI PHÁ LUẬT KẾT HỢP 1.1 Tổng quan khai phá liệu 1.2 Giới thiệu khai phá luật kết hợp .10 1.3 Một số khái niệm [3, 5, 7] Error! Bookmark not defined 1.3.1 Cơ sở liệu giao tác Error! Bookmark not defined 1.3.2 Tập mục thƣờng xuyên Error! Bookmark not defined 1.3.3 Luật kết hợp Error! Bookmark not defined 1.4 Một số thuật toán khai phá luật kết hợp Error! Bookmark not defined 1.4.1 Thuật toán AIS Error! Bookmark not defined 1.4.2 Thuật toán Apriori Error! Bookmark not defined CHƢƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG ERROR! BOOKMARK NOT DEFINED 2.1 Mở đầu Error! Bookmark not defined 2.2 Thuật toán xử lý liệu gia tăng theo chiều dọc - Thuật toán Gia tăng Error! Bookmark not defined 2.2.1 Ý tƣởng thuật toán Error! Bookmark not defined 2.2.2 Chuyển đổi sở liệu sang chiều dọc Error! Bookmark not defined 2.2.3 Các thủ tục phụ trợ Error! Bookmark not defined 2.2.4 Tìm tập mục ứng viên Error! Bookmark not defined 2.2.5 Tính độ hỗ trợ tập mục ứng viên Error! Bookmark not defined 2.2.6 Khai phá tập thƣờng xuyên Error! Bookmark not defined 2.2.7 Xử lý liệu gia tăng Error! Bookmark not defined 2.2.8 Ví dụ minh họa Error! Bookmark not defined 2.2.9 Nhận xét thuật toán gia tăng Error! Bookmark not defined 4 2.3 Thuật toán xử lý liệu gia tăng theo chiều ngang – Thuật toán Gia tăng Error! Bookmark not defined 2.3.1 Ý tƣởng thuật toán Error! Bookmark not defined 2.3.2 Xây dựng gia tăng Error! Bookmark not defined 2.3.3 Khai phá tập thƣờng xuyên Error! Bookmark not defined 2.3.4 Lƣu trữ khôi phục gia tăng Error! Bookmark not defined 2.3.5 Ví dụ minh họa Error! Bookmark not defined 2.3.6 Nhận xét thuật toán Gia tăng Error! Bookmark not defined 2.3.7 Đề xuất ý tƣởng cải tiến cấu trúc gia tăng Error! Bookmark not defined CHƢƠNG 3: CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM ERROR! BOOKMARK NOT DEFINED 3.1 Mô tả chƣơng trình chạy Error! Bookmark not defined 3.2 Thử nghiệm đánh giá thuật toán Gia tăng Error! Bookmark not defined 3.2.1 Thử nghiệm đánh giá thuật toán nội dung 1, Error! Bookmark not defined 3.2.2 Thử nghiệm đánh giá thuật toán nội dung Error! Bookmark not defined 3.3 Kết luận Error! Bookmark not defined KẾT LUẬN ERROR! BOOKMARK NOT DEFINED TÀI LIỆU THAM KHẢO 11 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu xi tj I T X = {𝑥𝑖1 , … , 𝑥𝑖𝑘 } sup(X) S0 𝐹𝑆0 ||X|| CSDL Ý nghĩa Mục liệu thứ i Giao tác thứ j Tập hợp gồm n mục liệu {xi, …, xn} Cơ sở liệu giao tác I tập hợp gồm m giao tác T= {t1, …, tm} Tập mục liệu X gồm k mục liệu Độ hỗ trợ tập mục liệu X Ngƣỡng hỗ trợ tối thiểu cho trƣớc Tập tập thƣờng xuyên theo ngƣỡng S0 Độ dài tập X = số phần tử X Cơ sở liệu DANH MỤC HÌNH VẼ Hình 1-1: Ví dụ minh họa thuật toán AIS Error! Bookmark not defined Hình 1-2: Ví dụ thuật toán Apriori Error! Bookmark not defined Hình 2-1: Cấu trúc gia tăng Error! Bookmark not defined Hình 2-2: Cây gia tăng với giao tác đƣợc thêm vào Error! Bookmark not defined Hình 2-3: Cây gia tăng sau đƣợc khôi phục Error! Bookmark not defined Hình 2-4: Cây gia tăng mục 2.3.4 sau sử dụng thuật toán cải tiến có cấu trúc nhỏ gọn Error! Bookmark not defined Hình 3-1: Kết chạy thử nghiệm ban đầu Gia tăng Error! Bookmark not defined Hình 3-2: Cơ sở liệu test cho Apriori Gia tăng Error! Bookmark not defined Hình 3-3: Kết chạy Apriori Gia tăng liệu ban đầu hình 3.2 Error! Bookmark not defined Hình 3-4: Dữ liệu tăng thêm T’ Error! Bookmark not defined Hình 3-5: Kết chạy Apriori Gia tăng T+T’ Error! Bookmark not defined Hình 3-6: Thời gian chạy Apriori Gia tăng CSDL 1, 2, 3,4 ban đầu Error! Bookmark not defined Hình 3-7: Thời gian chạy Apriori Gia tăng CSDL 1, 2,3, sau gia tăng Error! Bookmark not defined Hình 3-8: Thời gian chạy Apriori Gia tăng CSDL 5, 6, 7, ban đầu Error! Bookmark not defined Hình 3-9: Thời gian chạy Apriori Gia tăng CSDL 5, 6, 7, sau gia tăng Error! Bookmark not defined Hình 3-10: Kết chạy Apriori Gia tăng trƣờng hợp Error! Bookmark not defined Hình 3-11: Kết chạy Apriori Gia tăng trƣờng hợp Error! Bookmark not defined Hình 3-12: Kết chạy Apriori Gia tăng trƣờng hợp Error! Bookmark not defined 7 DANH MỤC BẢNG BIỂU Bảng 1.1: Ma trận giao tác sở liệu giao tác T Error! Bookmark not defined Bảng 1.2: Biểu diễn ngang sở liệu giao tác T Error! Bookmark not defined Bảng 1.3: Biểu diễn dọc sở liệu giao tác T Error! Bookmark not defined Bảng 3.1: Giải thích tiêu đề Error! Bookmark not defined Bảng 3.2: Bộ sở liệu thứ Error! Bookmark not defined Bảng 3.3: Kết thu đƣợc sở liệu thứ Error! Bookmark not defined Bảng 3.4: Bộ sở liệu thứ hai Error! Bookmark not defined Bảng 3.5: Kết thu đƣợc sở liệu thứ hai Error! Bookmark not defined Bảng 3.6: Kết chạy Apriori Gia tăng trƣờng hợp Error! Bookmark not defined Bảng 3.7: Kết chạy Apriori Gia tăng trƣờng hợp Error! Bookmark not defined Bảng 3.8: Kết chạy Apriori Gia tăng trƣờng hợp Error! Bookmark not defined 8 MỞ ĐẦU Khai phá liệu nhằm phát tri thức giúp ích cho hoạt động ngƣời trở thành lĩnh vực quan trọng Nhiều hƣớng tiếp cận khác khai phá liệu nhƣ phân lớp, phân cụm, hồi quy, luật kết hợp Khai phá luật kết hợp kỹ thuật quan trọng đƣợc sử dụng khai phá liệu Khai phá luật kết hợp nhằm tìm đƣợc tập phần tử thƣờng xuất đồng thời sở liệu hay gọi tập mục thƣờng xuyên (frequent patterns), từ rút đƣợc luật ảnh hƣởng tập phần tử dẫn đến xuất tập phần tử khác nhƣ Khi tìm tập mục thƣờng xuyên với ngƣỡng hỗ trợ khác nhau, công việc tìm kiếm lại phải bắt đầu lại từ đầu Điều lãng phí Ngoài ra, thực tế, sở liệu đƣợc bổ sung gia tăng theo thời gian Do yêu cầu cần có thuật toán hiệu cho việc phát luật kết hợp liệu tăng thêm Xuất phát từ nhu cầu tìm hiểu số phƣơng pháp khai phá luật kết hợp bối cảnh gia tăng liệu, học viên chọn đề tài “Một số phƣơng pháp khai phá luật kết hợp sở liệu gia tăng” Nội dung luận văn đƣợc chia thành chƣơng:  Chƣơng 1: Khai phá luật kết hợp Chƣơng giới thiệu khai phá liệu, bƣớc khai phá liệu, số kỹ thuật đƣợc sử dụng khai phá liệu Tiếp theo, chƣơng đƣa khái niệm khai phá luật kết hợp nhƣ tập mục liệu, sở liệu giao tác, độ hỗ trợ, độ tin cậy luật kết hợp Hai thuật toán khai phá luật kết hợp đƣợc đề cập chƣơng AIS Apriori  Chƣơng 2: Khai phá luật kết hợp sở liệu gia tăng Chƣơng tập trung vào nghiên cứu hai thuật toán khai phá liệu sở liệu gia tăng: thuật toán khai phá luật kết hợp sở liệu gia tăng theo chiều dọc thuật toán khai phá luật kết hợp sở liệu gia tăng theo chiều ngang Trong chƣơng này, học viên đề xuất thuật toán cải tiến cấu trúc gia tăng thuật toán Gia tăng  Chƣơng 3: Cài đặt chƣơng trình thử nghiệm Chƣơng trình bày cài đặt hai thuật toán Apriori thuật toán Gia tăng Sau phần chạy thử nghiệm hai thuật toán số sở liệu nhằm đánh giá hai thuật toán ba nội dung: thử nghiệm sở liệu ban đầu, thử nghiệm sở liệu gia tăng, thử nghiệm sở liệu ổn định với ngƣỡng khai phá khác Từ rút đƣợc so sánh, nhận xét đánh giá tính hiệu thuật toán Gia tăng liệu gia tăng 9 CHƯƠNG 1: KHAI PHÁ LUẬT KẾT HỢP Nắm kiến thức khai phá liệu khái niệm liên quan đến khai phá luật kết hợp như: tập mục liệu, sở liệu giao tác, biểu diễn sở liệu giao tác, độ hỗ trợ độ tin cậy tập mục liệu, tập mục thường xuyên, toán khai phá luật kết hợp v.v… Trong phần chương này, học viên trình bày hai thuật toán khai phá luật kết hợp AIS Apriori Thuật toán Apriori nội dung sở để phục vụ cho nội dung luận văn 1.1 Tổng quan khai phá liệu Khai phá liệu (Data Mining) khái niệm đời vào năm cuối thập kỷ 1980 Chúng ta hiểu cách sơ lƣợc khai phá liệu trình tìm kiếm thông tin (tri thức) hữu ích, tiềm ẩn mang tính dự báo tập liệu lớn Theo [7]: Khai phá liệu trình phức tạp để tìm kiếm mẫu tri thức có giá trị từ lượng lớn liệu Các nguồn liệu bao gồm sở liệu, kho liệu, trang web, kho thông tin khác, liệu nhập vào hệ thống cách tự động Khai phá liệu gồm bƣớc sau [7]: Làm liệu: liệu sau thu thập đƣợc bị lỗi, nhiễu, không đầy đủ, có mâu thuẫn Những liệu dạng đƣợc xem nhƣ thông tin dƣ thừa, gây nên kết sai lệch Do đó, cần phải làm liệu nhƣ gán giá trị thiếu, sửa chữa liệu nhiễu/lỗi Tích hợp liệu: liệu từ nhiều nguồn đƣợc tích hợp với Trích lọc liệu: lấy tập liệu từ sở liệu ban đầu theo số tiêu chí định Chuyển đổi liệu: liệu đƣợc chuyển từ giá trị sang giá trị thay phù hợp cho việc khai phá liệu Khai phá liệu: sử dụng kỹ thuật phƣơng pháp để lấy đƣợc mẫu liệu (patterns.) Đánh giá mẫu: đánh giá mẫu theo tiêu chí Biểu diễn tri thức: biểu diễn mẫu trích xuất đƣợc dƣới dạng dễ hiểu nhƣ đồ thị, hình vẽ, bảng,… Một số kỹ thuật đƣợc sử dụng khai phá kết hợp (chính đƣợc sử dụng bƣớc khai phá liệu): Phân loại: phƣơng pháp phân loại cho phép phân loại đối tƣợng vào lớp Mỗi lớp đƣợc đặc trƣng số thuộc tính Ví dụ có 10 thể phân loại thành lớp xe máy khác theo thuộc tính nhƣ nhãn hiệu, phân khối, màu sắc Khi có xe so sánh thuộc tính với thuộc tính lớp đƣợc định nghĩa để phân xe vào lớp cụ thể Quá trình phân loại liệu thƣờng gồm hai bƣớc: xây dựng mô hình sử dụng mô hình để phân loại liệu  Bƣớc (bƣớc học): Xây dựng mô hình dựa việc phân tích mẫu liệu cho trƣớc  Bƣớc (bƣớc phân loại): Sử dụng mô hình để phân loại liệu Phân cụm: Phân cụm liệu trình chia tập liệu ban đầu vào tập (subsets) Mỗi tập nhƣ gọi cụm (cluster) Các phần tử cụm tƣơng tự (similar), phần tử cụm khác phi tƣơng tự với (dissimilar) Những phƣơng pháp phân cụm khác sinh cụm khác tập liệu ban đầu Phân cụm đƣợc sử dụng rộng rãi nhiều ứng dụng nhƣ kinh doanh thông minh (business intelligence), nhận dạng ảnh, tìm kiếm web, sinh học an ninh,… Hồi quy: Theo Wikipedia, hồi quy phƣơng pháp thống kê mà giá trị kỳ vọng hay nhiều biến ngẫu nhiên đƣợc dự đoán dựa vào điều kiện biến ngẫu nhiên (đã tính toán) khác Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui Poisson học có giám sát Khai phá luật kết hợp: nhằm phát phần tử thƣờng hay kèm với 1.2 Giới thiệu khai phá luật kết hợp Khai phá luật kết hợp (Mining association rules) lần đầu đƣợc Rakesh Agrawal Agrawal đƣa vào năm 1993 [5] Khai phá luật kết hợp kỹ thuật đƣợc sử dụng khai phá liệu nhằm tìm phần tử thƣờng xuất sở liệu; từ rút đƣợc luật ảnh hƣởng tập phần tử dẫn đến xuất tập phần tử khác Ví dụ, xuất A kéo theo xuất B nên ta có luật kết hợp (A→B) Dạng luật nhƣ đƣợc gọi luật kết hợp trình tìm đƣợc luật kết hợp đƣợc gọi khai phá luật kết hợp Luật kết hợp dạng luật đơn giản nhƣng mang lại nhiều ý nghĩa Thông tin mà luật kết hợp cung cấp hỗ trợ đáng kể trình đƣa định Các giải thuật khai phá luật kết hợp tìm kiếm mối liên kết phần tử liệu, ví dụ nhƣ nhóm hàng thƣờng đƣợc mua kèm với siêu thị Những nghiên cứu luật kết hợp gần tập trung xây dựng thuật toán khai phá luật kết hợp mới, hiệu cải tiến, phát triển thuật toán hiệu từ thuật toán có Chúng ta xem xét toán kinh điển khai phá luật kết hợp đƣợc nêu [7]: toán phân tích giỏ hàng Khách hàng vào siêu thị mua hàng Họ bỏ 11 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Hữu Trọng, (2007) “Thuật toán khai thác liệu tăng trưởng”, Tạp chí Khoa học Công nghệ, Viện Khoa học công nghệ Việt Nam, Số 2, tập 45, trang 9-18 [2] Nguyễn Hữu Trọng (2007), “Thuật toán khai phá tập mục liệu thường xuyên sở liệu gia tăng dựa phân lớp liệu”, Tạp chí Khoa học Công nghệ, Viên Khoa học Công nghệ Việt Nam, Số 3, tập 45, trang 15-26 [3] Nguyễn Hữu Trọng (2007), “Một số thuật toán khai phá luật kết hợp sở liệu tăng trƣởng”, Luận án tiến sĩ toán học, Viện công nghệ thông tin [4] Vũ Ðức Thi (2012), “Một số vấn đề tính toán liên quan đến sở liệu khai phá liệu", Tạp chí Khoa học Công nghệ, Viện Khoa học Công nghệ Việt Nam, số 6, tập 50, trang 679-703 Tiếng Anh [5] Rakesh Agrawal, Tomasz Imielinski T, Arun Swami (1993) “Mining association rules between sets of items in large database” In: Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp 207–216 [6] Rakesh Agrawal, Ramarkrishnan Srikant (1994) “Fast algorithms for mining association rules” In: Proceedings of the 20thVLDB conference, pp 487–499 [7] Jiawei Han, Michelin Kamber, Jian Pei, “Data Mining: Concepts and Techniques”, Third Edition, Morgan Kaufmann, pp 243-278 [8] Jiawei Han, Michelin Kamber, Jian Pei, Slide “Concepts and Techniques, 3re ed – Chapter 6”

Ngày đăng: 27/08/2016, 08:57

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan