khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị

62 482 5
khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Trƣớc hết, tôi xin bày tỏ lòng biết ơn tới các thầy cô giáo trƣờng Đại học Công nghệ thông tin & truyền thông đã tận tâm giảng dạy, cung cấp cho tôi kiến thức, phƣơng pháp nghiên cứu trong khoá học vừa qua. Đặc biệt tôi xin đƣợc bày tỏ sự biết ơn sâu sắc đến thầy giáo hƣớng dẫn PGS.TS Đoàn Văn Ban, ngƣời đã tận tình hƣớng dẫn, giúp đỡ và động viên để tôi thực hiện luận văn này. Xin cảm ơn Ban giám hiệu trƣờng Đại học Công nghệ thông tin & truyền thông, gia đình và các bạn đồng nghiệp đã tạo điều kiện giúp đỡ tôi trong thời gian vừa qua. ii Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung bản luận văn theo đúng nội dung đề cƣơng cũng nhƣ nội dung mà cán bộ hƣớng dẫn giao cho. Nội dung luận văn này là do tôi tự sƣu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài. Nội dung luận văn này chƣa từng đƣợc công bố hay xuất bản dƣới bất kỳ hình thức nào và cũng không đƣợc sao chép từ bất kỳ một công trình nghiên cứu nào. Tất cả phần mã nguồn của chƣơng trình đều do tôi tự thiết kế và xây dựng, trong đó có sử dụng một số thƣ viện chuẩn và các thuật toán đƣợc các tác giả xuất bản công khai và miễn phí trên mạng Internet. Nếu sai tôi xin tôi xin hoàn toàn chịu trách nhiệm. Thái Nguyên, tháng 10 năm 2011 TÁC GIẢ LUẬN VĂN Bùi Thị Trung Thành iii Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH V Ẽ vi DANH MỤC CÁC BẢNG vii PHẦN MỞ ĐẦU 1 CHƢƠNG 1 KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 3 1.1 KHO DỮ LIỆU 3 1.1.1 Các chiến lƣợc xử lý và khai thác thông tin 3 1.1.2 Định nghĩa kho dữ liệu 4 1.1.3 Mục đích của kho dữ liệu 5 1.1.4 Đặc tính của dữ liệu trong kho dữ liệu 6 1.2 Khai phá kho dữ liệu 8 1.2.1 Định nghĩa khai phá dữ liệu 9 1.2.2 Các ứng dụng của khai phá dữ liệu 10 1.2.3 Các bƣớc của quá trình khai phá dữ liệu 11 1.2.4 Các phƣơng pháp khai phá dữ liệu 12 1.2.5. Lựa chọn phƣơng pháp 17 1.2.6. Thách thức trong ứng dụng và nghiên cứu kỹ thuật khai phá dữ liệu 18 CHƢƠNG 2 KHAI PHÁ LUẬT KẾT HỢP 23 2.1 Vài nét về khai phá luật kết hợp 23 2.2 Luật kết hợp 24 2.2.1. Mô hình hình thức 24 2.2.2 Một số hƣớng tiếp cận trong khai phá luật kết hợp 26 2.2.3 Phát biểu bài toán phát hiện luật kết hợp 28 2.2.4 Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân 30 2.3 Thuật toán AprioriTID 38 2.4 Thuật toán AprioriHybrid 41 iv Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.5 Thuật toán K-Nearest Neighbors 42 2.6 Thuật toán K-Means 43 2.7 Kết luận cuối chƣơng 46 CHƢƠNG 3. CHƢƠNG TRÌNH THỰC NGHIỆM 48 3.1 Giới thiệu bài toán 48 3.2 Tóm tắt và phân tích và thiết kế hệ thống 48 3.3 CSDL vật lý với MS SQL Server 2008 49 3.4 CSDL của chƣơng trình 50 3.5 Một số chức năng và giao diện 50 KẾT LUẬN 54 1. Kết quả đạt đƣợc trong luận văn 54 2. Hƣớng nghiên cứu tiếp theo 54 TÀI LIỆU THAM KHẢO 55 v Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Ý nghĩa Candidate itemset Một itemset trong tập C k đƣợc sử dụng để sinh ra các large itemset C k Tập các candidate k-itemset ở giai đoạn thứ k Confidence Độ tin cậy của luật kết hợp CSDL Cơ sở dữ liệu DM Data mining – Khai phá dữ liệu Frequent/large itemset Một itemset có độ hỗ trợ (support) >= ngƣỡng độ hỗ trợ tối thiểu ID Identifier Item Một phần tử của itemset Itemset Tập của các item k-itemset Một itemset có độ dài k L k Tập các Large itemset ở giai đoạn thứ k TID Transaction Identifier Transaction Giao dịch Classification Phân loại Candidate Dự tuyển vi Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH V Ẽ STT Ý NGHĨA TRANG Hình 1.1 Luồng dữ liệu trong một tổ chức 5 Hình 1.2 Mối quan hệ và cách nhìn nhận trong hệ thống 6 Hình 1.3 Quy trình phát hiện tri thức 11 Hình 2.1 Thiết lập để xác định danh giới các cụm ban đầu 43 Hình 2.2 Tính toán trong tâm các cụm mới 43 Hình 3.1 Mô hình quan hệ thực thể đã đƣợc lƣợc bỏ & tóm gọn 48 Hình 3.2 Cơ sở sữ liệu vật lý 48 vii Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG Bảng Ý nghĩa Trang 1.1 Tính thời gian của dữ liệu 8 2.1 Minh hoạ bài toán phát hiện luật kết hợp 30 2.2 Hệ thống thông tin nhị phân mua bán hàng hoá 34 2.3 Các luật kết hợp từ hệ thông tin nhị phân mua bán hàng hoá 37 Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 1 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn PHẦN MỞ ĐẦU Lý do chọn đề tài Trong những năm gần đây, với sự phát triển công nghệ thông tin chúng ta thấy một thực tế là con ngƣời có trong tay một lƣợng dữ liệu rất lớn nhƣng với những kỹ thuật khai thác cũ không còn phù hợp nữa nó nhƣờng chỗ cho những kỹ thuật mới hơn nhƣ là khai phá dữ liệu.Khai phá dữ liệu đã trở thành một trong những lĩnh vực chính đƣợc các nhà khoa học quan tâm nghiên cứu bởi tính ứng dụng cao trong thực tiễn cuộc sống. Đối tượng nghiên cứu: Nghiên cứu các vấn đề về phát hiện luật kết hợp trong quá trình khai phá dữ liệu: Lịch sử vấn đề, luật kết hợp trong khai phá dữ liệu và một số thuật toán đã và đang đƣợc nghiên cứu. Phạm vi nghiên cứu: Luận văn tập trung nghiên cứu các thuật toán phát hiện luật kết hợp trong các kho dữ liệu và khả năng ứng dụng của chúng để phát hiện tri thức. Nội dung luận văn: Nếu nhƣ lĩnh vực phân lớp/phân cụm dữ liệu đã đƣợc nghiên cứu ứng dụng khá lâu thì vấn đề khai phá luật kết hợp gần đây mới đƣợc đề cập. Hiện nay việc phát hiện luật kết hợp đang trở thành một khuynh hƣớng quan trọng của khai phá dữ liệu. Luật kết hợp là luật ngầm định một số quan hệ kết hợp giữa một tập các đối tƣợng mà các đối tƣợng có thể độc lập hoàn toàn với nhau. Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu. Để nghiên cứu sâu hơn về khai phá luật kết hợp, đặc biệt là về khả năng áp dụng một số thuật toán phát hiện luật kết hợp trong CSDL lớn và cài đặt thử nghiệm trong thực tế, tôi chọn đề tài: “Khai phá dữ liệu và phát hiện luật kết hợp trong Cơ sở dữ liệu siêu thị ”. Luận văn bao gồm ba chƣơng: Chƣơng 1: Kho dữ liệu và khai phá dữ liệu Trình bày kiến thức tổng quan về khai thác và xử lý thông tin: - Định nghĩa kho dữ liệu, khai phá dữ liệu - Các phƣơng pháp khai phá dữ liệu phổ biến và ứng dụng của chúng. Chƣơng 2: Khai phá luật kêt hợp Trình bày các bài toán trong khai phá dữ liệu, phát hiện luật kết hợp: Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - Khái niệm về luật kết hợp và các phƣơng pháp khai phá luật kết hợp - Khai phá luật kết hợp dựa trên sự phân chia không gian tìm kiếm. - Một số thuật toán khai phá dữ liệu phát hiện luật kết hợp nhƣ: AprioriTID, AprioriHyrid, K-Nearest Neighbors(K- láng giềng),K-Means. Chƣơng 3: Chƣơng trình thử nghiệm Nội dung của chƣơng là trình bày kết quả xây dựng chƣơng trình và kết quả chạy chƣơng trình thử nghiệm khai phá luật kết hợp trên CSDL thử nghiệm là các file dữ liệu bán hàng của siêu thị sách. Phương pháp nghiên cứu: Tìm, chọn lọc và đọc các tài liệu liệu quan về kho dữ liệu, phát hiện luật kết hợp và các phƣơng pháp khai phá dữ liệu có liên quan đến quá trình khai phá dữ liệu từ kho thông tin khổng lồ của các tác giả trong nƣớc hay ngoài nƣớc đã và đang nghiên cứu. Từ đó rút ra đƣợc các kiến thức cần thiết để hoàn thành nhiệm vụ nghiên cứu đã đặt ra ở trên. Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 3 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG 1 KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 KHO DỮ LIỆU 1.1.1 Các chiến lƣợc xử lý và khai thác thông tin Trong những năm gần đây, với sự phát triển công nghệ thông tin chúng ta thấy một thực tế là con ngƣời có trong tay một lƣợng dữ liệu rất lớn nhƣng với những kỹ thuật khai thác cũ nhƣ SQL không còn phù hợp nữa nó nhƣờng chỗ cho những kỹ thuật mới hơn nhƣ là khai phá dữ liệu. Khai phá dữ liệu đã trở thành một trong những lĩnh vực chính đƣợc các nhà khoa học quan tâm nghiên cứu bởi tính ứng dụng cao trong thực tiễn cuộc sống. Khai phá dữ liệu đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực nhƣ: Tài chính và thị trƣờng chứng khoán, Thƣơng mại, Giáo dục, y tế, sinh học, bƣu chính viễn thông….với nhiều hƣớng tiếp cận nhƣ: Phân lớp/ Dự đoán, Phân cụm, Luật kết hợp,…. Các kỹ thuật khai phá dữ liệu thƣờng đƣợc chia thành 2 nhóm chính: - Kỹ thuật khai pha dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. - Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đƣa ra các dự đoán dựa vào suy diễn trên dữ liệu hiện thời. Ba phƣơng pháp thông dụng nhất là: khai phá luật kết hợp, phân cụm dữ liệu và phân lớp dữ liệu. - Khai phá luật kết hợp: mục tiêu của phƣơng pháp này là phát hiện và đƣa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm đƣợc. - Phân cụm dữ liệu: Mục tiêu chính của phƣơng pháp phân cụm dữ liệu là nhóm các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc cùng một lớp là tƣơng đống còn các đối tƣợng thuộc các cụm khác nhau sẽ tƣơng đồng. - Phân lớp dữ liệu và hồi quy: Mục tiêu của phƣơng pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho dữ liệu (Data Warehouse) và phát triển một khuynh hƣớng kỹ thuật mới đó là kỹ [...]... Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 10 khai phá dữ liệu: Định nghĩa của Ferruzza: Khai phá dữ liệu là tập hợp các phƣơng pháp đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chƣa biết bên trong dữ liệu Định nghĩa của Parsaye: Khai phá dữ liệu. . .Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 4 thuật phát hiện tri thức và khai phá dữ liệu (KDD-Knowledge Discovery and Data Mining) Vậy, trƣớc tiên ta xem xét một vài khái niệm cơ bản liên quan đến CSDL, kho dữ liệu … 1.1.2 Định nghĩa kho dữ liệu Thông thƣờng chúng ta coi dữ liệu nhƣ một dãy các bit, hoặc các số và các ký hiệu, hoặc... http://www.lrc-tnu.edu.vn Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 28 biệt hoặc mang rất nhiều ý nghĩa) Khai thác luật kết hợp song song (parallel mining of association rules): Bên cạnh khai thác luật kết hợp tuần tự, các nhà làm tin học cũng tập trung vào nghiên cứu các thuật giải song song cho quá trình phát hiện luật kết hợp Nhu cầu song song hoá và xử lý phân... http://www.lrc-tnu.edu.vn Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 5 Hình 1.1 Luồng dữ liệu trong một tổ chức Dữ liệu cá nhân không thuộc phạm vi quản lý của hệ quản trị kho dữ liệu Nó chứa các thông tin đƣợc trích xuất ra từ các hệ thống dữ liệu tác nghiệp, kho dữ liệu và từ những kho dữ liệu cục bộ của những chủ đề liên quan bằng các phép gộp, tổng hợp hay xử lý... phƣơng pháp trên có thể đƣợc phỏng theo và đƣợc tích hợp vào các hệ thống lai để khai phá dữ liệu theo thống kê trong nhiều năm nghiên cứu Tuy nhiên, với dữ liệu rất lớn trong kho dữ liệu thì các phƣơng pháp này cũng đối diện với thách thức về mặt hiệu quả và quy mô Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu. .. liệu tổng hợp Dữ liệu tác nghiệp thuần tuý không đƣợc lƣu trữ trong DW Dữ liệu tổng hợp đƣợc tích hợp lại qua nhiều giai đoạn khác nhau theo các chủ điểm đã nêu ở trên 1.2 Khai phá kho dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 9 Nếu cho rằng các điện tử và các sóng... ổn định trong cây quyết định sẽ đƣợc tỉa bớt Kỹ thuật tỉa trƣớc là việc dừng sinh cây quyết định khi chia dữ liệu không có ý nghĩa e Phƣơng pháp phát hiện luật kết hợp Phƣơng pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm đƣợc Ta có thể lấy một ví dụ đơn giản về luật kết hợp nhƣ sau: sự kết hợp giữa... chứa cả S và U Vấn đề khám phá luật kết hợp đƣợc phát biểu nhƣ sau:  Cho trƣớc tỉ lệ hỗ trợ (support ration)  và độ tin cậy (confidence)   Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn  Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 24 và  tƣơng... để phát hiện tri thức, những tri thức này sau đó đƣợc sử dụng để hƣớng dẫn cho việc tìm kiếm khai phá dữ liệu hoặc sử dụng sự phân bố và xác suất dữ liệu trƣớc đó nhƣ một dạng mã hóa tri Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 22 thức có sẵn 1.3 Kết luận cuối chƣơng Trong. .. toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đƣa ra tính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có Tùy theo bài toán xác định đƣợc mà ta lựa chọn các phƣơng pháp khai phá dữ liệu cho phù hợp Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Khai phá dữ liệu và phát hiện luật kết hợp trong . bài toán trong khai phá dữ liệu, phát hiện luật kết hợp: Khai phá dữ liệu và phát hiện luật kết hợp trong cơ sở dữ liệu siêu thị - Bùi Thị Trung Thành 2 Số hóa bởi Trung tâm Học liệu – Đại học. tài: Khai phá dữ liệu và phát hiện luật kết hợp trong Cơ sở dữ liệu siêu thị ”. Luận văn bao gồm ba chƣơng: Chƣơng 1: Kho dữ liệu và khai phá dữ liệu Trình bày kiến thức tổng quan về khai. niệm về luật kết hợp và các phƣơng pháp khai phá luật kết hợp - Khai phá luật kết hợp dựa trên sự phân chia không gian tìm kiếm. - Một số thuật toán khai phá dữ liệu phát hiện luật kết hợp nhƣ:

Ngày đăng: 05/10/2014, 02:38

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan