khai phá dữ liệu bằng luật kết hợp

66 874 4
khai phá dữ liệu bằng luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

khai phá dữ liệu bằng luật kết hợp

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN 1 LỜI NÓI ĐẦU Ngày nay các lĩnh vực khoa học kỹ thuật đang ngày một phát triển mạnh mẽ. Đặc biệt là nghành khoa học máy tính rất phát triển, nó được ứng dụng rất nhiều trong các lĩnh vực khác nhau của cuộc sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dưng, Nó đã trở thành một phần không thể thiếu được trong cuộc sống hàng ngày của con người.Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đã được phát triển từ những năm 60. Đặc biệt trong những năm gần đây vai trò của máy tính trong việc lưu trữ và xử lý thông tin ngày càng trở lên quan trọng. Bên cạnh đó các thiết bị thu thập dữ liệu tự động tương đối phát triển đã tạo ra những kho dữ liệu khổng lồ. Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hoá mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng ví ngay từ các các giao dịch đơn gian nhất như một cuộc điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v.đều được ghi vào trong máy tính. Cho tới nay con số này đã trở lên khổng lồ, bao gồm các cơ sở dữ liệu, thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản vay, sử dụng vốn, Vấn đề đặt ra là làm thế nào để sử lý khối lượng thông tin cực lớn như vậy để phát hiện ra các tri thưc tiềm ẩn trong nó. Để làm được điều đó người ta đã sử dụng quá trính Phát hiện tri thức trong cơ sở dữ liệu( Knowledge Discovery in Database-KDD). Nhiệm vụ của KDD là từ dữ liệu sẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện cũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên chúng .Các kỹ thuật cho phép ta lấy được các tri thức từ cơ sở dữ liệu sẵn có đó được gọi là kỹ thuật Khai phá dữ liệu( Data Mining). Từ những lý do đó chúng em đã hiểu về đề tài Khai phá dữ liệu bằng luật kết hợp. Nhằm phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thông tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong muốn, đồng thời để áp dụng vào bài toán Quản lý bán hàng tại siêu thị. Trong quá trình làm đồ án để hoàn thành đề tài này chúng đã nhận được sự giúp đỡ chỉ bảo tận tình của các thầy cô giáo trong khoa công nghệ thông tin và các bạn trong lớp, đặc biệt là thầy giáo Trần Hùng Cường. Nhưng do thời gian có giới hạn và năng lực còn hạn chế nên không tránh khỏi những sai sót, chúng em mong nhận được sự góp ý hơn nữa của thầy cô và các bạn. Chúng em cũng xin chân thành cảm ơn các thầy giáo, cô giáo trong khoa Công Nghệ Thông Tin đã tạo điều kiện giúp đỡ chúng em trong xuốt thời gian làm đồ án và học tập tại trường. 2 Chúng em xin chân thành cảm ơn các bạn cùng lớp đã tạo điều kiện cho chúng em hoàn thành tốt luận văn này. Chúng em xin chân thành cảm ơn! Nhóm sinh viên thực hiện: Phạm Thị Hoàn Trần Việt Phương Đông Lớp CĐ-ĐH-KHMT3-K1 3 TÓM TẮT ĐỒ ÁN Nội dung của đồ án là những kiến thức về khai phá dữ liệu sử dụng luật kết hợp, các thuật toán kinh điển trong quá trình sử dụng luật kết hợp, cách áp dụng thuật toán Apriori vào một phần nhỏ trong bài toán Quản lý bán hàng tại siêu thị . Mục đích của đồ án là: Phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thông tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong muốn. Đưa ra các thuật toán cơ bản như Apriori, thuật toán tìm luật kết hợp không phát sinh ứng viên dựa vào cấu trúc cây FP- Tree, v.v.trong việc sử dụng luật kết hợp để phân tích một cơ sở dữ liệu nào đó. Phân tích cơ sở dữ liệu và cài đặt thuật toán Apriori để áp dụng một phần nhỏ vào bài toán Quản lý bán hàng tại siêu thị . Đồ án bao gồm có 3 chương, với các nội dung như sau: Chương I: Tổng quan về khai phá dữ liệu. Nội dung trong chương này sẽ được trình bày bao gồm: Khai phá dữ liệu và phát hiện tri thức, quá trình phát hiện tri thức từ cơ sở dữ liệu, khai phá dữ liệu có lợi ích gì? Các kỹ thuật khai phá dữ liệu, nhiêm vụ chính của khai phá dữ liệu, các phương pháp khai phá dữ liệu, ứng dụng của khai phá dữ liệu và một số thách thức đặt ra cho việc khai phá dữ liệu. Chương II: Tập phổ biến và luật kết hợp: Nội dung đuợc trình bày bao gồm: Một số khái niệm, tính chất cơ bản của tập phổ biến và luật kết hợp, tìm tập phổ biến, một số thuật toán cơ bản về luật kết hợp, một số ví dụ minh họa các thuật toán. Chương III: Cách cài đặt và thử nghiệm thuật toán tìm tập phổ biến và luật kết hợp: Phân tích một cơ sở dữ liệu, trình bày về cách cài đặt chương trình khai thác luật kết hợp trong việc quản lý bán hàng tại siêu thị. Dựa vào kết quả này mà người quản lý bán hàng tại thị siêu nắm bắt được những nhóm mặt hàng nào có liên quan tới nhau, phục vụ cho mục đích quản lý và lựa chọn các mặt hàng để kinh doanh. 4 SUMMARY OF THE PROJECT This project’s content is the knowledge of data mining which uses association rules, the classical algorithms in the proccess of using association rules, how to apply Apriori Algorithms to a small part on Sales Management Problem in supermarket. The purposes of this project are: Analysing data and using technique to find out sample informations, actions which have regular nature in data files that users want. Bringing out the classical algorithms such as Apriori, the algorithms of finding association rules without arising subsets (candidates) which base on FP- Tree Structure etc in using association rules to analyse any database. Analysing database and installing Apriori Algorithms to apply partly to Sales Management Task in supermarket. The project has 3 chapters, with main content as follows: Chapter I: Overview of data mining. The contents of this chapter which will be presented consist of: Data Mining and Knowledge Discovery in database, the advantages of data mining? Techniques of data mining, main task of data mining, methods of data mining, application of data mining and some challenges which are set up for data mining. Chapter II: Frequent- Itemset and Association Rules. This chapter’s content includes in: some concepts, basic property of Frequent- Itemset and Association Rules, searching for Frequent- Itemset, some basic algorithms of Association Rules, some examples which illustrates algorithms. Chapter III: How to install and test The Algorithms of finding Frequent Itemset and Association Rules. They are: Analysing one database, presenting the way to install program “ Exploiting Frequent Itemset in Sales Management in supermarket”. Sales Manager bases on this result to know gather of related product to statisfy the purpose of management and choice products to do bussiness. 5 MỤC LỤC NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN 1 LỜI NÓI ĐẦU 2 TÓM TẮT ĐỒ ÁN 4 SUMMARY OF THE PROJECT 5 DANH SÁCH BẢNG BIỂU 9 DANH SÁCH CÁC TỪ VIẾT TẮT 10 10 MỞ ĐẦU 11 Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU 12 1.1. Đặt vấn đề 12 1.2. Khai phá dữ liệu và phát hiện tri thức 13 1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu 13 1.3.1. Xác định bài toán 14 1.3.2. Thu thập và tiền xử lý 14 1.3.2.1. Gom dữ liệu 15 1.3.2.2. Chọn lọc dữ liệu 15 1.3.2.3. Làm sạch 15 1.3.2.4. Làm giàu dữ liệu 16 1.3.2.5. Mã hoá dữ liệu 16 1.3.2.6. Đánh giá và trình diễn 16 1.3.3. Khai phá dữ liệu 17 1.3.4. Phát biểu và đánh giá kết quả 17 1.3.5. Sử dụng tri thức đã phát hiện 17 1.4. Khai phá dữ liệu có những lợi ích gì 17 1.5. Các kỹ thuật khai phá dữ liệu 18 1.5.1. Kỹ thuật khai phá dữ liệu mô tả 18 1.5.2. Kỹ thuật khai phá dữ liệu dự đoán 18 1.6. Nhiêm vụ chính của khai phá dữ liệu 18 1.6.1. Phân lớp (Classification) 19 1.6.2. Hồi quy (Regression) 19 1.6.3. Gom nhóm (Clustering) 19 1.6.4. Tổng hợp (Summarization) 19 1.6.5. Mô hình ràng buộc (Dependency modeling) 19 1.6.6. Dò tìm biến đổi và độ lệch (Change and Deviation Dectection) 20 1.7. Các phương pháp khai phá dữ liệu 20 1.7.1. Các thành phần của giải thuật khai phá dữ liệu 20 1.7.2. Một số phương pháp khai thác dữ liệu phổ biến 21 1.7.2.1. Phương pháp quy nạp (Induction) 21 1.7.2.2. Cây quyết định và luật 21 1.7.2.3. Phát hiện các luật kết hợp 21 1.7.2.4. Mạng Neuron 22 1.7.2.5. Giải thuật di truyền 23 1.8. Ứng dụng của khai phá dữ liệu 23 1.9. Một số thách thức đặt ra cho việc khai phá dữ liệu 24 Chương II: TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 26 6 2.1. Mở đầu 26 2.2. Các khái niệm cơ bản 26 2.2.1. Định nghĩa 2. 2.1: Ngữ cảnh khai phá dữ liệu 26 2.2.2. Định nghĩa 2. 2. 2: Các kết nối Galois 26 2.2.3. Định nghĩa 2.2.3: Độ hỗ trợ (Support) 26 2.2.4. Định nghĩa 2 2.4: Độ tin cậy ( Confidence) 27 2.2.4.1. Tính chất 2. 2.4.1: Hỗ trợ của tập con 27 2.2.4.2. Tính chất 2.2.4.2 27 2.2.4.3. Tính chất 2.2.4.3 27 2.2.4.4. Tính chất 2. 2.4.4 27 2.2.5. Định nghĩa 2.2.5: Tập mặt hàng phổ biến 28 2.2.6. Định nghĩa 2.2.6: Luật kết hợp 28 2.2.6.1. Tính chất 2.2.6.1: Luật kết hợp không có hợp thành 28 2.2.6.2. Tính chất 2.2.6.2: Luật kết hợp không có tính tách 28 2.2.6.3. Tính chất 2.2.6.3: Luật kết hợp không có tính bắc cầu 29 2.2.6.4. Tính chất 2.2.6.4 29 2.3. Tìm tập phổ biến 29 2.3.1. Một số khái niệm 29 2.3.2. Thuật toán Apriori 30 2.3.2.1. Mô tả thuật toán 30 2.3.2.2. Ví dụ minh hoạ cho thuật toán Apriori 32 2.3.2.3. Procedure-Code 33 2.3.2.4. Tạo tập ứng viên (k+1)- hạng mục 34 2.4. Tìm luật kết hợp 34 2.4.1. Phát biểu bài toán khai phá luật kết hợp 35 2.4.2. Phát triển giải pháp hiệu quả trong khai thác luật kết hợp 37 2.5. Quy trình khai thác luật kết hợp 39 2.6. Một số thuật toán khác 39 2.6.1. Thuật toán khai phá song song cho luật kết hợp mờ 39 2.6.2. Thuật toán FP-Growth 41 2.6.2.1 Bản chất 41 2.6.2.2. Qui trình 41 2.6.2.3. Thuật toán FP_Growth 50 Chương III: CÀI ĐẶT VÀ THỬ NGHIỆM THUẬT TOÁN TÌM TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 51 3.1. Phát biểu bài toán 51 3.2. Lựa chọn thuật toán để cài đặt phần mềm 51 3.3. Yêu cầu khi cài đặt thuật toán 51 3.4. Cơ sở dữ liệu 52 3.4.1. Giao diện chính của cơ sở dữ liệu 52 3.4.2. Bảng danh mục các Nhà cung cấp hàng hóa 53 3.4.3. Bảng danh mục các Hàng Hoá 54 3.4.4. Bảng danh mục các Khách Hàng 55 3.4.5. Bảng danh mục các Hoá Đơn 56 3.4.6. Bảng danh mục chi tiết Hoá Đơn 57 3.4.7. Ghi XML 58 3.5. Giao diện chính chương trình 58 3.6. Kết nối dữ liệu 59 3.7. Thêm dư liệu Xml 59 3.8. Kết quả phân tích 60 3.9. Kết quả lọc MinSup = 10 60 7 3.10. Kết quả lọc MinCon = 40% 61 KẾT LUẬN CHUNG 62 HƯỚNG PHÁT TRIỂN ĐỀ TÀI 63 TÀI LIỆU THAM KHẢO 64 BẢNG ĐỐI CHIẾU THUẬT NGỮ VIỆT - ANH 65 DANH SÁCH HÌNH VẼ Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu 13 Hình 1.2. Quá trình phát hiện tri thức 14 Hình 1.3: Mô hình lợi ích của khai phá dữ liệu 18 Hình 1.4.Thể hiện sơ đồ khai phá dữ liệu bằng mạng Neunon 23 Hình 2.5. Minh họa luật kết hợp không có tính tách 29 Hình 3.1. Giao diện chính của cơ sở dữ liệu 52 Hình 3.2. Danh mục nhà cung cấp 53 Hình 3.3. Danh mục hàng hóa 54 Hinh 3.4.Danh mục khách hàng 55 Hình 3.5. Danh mục hóa đơn 56 Hình 3.6. Danh mục chi tiết hóa đơn 57 Hình 3.7. Ghi XML 58 Hình 3.8. Giao diện chính của chương trình 58 Hình 3.9. Kết nối dữ liệu 59 Hình 3.10. Thêm dư liệu XML 59 8 Hình 3.11. Kết quả phân tích 60 Hình 3.12. Kết quả lọc độ phổ biến tối thiểu 60 Hình 3.13. Kết quả lọc độ tin cậy 61 DANH SÁCH BẢNG BIỂU Bảng 2.1. CSDL sử dụng minh hoạ thuật toán Apriori 32 Bảng 2. 2. Kết quả thực hiện thuật toán Aprori cho CSDL D 33 Bảng 2. 3. Ví dụ về một CSDL giao dịch – D 35 Bảng 2.4. Tập mục thường xuyên Minsup = 50% 36 Bảng 2.5. Luật kết hợp sinh từ tập mục phổ biến ABE 37 Bảng 2.6. Cây FP 42 Bảng 2.7. Cây FP 42 Bảng 2.8. Cây FP 43 Bảng 2.9. Cây FP 44 Bảng 2.10. Cây FP 45 Bảng 2.11. Cây FP 47 Bảng 2.12. Cây FP 47 Bảng 2.13. Cây FP 47 Bảng 2.14.Cơ sở dữ liệu 49 9 DANH SÁCH CÁC TỪ VIẾT TẮT Từ viết tắt Diễn giải KDD Phát hiện tri thức trong cơ sở dữ liệu DL Dữ liệu CSDL Cơ sở dữ liệu KPDL Khai phá dữ liệu NCKPDL Ngữ cảnh khai phá dữ liệu LKH Luật kết hợp 10 [...]... quát dữ liệu Các kỹ thuật khai phá dữ liệu: Có rất nhiều các kỹ thuật nhưng thường sử dụng kỹ thuật mô tả và dự đoán Nhiệm vụ của khai phá dữ liệu: Phân lớp, hồi quy, gom nhóm, tổng hợp, mô hình ràng buộc, dò tìm biến đổi và độ lệch Các phương pháp khai phá dữ liệu: Phương pháp quy nạp, cây quyết định và luật, phát hiện các luật kết hợp, mạng Neuron, giải thuật di truyền Ứng dụng của khai phá dữ liệu: ... dạng chức năng và vì vậy giới hạn về cả độ chính xác của mô hình 1.7.2.3 Phát hiện các luật kết hợp Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản... 14 1.3.2.1 Gom dữ liệu Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web 1.3.2.2 Chọn lọc dữ liệu Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó Đây là giai đoạn chọn lọc, trích rút các dữ liệu cần thiết tứ cơ sở dữ liệu tác nghiệp... quá trình khai phá dữ liệu. Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu 16 1.3.3 Khai phá dữ liệu Giai đoạn khai thác dữ liệu được... không có các tính chất và đặc điểm của lớp 1.7 Các phương pháp khai phá dữ liệu Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó, giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp, hồi quy, gom nhóm, v v 1.7.1 Các thành phần của giải thuật khai phá dữ liệu Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn mô hình,... ta đã biết được thế nào là tổng quan về khai phá dữ liệu Nó bao gồm một số nội dung sau: Khai phá dữ liệu và phát hiện tri thức: Là quá trình khám phá tri thức tiềm ẩn trong cơ sở dữ liệu Quá trình phát hiện tri thức từ cơ sở dữ liệu: Là một quá trình có sử dụng nhiều phương pháp và công cụ tin học để tìm ra một cơ sở dữ liệu có ích cho người sử dụng Khai phá dữ liệu có lợi ích gì: Cung cấp tri thức... trong các công cụ khai phá dữ liệu 1.8 Ứng dụng của khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như: Hệ CSDL, thống kê, trực quan hoá.v.v Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức, v.v.So với các phương pháp này, khai phá dữ liệu có một số ưu... báo - Khái quát dữ liệu Hình 1.3 Là một mô hình thể hiện lợi ích của KPDL trong việc phân tích và ra quyết định cho việc ra tiếp thị của một loại sản phẩm nào đó 17 Tiếp thị CSDL Tiếp thị Nhà kho dữ liệu KDD & Data Mining Hình 1.3: Mô hình lợi ích của khai phá dữ liệu 1.5 Các kỹ thuật khai phá dữ liệu Kỹ thuật khai phá dữ liệu thường được chia làm 2 nhóm chính: 1.5.1 Kỹ thuật khai phá dữ liệu mô tả Có... ưu thế rõ rệt So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ 23 hoặc biến đổi liên tục Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn Phương pháp hệ chuyên gia: Phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên... phân tích 1.3.2.5 Mã hoá dữ liệu Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác Mục đích của giai đoạn này là chuyển đổi kiểu dữ liệu về những dạng thuật tiện để tiến hành các thuật toán khám phá dữ liệu Có nhiều cách mã hoá dữ liệu như: - Phân vùng: Dữ liệu là giá trị chuỗi, . Các kỹ thuật khai phá dữ liệu, nhiêm vụ chính của khai phá dữ liệu, các phương pháp khai phá dữ liệu, ứng dụng của khai phá dữ liệu và một số thách thức đặt ra cho việc khai phá dữ liệu. Chương. 34 2.4. Tìm luật kết hợp 34 2.4.1. Phát biểu bài toán khai phá luật kết hợp 35 2.4.2. Phát triển giải pháp hiệu quả trong khai thác luật kết hợp 37 2.5. Quy trình khai thác luật kết hợp 39 2.6 Nhà kho dữ liệu Hình 1.3: Mô hình lợi ích của khai phá dữ liệu 1.5. Các kỹ thuật khai phá dữ liệu Kỹ thuật khai phá dữ liệu thường được chia làm 2 nhóm chính: 1.5.1. Kỹ thuật khai phá dữ liệu mô

Ngày đăng: 08/11/2014, 15:38

Từ khóa liên quan

Mục lục

  • NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

  • LỜI NÓI ĐẦU

  • TÓM TẮT ĐỒ ÁN

  • SUMMARY OF THE PROJECT

  • DANH SÁCH BẢNG BIỂU

  • DANH SÁCH CÁC TỪ VIẾT TẮT

  • MỞ ĐẦU

  • Chương I: TỔNG QUAN VỀ KHAI PHÁI DỮ LIỆU

    • 1.1. Đặt vấn đề

    • 1.2. Khai phá dữ liệu và phát hiện tri thức

    • 1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu

      • Hình 1.1. Quá trình phát hiện tri thức từ cơ sở dữ liệu

      • 1.3.1. Xác định bài toán

      • 1.3.2. Thu thập và tiền xử lý

        • Hình 1.2. Quá trình phát hiện tri thức

        • 1.3.2.1. Gom dữ liệu

        • 1.3.2.2. Chọn lọc dữ liệu

        • 1.3.2.3. Làm sạch

        • 1.3.2.4. Làm giàu dữ liệu

        • 1.3.2.5. Mã hoá dữ liệu

        • 1.3.2.6. Đánh giá và trình diễn

        • 1.3.3. Khai phá dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan