phương pháp khai phá dữ liệu dạng đóng và ứng dụng

70 407 0
phương pháp khai phá dữ liệu dạng đóng và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN HỒNG HẢI PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN HỒNG HẢI PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH HƯỚNG DẪN KHOA HỌC PGS.TS. NGÔ QUỐC TẠO Thái Nguyên - 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “ Phƣơng pháp khai phá dữ liệu dạng đóng và ứng dụng” là công trình nghiên cứu của riêng tôi dƣớ i sƣ̣ hƣớ ng dẫ n củ a PGS.TS. Ngô Quốc Tạo. Toàn b phần mềm do chnh tôi lập trình và kiểm thƣ̉ . Tôi xin chị u trá ch nhiệ m về lờ i cam đoan củ a mình . Các số liệu và thông tin sử dụng trong luận văn này là trung thực. Tác giả Nguyễn Hồng Hải Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC HÌNH VẼ vi MỞ ĐẦU 1 Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 3 1.2. Khai phá dữ liệu là gì 3 1.2. Ứng dụng của việc khai phá dữ liệu 3 1.3. Qui trình khai phá tri thức 4 1.3.1. Qui trình khai phá tri thức 4 1.3.2. Kiến trúc hệ thống khai phá dữ liệu 5 1.4. Các nhiệm vụ chnh của khai phá tri thức 5 1.4.1. Dự đoán (predictive) 5 1.4.2. Mô tả (discriptive) 6 1.5. Ý tƣởng kĩ thuật khai phá tri thức 7 1.6. Các thách thức của khai phá tri thức 7 1.7. Qui trình chuẩn bị dữ liệu 7 1.7.1. Tại sao cần chuẩn bị dữ liệu 7 1.7.2. Làm sạch dữ liệu 8 1.7.3. Chọn lọc dữ liệu 9 1.7.4. Rút gọn dữ liệu 9 1.7.5. Mã hóa dữ liệu 11 1.8. Tập phổ biến 11 1.8.1. Giới thiệu tập phổ biến 11 1.8.2. Các khái niệm cơ bản 12 1.8.2.1. Cho cơ sở dữ liệu giao dịch 12 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 1.8.2.2. Đ phổ biến và tập phổ biến 13 1.8.2.3. Tnh chất của tập phổ biến 14 1.8.2.4. Tập phổ biến tối đại 14 1.8.2.5. Tập phổ biến đóng 14 1.8.2.6. Luật kết hợp 15 1.8.2.7. Mô tả bài toán luật kết hợp 15 1.9. Phân lớp dữ liệu 16 1.9.1. Định nghĩa thông qua v dụ 16 1.9.2. Quy trình phân lớp 16 1.10. Phân cụm dữ liệu 17 1.10.1. Phân cụm là gì? 17 1.10.2. Phân biệt phân lớp và phân cụm 17 1.10.3. Ứng dụng phân cụm 18 1.10.4. V dụ 19 Chƣơng 2: KHAI PHÁ TẬP PHỔ BIẾN ĐÓNG TRONG KHÔNG GIAN 2 CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN 3 CHIỀU 20 2.1. Tổng quan khai phá tập phổ biến đóng FCP trong không gian 2 chiều20 2.2. Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều 20 2.3. Tiến hành khai phá tập phổ biến đóng FCP 22 2.3.1. Sơ lƣợc về quá trình khai phá tập phổ biến đóng 22 2.3.2. Thuật toán C-Miner 23 2.3.2.1. Thuật toán phân cụm (thuật toán increamental k-mean) 23 2.3.2.2 Quá trình chia không gian khai phá 25 2.3.2.3. Khai phá không gian con để tìm ra tập phổ biến đóng FCPs . 29 2.4. Tổng quan khai phá khối phổ biến đóng FCC trong không gian 3 chiều 32 2.5. Mở đầu khai phá khối phổ biến đóng FCC trong không gian 3 chiều . 33 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.6. Khai phá các lát cắt đại diện 36 2.6.1. Tạo ra các dàn đại diện 38 2.6.2. Tạo ra các tập phổ biến đóng FCP 39 2.6.3. 3D FCC generation by post-pruning (Chiến lƣợc lƣợc bỏ các khối đƣợc sinh ra không thỏa mãn) 39 2.6.4. Tnh đúng đắn 41 Chƣơng 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG 43 3.1. Cài đặt thuật toán trong không gian 2 chiều 43 3.2. Cài đặt ứng dụng trong không gian 2 chiều 46 3.2.1. Cơ sở dữ liệu 47 3.2.2. Các bƣớc thực hiện 47 3.3. Cài đặt thuật toán trong không gian 3 chiều 50 3.4. Cài đặt ứng dụng trong không gian 3 chiều 55 3.4.1. Cơ sở dữ liệu 55 3.4.2. Các bƣớc thực hiện 55 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 61 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt EnumerateSubset Liệt kê các tập con Slice Mặt cắt Slices Dàn tƣơng đƣơng với 1 tập các mặt cắt kết hợp với nhau. CP Closed pattern Tập đóng CS Compact subspace Không gian con đặc (trong bài toán đang xét: là không gian con mà tất cả các ô có giá trị là “1”. FCC Frequent closed cube Khổi phổ biến đóng FCP Frequent closed pattern Tập phổ biến đóng Minlen Là ngƣỡng giá trị Pattern length mà các pattern phải thỏa mãn Minsup Là ngƣỡng giá trị support mà các pattern phải thỏa mãn RS Representative slices Dàn đại diện RSM Representative slice Mining Khai phá lát cắt đại diện Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC BẢNG Bảng 2.1 Bảng cơ sở dữ liệu 21 Bảng 2.2 Ma trận rút gọn O‟ 26 Bảng 2.3 Lát cắt 27 Bảng 2.4 Kết quả các không gian rút gọn và không gian con 27 (minsup=3, minlen=2) 27 Bảng 2.5 FCP (minsup=3, minle=2) 32 Bảng 2.6 Ma trận O trong không gian 3 chiều 34 Bảng 2.7 Khai thác FCC (minH=minR=minC=2) 38 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC HÌNH VẼ Hình 1.1 Các bƣớc khai phá tri thức 4 Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu 5 Hình 1.3 Minh họa phân cụm dữ liệu 18 Hình 1.4 Phân cụm các điểm trong không gian 19 Hình 1.5 Phân cụm các ngôi nhà dựa vào khoảng cách địa lý 19 Hình 2.1 Khung khai phá 22 Hình 2.2 Cây phân chia sử dụng lát cắt. 28 Hình 2.3 Sai sót và dƣ thừa 29 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Ngày nay, cuc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ dàng và chi ph lƣu trữ thấp.Với sự phát triển của phần mềm, phần cứng và trang bị nhanh hệ thống máy tnh trong kinh doanh. Số lƣợng dữ liệu khổng lồ đƣợc tập trung và lƣu trữ trong cơ sở dữ liệu trên các thiết bị điện tử nhƣ: đĩa cứng, băng từ, đĩa quang, CD-ROM,… Tốc đ tăng dữ liệu quá lớn. Từ đó dẫn đến kết quả là sự pha trn của kỹ thuật thống kê vào các công cụ quản trị dữ liệu không thể phân tch đầy đủ dữ liệu rng lớn đƣợc nữa. Dữ liệu sau khi phục vụ cho mt mục đch nào đó đƣợc lƣu lại trong kho dữ liệu và theo ngày tháng khối lƣợng dữ liệu đƣợc lƣu trữ ngày càng lớn. Trong khối lƣợng dữ liệu to lớn này có rất nhiều thông tin có ch mang tnh tổng quát, thông tin có tnh quy luật vẫn còn đang tiềm ẩn mà chúng ta chƣa biết. Từ khối lƣợng dữ liệu rất lớn cần có những công cụ tự đng rút các thông tin và kiến thức có ch. Mt hƣớng tiếp cận có khả năng giúp các công ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai phá dữ liệu (Data Mining). Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa học cũng nhƣ các hoạt đng thực tế, trong đó khai phá dữ liệu là mt trong những lĩnh vực mang lại hiệu quả thiết thực cho con ngƣời. Khai phá dữ liệu đã giúp ngƣời sử dụng thu đƣợc những tri thức hữu ch từ những cớ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Luận văn đề cập đến các khái niệm và vấn đề cơ bản trong Khai phá tri thức và Khai phá dữ liệu, ngoài ra luận văn còn đề cập đến phƣơng pháp khai phá dữ liệu dạng đóng đƣợc áp dụng trong nhiều lĩnh vực thực tiễn. [...]... Trong chƣơng 1 chúng ta sẽ tìm hiểu quy trình khai phá tri thức, quy trình chuẩn bị dữ liệu, và một vài phƣơng pháp khai phá dữ liệu nhƣ: phƣơng pháp phân lớp, phƣơng pháp phân cụm, thuật toán k-mean Chƣơng 2: Trong chƣơng 2 chúng ta sẽ nghiên cứu phƣơng pháp khai phá tập phổ biến đóng FCPs trong không gian 2 chiều và phƣơng pháp khai phá khối phổ biến đóng FCCs trong không gian 3 chiều Chƣơng 3: Trong... 1.3 Qui trình khai phá tri thức 1.3.1 Qui trình khai phá tri thức Hình 1.1 Các bƣớc khai phá tri thức Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 Bƣớc 1: Tích hợp dữ liệu, làm sạch dữ liệu, và chọn dữ liệu tạo nên 1 kho dữ liệu Bƣớc 2: Biến đổi dữ liệu thích hợp với bộ máy khai phá Bƣớc 3: Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá, kết quả... +Kích thƣớc của dữ liệu quá lớn +Số chiều dữ liệu lớn +Bản chất dữ liệu không đồng nhất 1.6 Các thách thức của khai phá tri thức Khai phá dữ liệu phức tạp để lấy thông tin phức tạp Xử lý việc khai phá dữ liệu liên quan đến nhiều vấn đề Vấn đề bảo mật, và tích hợp dữ liệu Lƣợng thông tin quá lớn, không thể xử lý hết để lấy ra tất cả các thông tin cần thiết đƣợc 1.7 Qui trình chuẩn bị dữ liệu 1.7.1 Tại... HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.1 Khai phá dữ liệu là gì Khai phá dữ liệu là quá trình không tầm thƣờng của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu đƣợc tối đa trong cơ sở dữ liệu Quá trình không tầm thƣờng: là quá trình đa xử lý Hợp lệ: có thể chứng minh đƣợc tính đúng đắn của mô hình (mẫu) Mới lạ: không thể biết trƣớc đƣợc Có ích: có thể sử dụng đƣợc Có... tiến hành kiểm tra và lọc nguồn tri thức thu đƣợc 1.3.2 Kiến trúc hệ thống khai phá dữ liệu Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu 1.4 Các nhiệm vụ chính của khai phá tri thức 1.4.1 Dự đoán (predictive) Sử dụng một vài biến để dự báo giá trị chƣa biết hoặc giá trị tƣơng lai của các biến: * Phân lớp: phát hiện ra mô tả của một vài lớp đã đƣợc xác định và phân loại dữ liệu vào một trong các... sở dữ liệu Ví dụ: những ngƣời mua quần giầy thƣờng mua thêm tất, và xi đánh giầy 1.2 Ứng dụng của việc khai phá dữ liệu Ngày nay dữ liệu quá nhiều, dữ liệu lớn cả về chiều và kích thƣớc Nhƣng lại có rất ít tri thức về dữ liệu, vì phần lớn dữ liệu chƣa đƣợc phân tích Vì vậy data mining ra đời giúp chúng ta có thể có đƣợc nhiều thông tin có giá trị, có lợi cho việc ra quyết định Một số lĩnh vực ứng. .. tăng độ chính xác 1.7.4 Rút gọn dữ liệu Dữ liệu có thể quá lớn đối với 1 số chƣơng trình khai phá dữ liệu: +Tốn nhiều thời gian +Việc khai phá dữ liệu có thể không thể thực hiện đƣợc Rút gọn dữ liệu: dữ liệu đƣợc rút gọn (kích thƣớc) sao cho vẫn thu đƣợc cùng (hoặc gần nhƣ cùng) kết quả phân tích Các phƣơng pháp: +Tổng hợp và tổng quát hóa Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn... phƣơng pháp Heuristic để rút gọn dữ liệu: Đầu tiên: chọn thuộc tính đơn tốt nhất Chọn tiếp thuộc tính tốt nhất trong số còn lại,………… *Giảm số lƣợng Phân chia dữ liệu vào các nhóm và lƣu biểu diễn của nhóm Phƣơng pháp này rất hiệu quả nếu dữ liệu tập trung thành nhóm Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 11 1.7.5 Mã hóa dữ liệu +Mã hóa dữ liệu: chuyển đổi dữ liệu. .. sinh=03/07/1997) Dữ liệu không có chất lƣợng, sẽ không thể cho kết quả khai phá tốt Quyết định đúng đắn phải dựa trên các dữ liệu chính xác Ví dụ: việc trùng lặp hoặc thiếu dữ liệu có thể dẫn tới việc thống kê không chính xác, thậm chí làm lạc lối Kho dữ liệu cần sự tích hợp đồng nhất các dữ liệu chất lƣợng 1.7.2 Làm sạch dữ liệu Làm sạch dữ liệu là vấn đề quan trọng nhất của nhà kho dữ liệu Các nhiệm... thoại mới) Và lên kế hoạch phát triển tiếp theo nhằm đáp ứng nhu cầu của khách hàng * Hồi qui: ánh xạ từ một mẫu dữ liệu thành một biến dự đoán trƣớc có giá trị thực Ứng dụng: +Dự báo thời tiết dựa vào độ ẩm, tốc độ gió, áp suất không khí…… +Dự đoán thị trƣờng chứng khoán dựa vào xu hƣớng của thị trƣờng * Phát hiện sự thay đổi: phát hiện ra những thay đổi quan trọng trong dữ liệu Ứng dụng: + Phát hiện . 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 3 1.2. Khai phá dữ liệu là gì 3 1.2. Ứng dụng của việc khai phá dữ liệu 3 1.3. Qui trình khai phá tri thức 4 1.3.1. Qui trình khai phá tri thức 4 1.3.2 Khai phá tri thức và Khai phá dữ liệu, ngoài ra luận văn còn đề cập đến phƣơng pháp khai phá dữ liệu dạng đóng đƣợc áp dụng trong nhiều lĩnh vực thực tiễn. Số hóa bởi Trung tâm Học liệu. chƣơng 1 chúng ta sẽ tìm hiểu quy trình khai phá tri thức, quy trình chuẩn bị dữ liệu, và mt vài phƣơng pháp khai phá dữ liệu nhƣ: phƣơng pháp phân lớp, phƣơng pháp phân cụm, thuật toán k-mean.

Ngày đăng: 31/10/2014, 23:24

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan