KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG

117 556 1
  • Loading ...
1/117 trang
Tải xuống

Thông tin tài liệu

Ngày đăng: 26/04/2013, 11:38

KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁLUẬT KẾT HỢP SONG SONG ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN ----------------------------- LÊ THỊ VIỆT HOA KHAI PHÁ DỮ LIỆU THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hướng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN THÁI NGUYÊN 2008 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n LỜI CẢM ƠN Xin chân thành cảm ơn Thầy giáo PGS.TS Đoàn Văn Ban đã tận tình chỉ dạy hướng dẫn tôi trong suốt thời gian học tập làm luận văn. Tôi cũng xin xin lời biết ơn chân thành đến quý Thầy giáo, cô giáo Viện Công nghệ Thông đã tận tình giảng dạy, trang bị cho tôi những kiến thức quý báu trong suốt quá trình học tập tại Khoa. Xin cảm ơn tất cả các anh chị em học viên Cao học khóa 5, cám ơn cán bộ công chức, giảng viên – Khoa Công nghệ Thông tin - Đại học Thái Nguyên đã tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập làm luận văn. Cuối cùng xin cảm ơn gia đình, bạn bè, đồng nghiệp đã giúp đỡ tôi trong suốt thời gian học tập hoàn thành luận văn này. Thái Nguyên, tháng 9 năm 2008 Tác giả Lê Thị Việt Hoa Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n LỜI CAM ĐOAN Tôi xin cam đoan đề tài khoa học “Khai phá dữ liệu thuật toán khai phá luật kết hợp song song ” này là công trình nghiên ứcu của bản thân tôi. Các số liệu kết quả nghiên cứu nêu trong luận văn này là trung thực, được các tác giả cho phép sử dụng v à các tài liệu tham khảo như đã trình bày trong luận văn. Tôi xin chịu trách nhiệm về luận văn của mình. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n MỤC LỤC Trang phụ bìa Trang Lời cám ơn Lời cam đoan Mục lục Danh mục các kí hiệu, các chữ viết tắt Danh mục các hình vẽ Mở đầu 1 Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 3 1.1. Khái niệm 3 1.2. Kiến trúc của một hệ thống khai phá dữ liệu 3 1.3. Các giai đoạn của quá trình khai phá dữ liệu 4 1.4. Một số kỹ thuật khai phá dữ liệu 6 1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu 10 1.6. Các phương pháp chính trong khai phá dữ liệu 11 1.7. Các ứng dụng của khai phá dữ liệu 13 1.8. Khai phá dữ liệu các lĩnh vực liên quan 14 1.9. Các thách thức trong phát hiện tri thức khai phá dữ liệu 15 1.10. Kết luận chương 1 16 Chương 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU 17 2.1. Mở đầu 17 2.2 Luật kết hợp 18 2.2.1 Các khái niệm cơ bản 18 2.2.2. Khai phá luật kết hợp 21 2.2.3. Cách tiếp cận khai phá luật kết hợp 22 2.3 Luật kết hợp cơ sở 24 2.3.1 Phát hiện các tập mục phổ biến 24 2.3.2 Sinh luật kết hợp 30 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n 2.4. Khai phá luật kết hợp với một số khái niệm mở rộng 32 2.4.1. Giới thiệu 32 2.4.2. Khai phá luật kết hợp trọng số 32 2.4.3 Khai phá luật kết hợp tổng quát 43 2.5. Kết luận chương 2 49 Chương 3: MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP 50 SONG SONG PHÂN TÍCH ĐÁNH GIÁ CÁC THUẬT TOÁN 3.1. Nguyên lý thiết kế thuật toán song song 50 3.2. Hư ớng ti ếp cận chính t rong t hiế t kế t huậ t t oán kha i phá l uật kế t hợp song song 51 3.2.1. Mô hình song song dữ liệu 51 3.2.2. Mô hình song song thao tác 51 3.3. Một số thuật toán khai phá luật kết hợp song song 52 3.3.1 Thuật toán Count Distribution (CD) 52 3.3.2. Thuật toán Data Distribution (DD) 54 3.3.3. Thuật toán Candidate Distribution 58 3.3.4. Thuật toán song song Fp-Growth 60 3.3.5 Thuật toán song song Eclat 65 3.4. Phân tích, đánh giá so sánh việc thực hiện thuật toán 71 3.4.1. Phân tích đánh giá thuật toán song song 71 3.4.2. So sánh việc thực hiện các thuật toán 73 3.5. Kết luận chương 3 74 Kết luận 75 Tài liệu tham khảo 77 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n DANH MỤC CÁC KÝ HIỆU VIẾT TẮT Ký hiệu Diễn giải C k Tập các k-itemset ứng viên C k Tập các k-itemset ứng viên mà TID của giao dịch sinh ra liên kết với tập mục ứng viên Conf Độ tin cậy (Confidence) CFPT FP-Tree điều kiện cơ sở (Fisst conditional FP-Tree) D Cơ sở dữ liệu giao dịch D i Phần thứ i của cơ sở dữ liệu D Item Mục Itemset Tập mục I Tập các mục KDD Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) CSDL Cơ sở dữ liệu (Database) k-itemset Tập mục gồm k mục L k Tập các k-itemset phổ biến MPI Truyền thông điệp minconf Ngưỡng tin cậy tối thiểu minsup Ngưỡng hỗ trợ tối thiểu OLAP Phân tích trực tuyến OLTP Xử lý giao dịch trực tuyến SC Số đếm hỗ trợ (support count) sup Độ hỗ trợ (support) T Giao dịch (transaction) Tid Định danh của giao dịch Tid-List Danh sách các định danh của giao dịch X ⇒Y Luật kết hợp (với X là tiền đề, Y là hệ quả) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n DANH MỤC HÌNH VẼ BẢNG Trang Hình 1.1. Khám phá tri thức trong cơ sở dữ liệu điển hình 3 Hình 1.2. Các bước của quy trình khai phá dữ liệu 5 Hình 1.3: Cây quyết định 7 Hình 1.4: Mẫu kết quả của nhiệm vụ phân cụm dữ liệu 8 Hình 1.5: Mẫu kết quả của nhiệm vụ hồi quy 8 Hình 1.6: Một số lĩnh vực liên quan đến khai phá dữ liệu 14 Hình 2.1. Sơ đồ tổng quan của thuật toán khai phá tập mục phổ biến 24 Hình 2.2: Ví dụ thuật toán Apriori 28 Bảng 2.1.a. Thông tin của một cửa hàng bán lẻ 33 Bảng 2.1.b. Tập giao dịch D của cửa hàng 33 Hình 3.1. Mô hình song song dữ liệu 51 Hình 3.2. Mô hình song song thao tác 52 Hình 3.3. Sơ đồ thuật toán Count Distribution 52 Hình 3.4. Phát hi ện các tập mục phổ biến bởi thuật toán song song CD 54 Hình 3.5. Sơ đồ mô tả thuật toán Data Distribution 55 Hình 3.6: Sơ đồ luồng thuật toán Data Distribution 56 Hình 3.7: Phát hi ện các tập mục phổ biến bởi thuật toán song song DD 57 Hình 3.8: Các phân hoạch CSDL các FP-Tree cục bộ ban đầu 61 Bảng 3.1: Các mẫu điều kiện cơ sở các FP-Tree điều kiện cơ sở 62 Hình 3.9: Quá trình sinh tập phổ biến bởi 2 bộ xử lý P 1 P 2 63 Hình 3.10: Quá trình chuyển đổi CSDL theo chiều dọc 70 1 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n MỞ ĐẦU Với sự bùng nổ phát triển của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa học cũng như các hoạt động thực tế, trong đó khai phá dữ liệu là một lĩnh vực mang lại hiệu quả thiết thực cho con người. Khai phá dữ liệu đã giúp người sử dụng thu được những tri thức hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Cơ sở dữ liệu trong các đơn vị, tổ chức kinh doanh, quản lý khoa học chứa đựng nhiều thông tin tiềm ẩn, phong phú đa dạng, đòi hỏi phải có những phương pháp nhanh, phù hợp, chính xác, hiệu quả để lấy được những thông tin bổ ích. Những “ tri thức ” chiết su ất từ n guồn cơ sở dữ liệu trên sẽ là nguồn thông tin hỗ trợ cho lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất kinh doanh. T iến hành công việc như vậy chính là thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database) mà trong đó kỹ thuật khai phá dữ liệu (Data Mining) cho phép phát hiện những tri thức tiềm ẩn. Để lấy được thông tin mang tính tri thức trong khối dữ liệu khổng lồ, cần thiết phải phát triển các kỹ thuật có khả năng tích hợp các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển chúng thành một tập hợp các cơ sở dữ liệu ổn định có chất lượng. Các kỹ thuật như vậy được gọi là kỹ thuật tạo kho dữ liệu môi trường các dữ liệu nhận được khi áp dụng các kỹ thuật tạo kho dữ liệu nói trên được gọi là kho dữ liệu (Data Warehouse) [19, 24]. Một trong các nội dung cơ bản nhất trong khai phá dữ liệu rất phổ biến là phát hiện các luật kế t hợp. Phương pháp này nhằm tìm ra các tập thuộc tính thường xuất hiện đồng thời trong cơ sở dữ liệu rút ra các luật về ảnh hưởng của một tập thuộc tính dẫn đến sự xuất hiện của một (hoặc một tập) thuộc tính khác như thế nào. Bên cạnh đó, nhu cầu song s ong hóa xử lý phân tán là rất cần thiết hiện nay bởi kích thước lưu trữ dữ liệu ngày càng nhiều nên đòi hỏi tốc độ xử lý cũng như dung lượng bộ nhớ hệ thống phải đảm bảo. Vì thế, yêu cầu cần có những thuật toán song song hiệu quả cho việc phát hiện luật kết hợp. Ứng dụng khai phá dữ liệu đã mang lại những lợi ích to lớn trong việc tổng hợp cung cấp những thông tin trong các nguồn cơ sở dữ liệu lớn. Hơn nữa hiện nay nhu cầu song song hóa xử lý phân tán là rất cần thiết bởi kích 2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n thước dữ liệu lưu trữ ngày càng lớn nên đòi hỏi tốc độ xử lý cũng như dung lượng bộ nhớ hệ thống phải đảm bảo Vì thế, yêu cầu cần có những thuật toán song song hiệu quả cho luật kết hợp. Phương pháp nghiên cứu của luận văn là tổng hợp các kết quả dự a trên các bài báo khoa ọhc trong một số hội thảo quốc tế các bài báo chuyên ngành, từ đó trình bày các vấn đề khai phá dữ liệu xây dựng một số thuật toán khai phá luật kết hợp song song. Nội dung luận văn được trình bày trong 3 chương phần kết luận Chương 1: Tổng quan về k hai phá dữ liệu: Giới thiệu tổng quan về quá trình khai phá dữ liệu, kho dữ liệu khai phá dữ liệu; kiến trúc của một hệ thống khai phá dữ liệu; Nhiệm vụ chính các phương pháp khai phá dữ liệu. Chương 2: Khai phá luật kết hợp song song: Chương này trì nh bày tổng quan về luật kết hợp; phát biểu bài toán khai phá dữ liệu, phát hiện luật kết hợp; các khái niệm cơ bản luật kết hợp các phương pháp khai phá luật kết hợp; khai phá luật kết hợp với một số khái niệm mở rộng. Chương 3: Một số phương pháp khai phá luật kết hợp song song phân tích đánh giá các thuật toán song song . Thái Nguyên 01 tháng 10 năm 2008 Tác giả Lê Thị Việt Hoa Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên htt p ://www.lr c - tnu. ed u. v n Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Khái niệm Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80, nó là quá trình tìm kiếm, khám phá d ưới nhiều góc độ khác nhau nhằm phát hiện các mối liên hệ, quan hệ giữa các dữ liệu, đối tượng bên trong CSDL, kết quả của việc khai phá là xác định các mẫu hay các mô hình tồn tại bên trong nhưng chúng nằm ẩn ở các CSDL [3]. Về bản chất nó là giai đoạn duy nhất rút trích tìm ra được các mẫu, các mô hình h ay thông tin mới, tri thức tiềm ẩn có trong CSDL chủ yếu phục vụ cho mô tả dự đoán. Đây là giai đoạn quan trọng nhất trong quá trình phát hiện tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra quyết định, điều hành trong khoa học kinh doanh. Khai phá dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong các CSDL, cụ thể hơn, đó là tiến trình lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết những thông tin hữu ích từ các CSDL lớn. 1.2. Kiến trúc của một hệ thống khai phá dữ liệu Khai phá d ữ liệu là quá trình rút trích thông tin bổ ích từnhững kho d ữ liệu lớn. Khai phá d ữ liệu là quátrình chính trong khai phá tri th ức từ cởơdsữ liệu. Kiến trúc của một hệ thống khai phá dữ liệu có các thành [2] phần như sau: [...]... định dữ liệu liên quan Thu thập tiền xử lý dữ liệu Giải thuật khai phá dữ liệu Mẫu DL trực tiếp Hình 1.2 Các bước của quy trình khai phá dữ liệu Quá trình xử lý khai phá dữ liệu bắt đầu bằng việc xác định chính xác vấn đề cần giải quyết Sau đó sẽ xác định dữ liệu liên quan dùng để xây dựng giải pháp Tiếp theo là thu thập dữ liệu có liên quan xử lý chúng thành dạng sao cho thuật toán khai phá dữ liệu. .. khỏi dữ liệu trước khi khai phá dữ liệu Bước hai: Khai phá dữ liệu, là công việc chính, sử dụng các thuật toán khác nhau để khai phá các kiến thức tiềm ẩn trong dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 5 http://www.lrc-tnu.edu.vn Bước ba: Sau xử lý, là quá trình ước lượng kết quả khai phá theo yêu cầu của người dùng Nhiều kỹ thuật khai phá dữ liệu được ứng dụng cho một nguồn dữ liệu, ... trong khai phá dữ liệu nghiên cứu các lý thuyết thuật toán của hệ thống trích ra các mẫu mô hình dữ liệu Khai phá dữ liệu tập trung vào việc mở rộng các lý thuyết thuật toán cho các vấn đề về tìm ra các mẫu đặc biệt, đây được coi là những mẫu hữu ích hoặc tri thức quan trọng tập dữ liệu lớn Đặc biệt, phát hiện tri thức khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp... pháp thống kê để mô hình dữ liệu phát hiện các mẫu, luật , kho dữ liệu các công cụ xử lý trực tuyến (OLAP – online analytical processing) ật p trung vào phân tích dữ liệu đa chiều, tốt hơn SQL trong tính toán phân tích thống kê đa chiều cũng liên quan chặt chẽ đến khai phá dữ liệu Đặc trưng của hệ thống khai phá dữ liệu là nhờ vào các phương pháp thuật toán kỹ thuật từ những lĩnh vực khác... bài toán khai phá luật kết hợp (Association Rule Mining) Nh ững kết quả khác nhau trong khai phá luật kết hợp sẽ được trình bày chi ti ết cùng với những thuật toán những ví dụ kinh điển Bài toán khai phá luật kết hợp trên một cơ sở dữ liệu được chia thành hai bài toán nhỏ Bài toán thứ n h ất là tìm tất cả các tập mụ c d ữ liệu có đ ộ h ỗ trợ thỏa ngưỡng tối thiểu cho trước, gọi là tập các tập mục dữ. .. kết hợp là một trong những lĩnh vực đang được quan tâm nghiên cứu mạnh mẽ Chương 2 KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU 2.1 Mở đầu Khai phá dữ liệu là quá trình phát hiện ra các thômg tin có giá trị tiềm ẩn trong CSDL được xem như là một công đoạn trong quá trình khai thác tri thức Chức năng của khai phá dữ liệu bao gồm phân lớp, phân cụm, dự đoán phân tích kết hợp Ứng dụng khai phá kết. .. sự phát triển nhanh chóng của các ứng dụn g công nghệ thông tin ở nhiều ngành nghề trong đời sống xã hội , ngày càng ạto ra nhiều CSDL khổng lồ Chương này trình bày tóm tắt các phương pháp khai phá dữ liệu phổ biến, các thành phần chủ yếu của một giải thuật khai phá dữ liệu những thành tựu cũng như những thách thức trong khai phá dữ liệu Trong các phương pháp khai phá dữ liệu, khai phá các luật kết. .. của khai phá dữ liệu, được các nhà nghiên cứu đặc biệt quan tâm Khai phá d ữ liệu web thông thường được chia thành ba phạm trù chính: Khai phá cách dùng web (web usage mining), khai phá c ấu trúc web (web structure mining) khai phá n ội dung web (web content mining) Khai phá cách dùng web tập trung vào việc khai phá thông tin của người truy nhập web Với những thông tin này người khai phá dữ liệu. .. trường hợp tập con của đối tượng này thuộc tập con kia, nghĩa là xác định dữ liệu trong một nhóm con của đối tượng có khác nhau đáng kể so với toàn bộ đối tượng [13, 24] 1.5 Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ liệu thành các loại khác nhau Cơ sở dữ liệu quan hệ Đến nay, hầu hết dữ liệu được lưu giữ dưới dạng cơ sở dữ liệu. .. mua sách, người ta phát hiện ra rằng: Trong số những người mua quyển "Các khái niệm kỹ thuật khai phá dữ liệu" thì có 40% số người đó mua thêm quyển " Hệ quản trị cơ sở dữ liệu ", 25% mua thêm quyển "Kho dữ liệu" Trong ví dụ trên, tìm được hai luật kết hợp: - Có 40% số người mua quyển " Các khái niệm kỹ thuật khai phá dữ liệu" thì đồng thời mua quyển "Hệ quản trị cơ sở dữ liệu" - Có 25% số
- Xem thêm -

Xem thêm: KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG, KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG, KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG, Khái niệm, Các giai đo ạn của quá trình khai phá dữ liệu, Một số kỹ thuật khai phá dữ liệu, Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu, Các phương pháp chính trong khai phá d ữ liệu, Các ứng dụng của khai phá d ữ liệu Khai phá d ữ liệu và các lĩnh vực liên quan, Các thách thức trong phát hiện tri thức và khai phá dữ liệu, Khai phá luật kết hợp Cách tiếp cận khai phá luật kết hợp, Thuật toán Apriori [18, 21, 22], Ví dụ minh họa thuật tốn Apriori Các thuật tốn phát hiện tập mục phổ biến khác, Thuật toán sinh luật đơn giản Vào: Tập các tập mục phổ biến L Thuật toán sinh luật nhanh, Khai phá luật kết hợp tổng quát, Kết luận chương 2, Mơ hình song song dữ liệu Mơ hình song song thao tác, Thuật toán Data Distribution DD, Thuật toán Candidate Distribution, Thuật toán song song Fp-Growth, Thuật tốn song song Eclat 1 Nhóm tập mục và giao dịch, So sánh việc thực hiện các thuật toán

Từ khóa liên quan

Gợi ý tài liệu liên quan cho bạn