khai phá dữ liệu dùng thuật toán K-mean và naive bayes trên wave

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Lê Đắc Nhường KHAI PHÁ DỮ LIỆU DÙNG THUẬT TOÁN K-MEAN VÀ NAIVE BAYES TRÊN WEKA HỌC PHẦN TIẾN SỸ: KHAI PHÁ DỮ LIỆU Hà Nội - 2014 Mở đầu Những năm gần đây, lượng thông tin được lưu trữ trên các thiết bị (như đĩa cứng, CDROM, bằng từ ) không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Người ta ước đoán rằng lượng thông tin toàn cầu tăng gấp đôi sau khoảng 2 năm và cùng với nó số lượng cũng như kích thước của các cơ sở dữ liệu cũng tăng lên nhanh chóng [20]. Trong nhiều lĩnh vực, nhà quản lý đang ngập trong dữ liệu nhưng lại cảm thấy đói tri thức và thông tin hữu ích. Lượng dữ liệu khổng lồ này đang thực sự là một nguồn tài nguyên rất giá trị bởi thông tin là yếu tố then chốt trong các hoạt động đặc biệt là thương mại vì nó giúp người điều hành và quản lý có một cái nhìn sâu sắc, chính xác, khách quan trước khi đưa ra các quyết định. Khai phá dữ liệu là khai thác những thông tin tiềm ẩn mang tính dự đoán từ những cơ sở dữ liệu lớn là hướng tiếp cận có nhiều ý nghĩa và mang tính lịch sử. Các kỹ thuật phát hiện tri thức và khai phá dữ liệu được thực hiện qua nhiều giai đoạn và sử dụng nhiều kỹ thuật : phân lớp (classification),phân cụm (clustering), phân tích sự tương tự (similarity analysis), tổng hợp (summarization), luật kết hợp (association rules),. . . Từ những vấn đề nêu trên, em lựa chọn đề tài “Khai phá dữ liệu với thuật toán K-Mean và Naive Bayes trên Weka” để thực hiện chuyên đề Khai phá dữ liệu. i Mục lục Mở đầu i Từ viết tắt iv Danh sách hình vẽ v Danh sách bảng vi 1 Tổng quan về Khai phá dữ liệu 1 1.1 Khai phá dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.2 Kiến trúc hệ thống khai phá dữ liệu . . . . . . . . . . . . . . 3 1.2 Hướng tiếp cận và kỹ thuật khai phá dữ liệu . . . . . . . . . . . . . 4 1.2.1 Các hướng tiếp cận khai phá dữ liệu . . . . . . . . . . . . . 4 1.2.2 Một số kỹ thuật khai phá dữ liệu . . . . . . . . . . . . . . . 5 1.2.2.1 Phân lớp . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.2.2 Phân cụm . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.2.3 Luật kết hợp . . . . . . . . . . . . . . . . . . . . . 6 1.2.2.4 Hồi qui . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.2.5 Tổng hợp . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.2.6 Mô hình hóa phụ thuộc . . . . . . . . . . . . . . . 7 1.2.2.7 Phát hiện sự thay đổi và độ lệch . . . . . . . . . . 7 1.3 Thuật toán và dạng dữ liệu có thể khai phá . . . . . . . . . . . . . 8 1.3.1 Các thành phần của thuật toán khai phá dữ liệu . . . . . . . 8 1.3.2 Các dạng dữ liệu có thể khai phá . . . . . . . . . . . . . . . 9 1.4 Ứng dụng của khai phá dữ liệu . . . . . . . . . . . . . . . . . . . . 9 1.5 Những khó khăn trong khai phá dữ liệu . . . . . . . . . . . . . . . . 11 1.6 Các công cụ khai phá dữ liệu . . . . . . . . . . . . . . . . . . . . . 11 1.7 Công cụ và dataset thực nghiệm . . . . . . . . . . . . . . . . . . . . 12 1.7.1 Phần mềm Weka . . . . . . . . . . . . . . . . . . . . . . . . 12 1.7.1.1 Giới thiệu về Weka . . . . . . . . . . . . . . . . . . 12 1.7.1.2 Khuôn dạng dữ liệu của Weka . . . . . . . . . . . . 14 1.7.1.3 Các chức năng của Weka Explorer . . . . . . . . . 14 ii 1.7.2 Các Dataset thực nghiệm . . . . . . . . . . . . . . . . . . . 18 1.7.2.1 Dataset Mushroom . . . . . . . . . . . . . . . . . . 18 1.7.2.2 Dataset Supermarket . . . . . . . . . . . . . . . . . 20 1.7.2.3 Dataset Labor . . . . . . . . . . . . . . . . . . . . 20 2 Thuật toán phân cụm k-Mean 21 2.1 Bài toán phân cụm và hướng tiếp cận . . . . . . . . . . . . . . . . . 21 2.1.1 Bài toán phân cụm . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.2 Yêu cầu đối với phân cụm dữ liệu . . . . . . . . . . . . . . . 22 2.1.3 Một số độ đo dùng trong phân cụm . . . . . . . . . . . . . . 23 2.1.4 Các hướng tiếp cận phân cụm . . . . . . . . . . . . . . . . . 24 2.1.5 Các phương pháp phân cụm . . . . . . . . . . . . . . . . . . 24 2.2 Thuật toán K-Mean . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2.1 Thuật toán K-Mean gán cứng . . . . . . . . . . . . . . . . . 26 2.2.2 Thuật toán K-Mean gán mềm . . . . . . . . . . . . . . . . . 28 2.2.3 Đánh giá ưu nhược điểm của thuật toán K-Means . . . . . . 28 2.2.4 Một số biến thể của thuât toán K-Mean . . . . . . . . . . . 29 2.2.4.1 Thuât toán K-Mediod . . . . . . . . . . . . . . . . 29 2.2.4.2 Thuât toán k-Tâm . . . . . . . . . . . . . . . . . . 30 2.2.4.3 Thuật toán Fuzzy c-Mean . . . . . . . . . . . . . . 30 2.2.4.4 Thuât toán COP-kMeans, Seeded-kMeans, Constrained- kMeans . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.4.5 Thuật toán k-Mean++ . . . . . . . . . . . . . . . . 31 2.3 Thực nghiệm khai phá trên Weka . . . . . . . . . . . . . . . . . . . 32 2.3.1 Khai phá cơ sở dữ liệu Supermarket . . . . . . . . . . . . . . 32 2.3.2 Khai phá cơ sở dữ liệu Labor . . . . . . . . . . . . . . . . . 33 2.3.3 So sánh K-Mean trên các dataset khác nhau . . . . . . . . . 34 3 Thuật toán phân lớp Naive Bayes 35 3.1 Bài toán phân lớp và hướng tiếp cận . . . . . . . . . . . . . . . . . 35 3.1.1 Bài toán phân lớp . . . . . . . . . . . . . . . . . . . . . . . . 35 3.1.2 Các loại phân lớp . . . . . . . . . . . . . . . . . . . . . . . . 36 3.1.3 Đánh giá độ chính xác của mô hình phân lớp . . . . . . . . 37 3.1.4 Các phương pháp phân lớp . . . . . . . . . . . . . . . . . . . 39 3.2 Thuật toán Na¨ıve Bayes . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2.1 Giới thiệu thuật toán Na¨ıve Bayes . . . . . . . . . . . . . . . 39 3.2.2 Thuật toán Na¨ıve Bayes . . . . . . . . . . . . . . . . . . . . 39 3.2.3 Đánh giá ưu, nhược điểm của thuật toán Na¨ıve Bayes . . . . 40 3.3 Thực nghiệm khai phá trên Weka . . . . . . . . . . . . . . . . . . . 41 3.3.1 Khai phá cơ sở dữ liệu Mushroom . . . . . . . . . . . . . . . 41 3.3.2 Khai phá cơ sở dữ liệu Supermarket và Labor . . . . . . . . 44 Kết luận 45 Tài liệu tham khảo 46 iii Từ viết tắt Từ viết tắt Dạng đầy đủ Diễn giải KDD Knowledge Discovery in Database Khai phá tri thức trong CSDL DM Data Mining Khai phá dữ liệu FCM Fuzzy c-Mean Thuật toán c-Mean mờ NB Naıve Bayes Thuật toán Naive Bayes FP False positives Khẳng định sai FN False negatives Phủ định sai TP True positives Khẳng định đúng TN True negatives Phủ định đúng iv Danh sách hình vẽ 1.1 Quá trình khai phá dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Kiến trúc hệ thống khai phá dữ liệu . . . . . . . . . . . . . . . . . . 3 1.3 Ứng dụng của Khai phá dữ liệu . . . . . . . . . . . . . . . . . . . . 10 1.4 Giao diện phần mềm Weka . . . . . . . . . . . . . . . . . . . . . . . 12 1.5 Môi trường Explore của Weka . . . . . . . . . . . . . . . . . . . . . 13 1.6 Khuôn dạng dữ liệu của Weka . . . . . . . . . . . . . . . . . . . . . 14 1.7 Dataset mushroom có 23 thuộc tính và 8124 mẫu . . . . . . . . . . 18 1.8 Dataset Super Market có 217 thuộc tính và 4627 mẫu . . . . . . . . 20 1.9 Dataset Labor có 17 thuộc tính và 57 mẫu . . . . . . . . . . . . . . 20 2.1 Sơ đồ các bước thực hiện thuật toán K-Mean . . . . . . . . . . . . 26 2.2 Ví dụ thực hiện thuật toán K-Mean với n = 10, k = 2 . . . . . . . . 27 2.3 Ví dụ thực hiện thuật toán K-Mediod với n = 10, k = 2 . . . . . . . 29 2.4 Tham số của thuật toán k-Mean với cơ sở dữ liệu Supermarket . . . 32 2.5 Mở cơ sở dữ liệu Labor với Weka . . . . . . . . . . . . . . . . . . . 33 2.6 Kết quả khai phá cơ sở dữ liệu Labor sử dụng K-Mean trên Weka . 34 2.7 Hiện thị phân bố các cụm dưới dạng đồ họa . . . . . . . . . . . . . 34 3.1 Ví dụ về quá trình phân lớp . . . . . . . . . . . . . . . . . . . . . . 36 v Danh sách bảng 1.1 Các Dataset thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2 Các thuộc tính của dataset mushroom.arff . . . . . . . . . . . . . . 19 1.3 Mô tả ý nghĩa các giá trị dữ liệu . . . . . . . . . . . . . . . . . . . . 19 2.1 Ví dụ về phân cụm dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 23 2.2 So sánh hiệu quả thực thi k-Mean trong các mode khác nhau . . . . 32 2.3 So sánh k-Mean và các thuật toán khác trên dataset supermarket với mô hình Percentage Split (66%) . . . . . . . . . . . . . . . . . . 33 2.4 Kết quả thực nghiệm k-Mean trên các dataset khác nhau trong chế độ Full training data . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1 Ma trận nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2 Phân lớp đa lớp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.3 Thống kê tỷ lệ phân lớp dữ liệu Mushroom với số fold thay đổi . . . 42 3.4 Thống kê tỷ lệ phân lớp dữ liệu Mushroom với số % Split thay đổi . 42 3.5 So sánh hiệu quả các thuật toán phân lớp trên dữ liệu Supermarket với mô hình Full training set và chế độ Cross-validation . . . . . . . 44 3.6 So sánh hiệu quả các thuật toán phân lớp trên dữ liệu Labor với mô hình Full training set và chế độ Cross-validation, số Fold=10 . . 44 vi Chương 1 Tổng quan về Khai phá dữ liệu 1.1 Khai phá dữ liệu 1.1.1 Khái niệm Khái niệm khai phá dữ liệu (Data Mining) ra đời vào những năm cuối của thập kỷ 1980. Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở dữ liệu và có thể xem như là một bước trong quá trình khám phá tri thức. Data Mining là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh, Có rất nhiều quan điểm và định nghĩa khác nhau về khai phá dữ liệu được đưa ra trong [5] như : - Data Mining is the search for relationships and global patterns that exist in large databases but are ’hidden’ among the vast amount of data, such as a relationship between patient data and their medicaldiagnosis. These relationships represent valuable knowledge about the database and the objects in the database and, if the database is a faithful mirror, of the real world registered by the database-M. Holshemier và A. Siebes. - Tiến sĩ U.M. Fayyad với cách tiếp cận ứng dụng đã phát biểu : “Khai phá dữ liệu, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu” - Giáo sư T. Mitchell định nghĩa trong [18] như sau : “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai” Như vậy có thể hiểu Khai phá dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong các cơ sở dữ liệu. Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ cơ sở dữ liệu lớn. Tóm lại, 1 Chương 1. Tổng quan về Khai phá dữ liệu 2 Khai phá dữ liệu là một quá trình học tri thức mới từ những dữ liệu đã thu thập được [9, 12, 19]. Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định. Khai phá dữ liệu là việc trích rút tri thức một cách tự động và hiệu quả từ một khối dữ liệu rất lớn. Tri thức đó thường ở dạng các mẫu tin có tính chất không tầm thường, không tường minh (ẩn-unsuspected), chưa được biết đến và có tiềm năng mang lại lợi ích. Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau : Khai phá dữ liệu được ví như tìm một cây kim trong đống cỏ khô. Khi đó, cây kim là một mảnh nhỏ tri thức hoặc một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ liệu rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu. Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự đoán và phân tích các liên kết. Sau đó, Fayyad, Smyth và Piatestsky-Shapiro đã dùng khái niệm Phát hiện tri thức từ cơ sở dữ liệu(Knowledge Discovery in Database-KDD) [5] : Knowledge discovery in databases, also known Data mining, is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. Trong đó, khai phá dữ liệu là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm ra các mẫu từ dữ liệu và là cốt lõi của quá trình phát hiện tri thức. Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như : khai phá tri thức từ cơ sở dữ liệu (Knowlegde mining from databases), trích lọc dữ liệu (Knowlegde extraction), phân tích dữ liệu/mẫu (Data/pattern analysis), khảo cổ dữ liệu (Data archaeology), nạo vét dữ liệu (Data dredging) Các thuật toán khai phá dữ liệu thường được mô tả như những chương trình hoạt động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thống kê trước đây, bước đầu tiên là thuật toán thường nạp toàn bộ file dữ liệu vào trong bộ nhớ. Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được. Không chỉ bởi nó không thể nạp hết dữ liệu vào trong bộ nhớ mà còn khó có thể chiết xuất dữ liệu ra các tệp đơn giản để phân tích. Quá trình khai phá dữ liệu sẽ tiến hành qua các giai đoạn như Hình 1.1. Bắt đầu bằng việc xác định chính xác vấn đề cần giải quyết. Sau đó sẽ xác định dữ liệu liên quan dùng để xây dựng giải pháp. Tiếp theo là thu thập dữ liệu có liên quan và xử lý chúng thành dạng sao cho thuật toán khai phá dữ liệu có thể hiểu được. - Bước 1 : Lọc dữ liệu được thực hiện trong quá trình tiền xử lý. Công việc đầu tiên là tích hợp và chỉnh sửa dữ liệu. Khi dữ liệu được thu thập từ nhiều nguồn khác nhau nên có thể có những sự sai sót, dư thừa và trùng lặp. Lọc Chương 1. Tổng quan về Khai phá dữ liệu 3 Hình 1.1 – Quá trình khai phá dữ liệu dữ liệu là cắt bỏ những dư thừa để dữ liệu được định dạng thống nhất. Dữ liệu sau khi lọc và chỉnh sửa sẽ nhỏ hơn, xử lý nhanh chóng hơn. - Bước 2 : Khai phá dữ liệu, là công việc chính, sử dụng các thuật toán khác nhau để khai phá các kiến thức tiềm ẩn trong dữ liệu. - Bước 3 : Sau xử lý, là quá trình ước lượng kết quả khai phá theo yêu cầu của người dùng. Nhiều kỹ thuật khai phá dữ liệu được ứng dụng cho một nguồn dữ liệu, các kỹ thuật cho các kết quả có thể khác nhau. Các kết quả được ước lượng bởi những quy tắc nào đó, nếu cuối cùng kết quả không thỏa mãn yêu cầu, chúng ta phải làm lại với kỹ thuật khác cho đến khi có kết quả mong muốn. 1.1.2 Kiến trúc hệ thống khai phá dữ liệu Kiến trúc của một hệ thống khai phá dữ liệu được thể hiện trong Hình 1.2. trong đó : Hình 1.2 – Kiến trúc hệ thống khai phá dữ liệu - Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu (Database or warehouse server) : Máy chủ này có trách nhiệm lấy dữ liệu thích hợp dựa trên những yêu cầu khai phá của người dùng. [...]... giữa dữ liệu trong hai tập con dữ liệu, tính cả trường hợp tập con của đối tượng này thuộc Chương 1 Tổng quan về Khai phá dữ liệu 8 tập con kia, nghĩa là xác định dữ liệu trong một nhóm con của đối tượng có khác nhau đáng kể so với toàn bộ đối tượng [6, 14] 1.3 1.3.1 Thuật toán và dạng dữ liệu có thể khai phá Các thành phần của thuật toán khai phá dữ liệu Ba thành phần chủ yếu trong một thuật toán khai. .. điểm mạnh và điểm yếu riêng, thậm chí chúng ta còn phải kết hợp các phương pháp trong quá trình khai phá Chương 1 Tổng quan về Khai phá dữ liệu 1.3.2 9 Các dạng dữ liệu có thể khai phá Do khai phá dữ liệu được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau được chấp nhận trong khai phá dữ liệu [8] Điển hình là : - Cơ sở dữ liệu quan hệ (Relational databases) : là các cơ sở dữ liệu tác nghiệp... dụng phương pháp nào vào trong trường hợp nào thì có hiệu quả, có nhiều kỹ thuật và mỗi kỹ thuật được sửdụng cho nhiều bài toán khác nhau Các thuật toán khai phá dữ liệu tự động chỉ đang ở giai đoạn phát triển ban đầu, các kỹ thuật khai phá dữ liệu còn mới với lĩnh vực kinh doanh Rõ ràng là để trả lời câu hỏi khai phá dữ liệu dùng kỹ thuật nào là tốt ? ” thật không đơn giản vì mỗi phương pháp thì có... summarization) : thiên vê mô tả, tổng hợp và tóm tắt khai niệm như tóm tắt văn bản Chương 1 Tổng quan về Khai phá dữ liệu 1.2.2 5 Một số kỹ thuật khai phá dữ liệu Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính [8] : - Kỹ thuật khai phá dữ liệu mô tả : có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có bao gồm : phân cụm (clustering),... khi xử lý những dữ liệu này Chương 2 Thuật toán phân cụm k-Mean 23 5) Phân cụm tăng dần và khả năng độc lập với thứ tự dữ liệu đầu vào Nhiều thuật toán phân cụm không thể xử lý thêm những dữ liệu mới được thêm vào tới những cấu trúc cụm có sẵn mà phải phân cụm lại từ đầu Một vài thuật toán phụ thuộc vào thứ tự của dữ liệu đầu vào, nghĩa là, cho một tập các đối tượng dữ liệu, những thuật toán đó có thể... liệu có tích hợp thuộc tính về không gian như dữ liệu bản đồ hoặc thời gian như dữ liệu về thị trường chứng khoán - Cơ sở dữ liệu đa phương tiện (Multimedia databases) : là các dữ liệu âm thanh, hình ảnh, phim ảnh, Text và WWW, Đây là dạng dữ liệu rất phổ biến trên mạng Internet 1.4 Ứng dụng của khai phá dữ liệu Khai phá dữ liệu được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn dữ liệu. .. tìm kiếm và thực hiện khai phá thăm dò trên các kết quả khai phá trung gian 1.2 1.2.1 Hướng tiếp cận và kỹ thuật khai phá dữ liệu Các hướng tiếp cận khai phá dữ liệu Các hướng tiếp cận của Khai phá dữ liệu có thể được phân chia theo chức năng hay lớp các bài toán khác nhau [8] Sau đây là một số hướng tiếp cận chính : - Phân lớp và dự đoán (Classification and Prediction) : xếp một đối tượng vào trong... với người sửd ụng và thách thức với các hệ khai phá dữ liệu - Làm việc với các dữ liệu quan hệ phức tạp : Do các hệ cơ sở dữ liệu quan hệ được sử dụng rộng rãi nên vấn đề làm tốt với các hệ cơ sở dữ liệu này là vấn đề cần quan tâm đối với các hệ khai phá dữ liệu - Khai phá thông tin trong các hệ cơ sở dữ liệu hỗn hợp và hệ thống thông tin toàn cầu : Với sự ra đời của mạng máy tính, dữ liệu có thể được... khó khăn trong khai phá dữ liệu Việc nghiên cứu và ứng dụng các kỹ thuật khai phá dữ liệu vào thực tế còn gặp nhiều khó khăn như : - Cơ sở dữ liệu lớn : Các tập dữ liệu cần xử lý trong khai phá dữ liệu thường có kích thước cực kỳ lớn về cả số lượng các bản ghi và số lượng các thuộc tính Trong thực tế, kích thước của các tập dữ liệu trong khai phá dữ liệu thường ở mức Tera-byte Với kích thước như thế,... mô hình dữ liệu cho phân cụm Xác định mô hình tốt nhất phù hợp với dữ liệu + Thuật toán : MCLUST - Phân cụm mờ + Giả thiết : không có phân cụm “cứng” cho dữ liệu và đối tượng có thể thuộc một số cụm Sử dụng hàm mờ từ các đối tượng tới các cụm + Thuật toán : FCM (Fuzzy CMEANS), 2.2 Thuật toán K-Mean Thuật toán k-Means [7] có thể xếp vào lớp thuật toán phân cụm phẳng, ý tưởng chính của thuật toán là

Ngày đăng: 05/03/2014, 17:56

Xem thêm: khai phá dữ liệu dùng thuật toán K-mean và naive bayes trên wave, khai phá dữ liệu dùng thuật toán K-mean và naive bayes trên wave, 2 Hướng tiếp cận và kỹ thuật khai phá dữ liệu, 7 Công cụ và dataset thực nghiệm, 1 Bài toán phân cụm và hướng tiếp cận, 3 Thực nghiệm khai phá trên Weka, 1 Bài toán phân lớp và hướng tiếp cận, 2 Thuật toán Naïve Bayes

khai phá dữ liệu dùng thuật toán K-mean và naive bayes trên wave

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Mở đầu

Từ viết tắt

Danh sách hình vẽ

Danh sách bảng

1 Tổng quan về Khai phá dữ liệu

1.1 Khai phá dữ liệu

1.1.1 Khái niệm

1.1.2 Kiến trúc hệ thống khai phá dữ liệu

1.2 Hướng tiếp cận và kỹ thuật khai phá dữ liệu

1.2.1 Các hướng tiếp cận khai phá dữ liệu

1.2.2 Một số kỹ thuật khai phá dữ liệu

1.2.2.1 Phân lớp

1.2.2.2 Phân cụm

1.2.2.3 Luật kết hợp

1.2.2.4 Hồi qui

1.2.2.5 Tổng hợp

1.2.2.6 Mô hình hóa phụ thuộc

1.2.2.7 Phát hiện sự thay đổi và độ lệch

1.3 Thuật toán và dạng dữ liệu có thể khai phá

1.3.1 Các thành phần của thuật toán khai phá dữ liệu

1.3.2 Các dạng dữ liệu có thể khai phá

1.4 Ứng dụng của khai phá dữ liệu

1.5 Những khó khăn trong khai phá dữ liệu

1.6 Các công cụ khai phá dữ liệu

1.7 Công cụ và dataset thực nghiệm

1.7.1 Phần mềm Weka

1.7.1.1 Giới thiệu về Weka

Tài liệu cùng người dùng

Tài liệu liên quan