Khai phá dữ liệu với cây quyết định

ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HOÀNG LIÊN KHAI PHÁ DỮ LIỆU VỚI CÂY QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Chuyên ngành: Mã số: 1 .01. 10 Người hướng dẫn khoa học: PGS.TS VŨ ĐỨC THI HÀ NỘI - 2007 1 MỤC LỤC MỞ ĐẦU 3 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu 4 1.2. Khai phá dữ liệu 8 1.2.1. Định nghĩa và các yêu cầu trong khai phá dữ liệu 8 1.2.2 Phân loại các hệ thống khai phá dữ liệu 10 1.2.3. Các phương pháp khai phá dữ liệu 15 1.3. Những vấn đề cần quan tâm trong khai phá dữ liệu 22 1.3.1. Những khó khăn trong khai phá dữ liệu 22 1.3.2. Về kết quả của quá trình khai phá dữ liệu 24 1.3.3. Một số hướng nghiên cứu của khai phá dữ liệu hiện nay 24 1.4. Kết luận 26 CHƢƠNG 2: KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 27 2.1. Sơ lƣợc về sự phân lớp 27 2.1.1. Các khái niệm cơ bản 27 2.1.2. Quá trình phân lớp 28 2.1.3. Các phương pháp phân lớp 29 2.2. Cây quyết định 31 2.2.1. Định nghĩa 31 2.2.2. Xây dựng cây quyết định 33 2.2.3. Giải thuật ID3 34 2.2.3.1. Entropy 35 2.2.3.2. Information Gain 35 2.2.3.3. Giải thuật ID3 36 2.2.3.4. Những hạn chế của giải thuật ID3 43 2.2.4. Giải thuật mở rộng C4.5 44 2.2.4.1. SplitInfo và Gain Ratio 44 2.2.4.2. Giải thuật C4.5 46 2.2.4.3. Những cải tiến của giải thuật C4.5 48 2.3. Tránh overfitting dữ liệu 50 2.3.1. Tiền cắt tỉa (pre-prunning) 51 2.3.2. Hậu cắt tỉa (post-prunning) 52 2.4. Rút ra các luật từ Cây quyết định 55 2 2.5. Kết luận 56 CHƢƠNG 3: CÂY QUYẾT ĐỊNH MỜ 57 3.1. Giới thiệu 57 3.2. Logic mờ và suy luận xấp xỉ 58 3.2.1. Khái niệm Logic mờ 58 3.2.2. Các khái niệm cơ bản của logic mờ 59 3.2.2.2. Các toán tử logic trên tập mờ 61 3.2.2.4. Hệ Điều khiển/Quyết định mờ(Fuzzy logic Control/Decision System) 62 3.2.2.5. Các ưu điểm của áp dụng tập mờ để rời rạc hoá dữ liệu 63 3.3. Cây Quyết định Mờ 64 3.3.1. Fuzzy ID3 64 3.3.1.1. Dữ liệu mẫu với biểu diễn mờ 65 3.3.1.2. Entropy mờ và độ đo thông tin mờ 68 3.3.1.3. Định nghĩa ngưỡng 69 3.3.1.4. Thủ tục xây dựng cây quyết định mờ 70 3.3.1.5. Lập luận với Fuzzy ID3 72 3.3.2. Probabilistic Fuzzy ID3 73 3.3.2.1.Không gian mẫu xác định tốt (well-defined sample space) 73 3.2.2.2. Entropy mờ xác xuất 76 3.2.2.3. Thủ tục xây dựng cây quyết định 77 3.4. So sánh các giải thuật ID3, FID3 và PFID3 79 3.5. Kết luận 80 CHƢƠNG 4: CÀI ĐẶT PHẦN MỀM MINH HỌA 81 4.1. Giới thiệu phần mềm 81 4.2. Giao diện của chƣơng trình 83 4.3. Đánh giá 88 KẾT LUẬN CHUNG 89 TÀI LIỆU THAM KHẢO 90 PHỤ LỤC 92 3 MỞ ĐẦU Trong những thập niên vừa qua, sự phát triển mạnh mẽ của công nghệ thông tin và ngành công nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí , trong đó có nhiều cơ sở dữ liệu cực lớn cỡ Gigabyte, thậm chí là Terabyte. Các kho dữ liệu ngày càng lớn và tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết là phải có những kĩ thuật và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin cô đọng và có ích. Kĩ thuật Khai phá dữ liệu (Data mining) ra đời như một kết quả tất yếu đáp ứng các nhu cầu đó. Khám phá tri thức và khai phá dữ liệu (KDD = Knowledge Discovery and Data mining) đã nhanh chóng trưởng thành trên mọi lĩnh vực, kết hợp với việc quản lí dữ liệu, khoa học thống kê và mục đích sử dụng tri thức từ khai phá dữ liệu. Mục đích của luận văn này là nghiên cứu, tìm hiểu về lĩnh vực khai phá dữ liệu, các phương pháp, kỹ thuật khai phá dữ liệu và trọng tâm là phương pháp Cây quyết định và các cải tiến trong Cây quyết định mờ. Để đạt được mục tiêu đó luận văn được chia làm các phần sau: Chƣơng 1: Tổng quan về khai phá dữ liệu Chƣơng 2: Khai phá dữ liệu bằng cây quyết định Chƣơng 3: Cây quyết định mờ Chƣơng 4: Cài đặt chƣơng trình minh họa Kết luận 4 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu Ngày nay, hầu hết mọi lĩnh vực của đời sống thực phải đối mặt với khối lượng ngày càng tăng của dữ liệu được thu thập từ các hoạt động của con người (như dữ liệu giao dịch thị trường, bản ghi việc sử dụng thẻ tín dụng, thông tin về các cuộc gọi điện thoại, các thống kê của chính phủ) tới các dữ liệu thu thập được từ bên ngoài (như hình ảnh các thiên thể, cơ sở dữ liệu về phân tử, hoặc bản ghi y tế). Các công cụ thu thập dữ liệu tự động và các công nghệ cơ sở dữ liệu phát triển mạnh mẽ tạo ra một lượng dữ liệu khổng lồ được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu và các nơi lưu trữ thông tin khác. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kĩ thuật Khai phá dữ liệu đã trở thành tiêu điểm của một lĩnh vực mới nghiên cứu và ứng dụng về khám phá tri thức (Knowledge Discovery) và khai phá dữ liệu (Data Mining). Khám phá tri thức: phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình dữ liệu với các tính năng: hợp thức, mới, khả ích và có thể hiểu được. Khai phá dữ liệu: khai phá dữ liệu là một bước trong quá trình phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi số lượng dữ liệu khổng lồ. Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Khai phá dữ liệu là một bước của Quá trình khám phá tri thức (Knowledge Discovery Process), bao gồm: 5 1. Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề. 2. Thu thập và tiền xử lý dữ liệu: Bao gồm quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu(data selection), biến đổi dữ liệu (data transformation) 3. Khai phá dữ liệu và rút ra các tri thức: Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kỹ thuật khai phá dữ liệu. Kết quả cho ta một nguồn trí thức thô. 4. Phân tích và đánh giá kết quả: Dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn trí thức thu được. 5. Sử dụng các tri thức phát hiện được. Quá trình khám phá tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay lại các bước đã qua. Hình vẽ dưới đây biểu diễn quá trình khám phá tri thức Hình 1.1: Quá trình khám phá tri thức Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu. 6 Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết. Bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức và gồm các khâu sau: - Làm sạch dữ liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu không nhất quán, đây là một bước rất quan trọng trong quá trình tiền xử lý dữ liệu. Một số lỗi thường mắc phải trong khi thu thập dữ liệu là tính không đủ chặt chẽ, logic, dữ liệu rỗng, dư thừa, hoặc dữ liệu không hợp lệ. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu, ví dụ tuổi = 0. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một Giai đoạn rất quan trọng vì dữ liệu này nếu không được “làm sạch” thì sẽ gây nên những kết quả sai lệch nghiêm trọng. - Tích hợp dữ liệu (Data Intergation): tích hợp dữ liệu từ các nguồn khác nhau như cơ sở dữ liệu, kho dữ liệu, file text,các dữ liệu từ các nguồn ứng dụng Web,… - Lựa chọn dữ liệu (Data Selection): Lựa chọn, thu thập những dữ liệu phù hợp với nhiệm vụ phân tích, trích rút từ các nguồn dữ liệu ban đầu. - Chuyển đổi dữ liệu (Data Transformation): Dữ liệu được chuyển đổi hay được hợp nhất về dạng thích hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp. 7 Hình 1.2: Sơ đồ quá trình tiền xử lý dữ liệu Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu như các nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự, Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần thiết. Bước thứ năm là sử dụng các tri thức phát hiện được, ở giai đoạn này các kỹ thuật biểu diễn và trực quan hóa được sử dụng để biểu diễn tri thức khai phá được cho người sử dụng. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. 8 1.2. Khai phá dữ liệu 1.2.1. Định nghĩa và các yêu cầu trong khai phá dữ liệu Khai phá dữ liệu: là sự phân tích dữ liệu quan sát (thường là lớn) để tìm ra các quan hệ rõ ràng và để tóm tắt (khái quát) dữ liệu theo các cách mới mà vừa dễ hiểu, vừa hữu ích cho người sở hữu dữ liệu. Các quan hệ và các tóm tắt thu được thông qua khai phá dữ liệu thường gọi là các mô hình (models) hoặc khuôn mẫu (patterns). Ví dụ như các phương trình tuyến tính, các luật, các nhóm, các đồ thị, các cấu trúc cây, các khuôn mẫu lặp lại theo thời gian. Đây là một khoa học liên ngành mới, giao của thống kê học, học máy, quản trị dữ liệu và các cơ sở dữ liệu, nhận dạng khuôn mẫu, trí tuệ nhân tạo, và các lĩnh vực khác. Tất cả chúng liên quan đến các khía cạnh cụ thể của phân tích dữ liệu, chúng có nhiều thứ chung, nhưng mỗi môn có các bài toán và phương pháp giải quyết phân biệt và đặc trưng. Ở trên ta nhắc đến “dữ liệu quan sát – observational data”, đối lập với “dữ liệu thực nghiệm – experimental data”. Khai phá dữ liệu thường làm việc trên dữ liệu mà đã thực sự được thu thập trước đó cho mục đích khác với việc phân tích của khai phá dữ liệu (chẳng hạn, chúng được thu thập nhằm cập nhật tất cả các giao dịch trong một ngân hàng). Điều này có nghĩa rằng các mục tiêu của khai phá dữ liệu không được xác định trong chiến lược thu thập dữ liệu. Điều này là một trong những điểm để phân biệt khai phá dữ liệu với thống kê. Với thống kê, dữ liệu thường được thu thập bằng cách sử dụng các chiến lược hiệu quả để trả lời các câu hỏi xác định trước. Với lý do này, khai phá dữ liệu thường được coi là phân tích dữ liệu thứ cấp (secondary) Định nghĩa trên cũng đề cập đến các tập dữ liệu trong khai phá dữ liệu thường là lớn. Nếu chỉ làm việc trên tập dữ liệu nhỏ, chúng ta hoàn toàn mới chỉ thảo luận phân tích dữ liệu kiểu cổ điển như công việc của các nhà thống kê. Khi đối mặt với dữ liệu lớn, các bài toán mới sẽ nảy sinh như các bài toán liên quan đến các vấn đề lưu trữ và truy cập dữ liệu, hay các vấn đề cơ bản như là làm thế nào để xác định các đại diện của dữ liệu, làm thế nào phân tích dữ liệu trong thời gian chấp nhận được, làm thế nào để quyết định xem một mối liên hệ chỉ đơn thuần là sự xuất hiện ngẫu nhiên không phản ánh một thực tế nào cả. 9 Thông thường, dữ liệu có sẵn chỉ bao gồm một mẫu (sample) từ một tập đầy đủ dữ liệu trong khi mục đích của khai phá dữ liệu là khái quát hóa (generalize) từ mẫu đó cho toàn bộ tập dữ liệu. Chẳng hạn chúng ta mong muốn dự đoán hành vi của các khách hàng tương lai, hoặc dự đoán các tính chất của cấu trúc proteins mà chúng ta chưa bao giờ nhìn thấy trước đó. Những khái quát hóa như vậy có thể không thể có được bằng các cách tiếp cận thống kê chuẩn vì dữ liệu thường không phải là các mẫu “ngẫu nhiên” mà là “mẫu tiện lợi” (“convenience samples”) hoặc “mẫu cơ hội” (“opportunity samples”). Đôi khi chúng ta muốn tóm tắt hoặc nén một tập dữ liệu lớn theo một cách sao cho kết quả là dễ hiểu, không có bất cứ một ý niệm nào của khái quát hóa cả như trong trường hợp tóm tẳt dữ liệu điều tra dân số đầy đủ của một quốc gia, hoặc một cơ sở dữ liệu gồm hàng triệu giao dịch bán lẻ. Quá trình đi tìm các quan hệ trong một tập dữ liệu – tìm các mô hình và khuôn mẫu biểu diễn tóm tắt, hữu ích, tiện lợi và chính xác một số khía cạnh của dữ liệu – có thể chia ra theo các bước sau: - Xác định nhiệm vụ khai phá: Xác định mục tiêu của bài toán cần giải quyết, bản chất và cấu trúc của mô hình hay khuôn mẫu cần được sử dụng là trực quan, phân cụm, phân lớp, hồi qui, hay tìm kiếm mẫu,… - Quyết định làm thế nào để định lượng và so sánh độ phù hợp của các mô hình hay khuôn mẫu khác nhau đối với dữ liệu (tức là lựa chọn hàm định giá- score function) - Chọn lựa một phương pháp tìm kiếm và tối ưu, tìm ra các khuôn mẫu và mô hình “tốt/tối ưu” từ cấu trúc (dạng) của khuôn mẫu và mô hình đã xác định trong bước đầu. Tiêu chuẩn “tốt/tối ưu” là dựa trên hàm định giá đã chọn. - Đưa ra chiến lược quản trị dữ liệu để cài đặt hiệu quả cho phương pháp tìm kiếm và tối ưu. Các yêu cầu trong khai phá dữ liệu Các hệ thống khai phá có thể sinh ra hàng nghìn thậm chí hàng triệu mẫu. Những đôi khi chỉ có một số ít trong chúng là đáng quan tâm đối với người dùng. Hơn nữa, ta cũng không thể biết liệu hệ thống khai phá dữ liệu có thể sinh ra tất cả các mẫu hữu ích, đáng quan tâm hay không bởi vì trong một cơ sở dữ [...]... trình phát hiện tri thức trong cơ sở dữ liệu trải qua nhiều giai đoạn, như: xác định vấn đề, tiền xử lý dữ liệu làm sạch dữ liệu, tổng hợp dữ liệu, chuyển đổi dữ liệu, … , khai phá dữ liệu, đánh giá các mẫu tìm được, trình bày tri thức được khai phá Trong đó giai đoạn tiền xử lý dữ liệu chiếm thời gian rất nhiều, còn giai đoạn khai phá dữ liệu là giai đoạn quan trọng nhất trong qui trình khám phá tri... việc khai phá dữ liệu là tìm ra các mẫu và mô hình quan tâm, tiềm ẩn trong một lượng lớn dữ liệu Các mẫu và mô hình này có thể được khai phá từ nhiều dạng dữ liệu khác nhau, như: cơ sở dữ liệu quan hệ, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu đa chiều, cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu thời gian, dữ liệu web,… Đến nay, vẫn chưa có một tiêu chuẩn chung nào để chọn lựa phương pháp khai phá. .. hệ thống khai phá dữ liệu Như ta đã biết, khai phá dữ liệu là một khoa học liên ngành của thống kê học, học máy, quản trị dữ liệu và các cơ sở dữ liệu, nhận dạng khuôn mẫu, trí tuệ nhân tạo, và các lĩnh vực khác Vì có nhiều dạng khác nhau của nhiều ngành tham gia vào việc khai phá dữ liệu nên việc nghiên cứu về khai phá dữ liệu phải chỉ ra được một sự khác nhau lớn về các hệ thống khai phá dữ liệu Do... dạng dữ liệu, hoặc các ứng dụng có liên quan Phân lớp dựa theo các mô hình 10 dữ liệu thì chúng ta có thể có hệ thống khai phá dữ liệu quan hệ, giao dịch, hướng đối tượng, quan hệ đối tượng, hoặc kho dữ liệu Còn nếu phân lớp dựa theo các dạng không gian của dữ liệu được vận dụng thì chúng ta cỏ thể có hệ thống khai phá dữ liệu không gian, dữ liệu chuỗi thời gian, dữ liệu văn bản, hoặc hệ thống khai phá. .. phân loại các hệ thống khai phá dữ liệu là cần thiết Việc phân loại các hệ thống khai phá dữ liệu giúp người dùng có khả năng phân biệt được các hệ thống khai phá dữ liệu và tìm được hệ thống phù hợp đối với các nhu cầu của họ Hệ thống khai phá dữ liệu có thể được phân lớp dựa theo nhiều tiêu chí khác nhau [12], như sau: - Phân loại dựa theo các dạng cơ sở dữ liệu được khai phá, ở dây ta có thể phân... việc tiền xử lý dữ liệu, khai phá dữ liệu cho đến việc trình bày và sử dựng tri thức đã được tìm ra 1.3.1 Những khó khăn trong khai phá dữ liệu Trong thực tế, dữ liệu tồn tại trong nhiều dạng và thường phức tạp, đa dạng, nhập nhằng, mang tính thời gian, không đầy đủ, quá lớn hoặc bị nhiễu, Khai phá dữ liệu có khả năng chấp nhận một số kiểu dữ liệu khác nhau điển hình như sau: Cơ sở dữ liệu quan hệ (relational... phân lớp dữ liệu cơ bản đó là phân lớp bằng Cây quyết định Ngoài kỹ thuật Cây quyết định ra còn có nhiều kỹ thuật phân lớp khác chẳng hạn như: mạng nơron, thuật giải di truyền, Nhưng do phạm vi của đề tài nên ở đây chỉ nghiên cứu chi tiết về kỹ thuật Cây quyết định 30 2.2 Cây quyết định Cây quyết định là công cụ hiệu quả cho việc phân loại và dự đoán Sự hấp dẫn của phương pháp thiết lập cây này là... khai phá dữ liệu đa phương tiện hoặc một hệ thống khai phá dữ liệu web - Phân loại dựa theo các dạng tri thức mà các hệ thống này khai phá Nghĩa là dựa trên các chức năng khai phá dữ liệu, như sự mô tả, phân biệt, kết hợp, phân lớp, phân nhóm, phân tích dư thừa và phân tích tiến hóa Ngoài ra, các hệ thống khai phá dữ liệu có thể được phân biệt dựa trên mức độ trừu tượng của tri thức được khai phá, bao... như: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu, …Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với các lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình hóa dữ liệu và phát hiện các mẫu, luật,… 20 Hiện nay kĩ thuật khai phá dữ liệu đang được áp dụng một cách rộng rãi... giá trị được sinh ra và sử dụng để xác định tính đúng đắn của dữ liệu 1.3.2 Về kết quả của quá trình khai phá dữ liệu Với các mẫu, mô hình thu được trong quá trình khai phá dữ liệu, cần chú ý một số vấn đề sau: - Tính quá khớp (Overfitting): Một khi thuật toán ứng dụng tìm kiếm để cho ra một mô hình kết quả mà mô hình này có thể bị tình trạng “khớp dữ liệu với dữ liệu mẫu, tức là kết quả tìm kiếm không . KHAI PHÁ DỮ LIỆU 4 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu 4 1.2. Khai phá dữ liệu 8 1.2.1. Định nghĩa và các yêu cầu trong khai phá dữ liệu 8 1.2.2 Phân loại các hệ thống khai. khai phá dữ liệu Chƣơng 2: Khai phá dữ liệu bằng cây quyết định Chƣơng 3: Cây quyết định mờ Chƣơng 4: Cài đặt chƣơng trình minh họa Kết luận 4 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU. các hệ thống khai phá dữ liệu 10 1.2.3. Các phương pháp khai phá dữ liệu 15 1.3. Những vấn đề cần quan tâm trong khai phá dữ liệu 22 1.3.1. Những khó khăn trong khai phá dữ liệu 22 1.3.2. Về

Khai phá dữ liệu với cây quyết định

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

MỞ ĐẦU

1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu

1.2. Khai phá dữ liệu

1.2.1. Định nghĩa và các yêu cầu trong khai phá dữ liệu

1.2.2 Phân loại các hệ thống khai phá dữ liệu

1.2.3. Các phương pháp khai phá dữ liệu

1.2.4. Các ứng dụng thực tiễn của Khai phá dữ liệu

1.3. Những vấn đề cần quan tâm trong khai phá dữ liệu

1.3.1. Những khó khăn trong khai phá dữ liệu

1.3.2. Về kết quả của quá trình khai phá dữ liệu

1.3.3. Một số hướng nghiên cứu của khai phá dữ liệu hiện nay

1.4. Kết luận

2.1. Sơ lƣợc về sự phân lớp

2.1.1. Các khái niệm cơ bản

2.1.2. Quá trình phân lớp

2.1.3. Các phƣơng pháp phân lớp

2.2. Cây quyết định

2.2.1. Định nghĩa

2.2.2. Xây dựng cây quyết định

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan