Tìm hiểu khai phá dữ liệu bằng cây quyết định

50 1.2K 8
Tìm hiểu khai phá dữ liệu bằng cây quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hiểu khai phá dữ liệu bằng cây quyết định

Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CNTT   BÁO CÁO THỰC TẬP Đề tài: “Tìm hiểu khai phá dữ liệu bằng cây quyết định” GV hướng dẫn : NGUYỄN QUỲNH CHI Tên Sinh Viên : NGUYỄN ĐỨC TÙNG NGUYỄN CÔNG TOAN ĐỒNG THỊ YẾN Lớp : L10CQCN7-B Nhóm SV Lớp: L10CQCN7-B 1 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi Lời mở đầu Trong những năm gần đây, việc nắm bắt được thông tin được coi là chìa khóa của kinh doanh. Ai thu thập, phân tích và hiểu được thông tin và hành động được nhờ vào những thông tin đó là kẻ thắng cuộc trong thời đại thông tin này. Chính vì vậy, việc tạo ra thông tin và mức tiêu thụ thông tin ngày nay ngày càng gia tăng. Cúng với chức năng khai thác có tính chất tác nghiệp, việc khai thác các cơ sở dữ liệu (CSDL) phục vụ các yêu cầu trợ giúp quyết định ngày càng có ý nghĩa quan trọng và là nhu cầu to lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý. Dữ liệu được thu thập và lưu trữ ngày càng nhiều nhưng người ra quyết định trong quản lý, kinh doanh lại cần những thông tin bổ ích, những “tri thức” rút ra từ nguồn dữ liệu đó hơn là chính những dữ liệu đó cho việc ra quyết định của mình. Các nhu cầu đó đã được biết đến từ lâu nhưng mới thực sự bùng nổ từ thập niên 90 này. Do đó, những năm gần đây đã phát triển mạnh mẽ một loạt các lĩnh vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin (data warehouse, information warehouse), các hệ trợ giúp quyết định, các phương pháp phát hiện tri thức và khai phá dữ liệu (data mining). Trong đó, khai phá dữ liệu và phát hiện tri thức đã trở thành một lĩnh vực nghiên cứu sôi động, thu hút sự quan tâm của rất nhiều người trên khắp các lĩnh vực khác nhau như các hệ cơ sở dữ liệu, thống kê, chiết xuất thông tin, nhận dạng, học máy, trí tuệ nhân tạo, v.v. Trong phạm vi đề tài báo cáo này, chúng em sẽ trình bày những nội dung sau: Chương I. Tổng quan về CSDL và sự xuất hiện của khai phá dữ liệu Chương II. Khai phá dữ liệu Chương III.Khai phá dữ liệu bằng cây quyết định Chương IV. Demo bằng Công cụ WEKA Nhóm SV Lớp: L10CQCN7-B 2 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi CHƯƠNG 1. TỔNG QUAN VỀ CSDL VÀ SỰ XUẤT HIỆN KHAI PHÁ DỮ LIỆU 1.1. Tổ chức và khai thác CSDL truyền thống Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đã được phát triển từ những năm 60. Từ đó cho đến nay, rất nhiều cơ sở dữ liệu đã được tổ chức, phát triển và khai thác ở mọi quy mô và ở khắp các lỹnh vực hoạt động của con người và xã hội. Theo như đánh giá cho thấy, lượng thông tin trên thế giới cứ sau 20 tháng lại tăng gấp đôi. Kích thước và số lượng cơ sở dữ liệu thậm chí còn tăng nhanh hơn. Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng 5 triệu, hầu hết đều là các cơ sở dữ liệu cỡ nhỏ được phát triển trên DBaseIII. Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hóa mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch đơn giản nhất như một cuộc gọi điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v… đều được ghi vào trong máy tính. Cho đến nay, con số ày đã trở nên khổng lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữ các dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn, … Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện đã giúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình cơ sở dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọng trong việc tổ chức và khai thác các cơ sở dữ liệu đó. Cho đến nay, không một tổ chức kinh tế nào là không sử dụng các hệ quản trị cơ sở dữ liệu và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các cơ sở dữ liệu phục vụ cho hoạt động tác nghiệp của mình. 1.2. Bước phát triển mới của việc tổ chức và khai thác các CSDL Cùng với việc tăng không ngừng khối lượng dữ liệu, các hệ thống thông tin cũng được chuyên môn hóa, phân chia theo các lỹnh vực ứng dụng như sản xuất, tài chính, buôn bán thị trường v.v. Như vậy, bên cạnh chức năng khai thác dữ liệu có tính chất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của Nhóm SV Lớp: L10CQCN7-B 3 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi các hệ thống thông tin nữa mà là tính linh hoạt và sẵn sàng đáp lại những yêu cầu trong thực tế, CSDL cần đem lại những “tri thức” hơn là chính những dữ liệu đó. Các quyết định cần phải có càng nhanh càng tốt và phải chính xác dựa trên những dữ liệu sẵn có trong khi khối lượng dữ liệu cứ sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian ra quyết định cũng như khả năng hiểu hết được nội dung dữ liệu. Lúc này các mô hình CSDL truyền thống và ngôn ngữ SQL đã cho thấy không có khả năng thực hiện công việc này. Để lấy được những thông tin có tính “tri thức” trong khối dữ liệu khổng lồ này, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, có chất lượng, chỉ được sử dụng riêng cho một vài mục đích nào đó. Các kỹ thuật đó được gọi chung là kỹ thuật tạo kho dữ liệu (data warehousing) và môi trường các dữ liệu có được gọi là các kho dữ liệu (data warehouse). Kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho người dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các CSDL tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại. Theo W.H.Inmon, có thể định nghỹa kho dữ liệu như sau: “Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định. Nói cách khác, một kho dữ liệu bao gồm: - Một hoặc nhiều công cụ để chiết xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu nào. - Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu bằng cách lập bảng dữ liệu của dữ liệu.” Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau: - Là một cơ sở dữ liệu được thiết kế có nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau. - Hỗ trợ cho một số người dùng có liên quan với các thông tin liên quan. - Là dữ liệu chỉ đọc. - Nội dung của nó được cập nhật thường xuyên theo cách thêm thông tin. Nhóm SV Lớp: L10CQCN7-B 4 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi - Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin. - Chứa các bảng dữ liệu có kích thước lớn. Cấu trúc kho dữ liệu được xây dựng dựa trên hệ quản trị CSDL quan hệ, có chức năng giống như một kho lưu trữ thông tin trung tâm. Trong đó, dữ liệu tác nghiệp và phần xử lý được tách riêng khỏi quá trình xử lý kho dữ liệu. Kho lưu trữ trung tâm được bao quanh bởi các thành phần được thiết kế để làm cho kho dữ liệu có thể hoạt động, quản lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dữ liệu. Nhưng chỉ có kho dữ liệu thôi thì chưa đủ để có các tri thức. Như đã đề cập ở trên, các kho dữ liệu được sử dụng theo ba cách chính: - Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công cụ vấn đáp và báo cáo. Tuy nhiên, nhờ có việc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các dữ liệu chất lượng cao và có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báo cáo). - Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể mô tả những gì có trong CSDL thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết. Hơn nữa, do kích thước quá lớn và tính chất phức tạp của kho dữ liệu làm cho nó rất khó có thể được sử dụng cho những mục đích như đưa ra các giả thuyết từ các thông tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giả thuyết giải thích được hành vi của một nhóm khách hàng). Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra những giả thuyết từ các thông tin dữ liệu thu thập được. Tuy nhiên, thực nghiệm cho thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn trong kho dữ liệu này. Phương pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến để phù hợp với sự phát triển của dữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ Nhóm SV Lớp: L10CQCN7-B 5 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi liệu vẫn chưa được khai thác và thậm chí được lưu trữ chủ yếu trong các kho dữ liệu không trực tuyến (off-line). Điều này tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệu đó.Trong khi đó, càng ngày người ta càng nhận thấy rằng, nếu được phân tích thông minh thì dữ liệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên thương trường. Giới tin học đã đáp ứng lại những thách thức trong thực tiễn cũng như trong nghiên cứu khoa học bằng cách đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn. Đó chính là công nghệ Khai phá dữ liệu (data mining). Đây chính là ứng dụng thứ ba của kho dữ liệu. 1.3. Quá trình phát hiện tri thức và khai phá dữ liệu Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử dụng thông tin một cách có hiệu quả. Điều đó có nghĩa là từ các dữ liệu sẵn có, phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng. Thực hiện công việc đó chính là thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) mà trong đó kỹ thuật cho phép ta lấy được các tri thức chính là kỹ thuật khai phá dữ liệu (data mining). Như John Naisbett đã nói “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Dữ liệu thường được cho bởi các giá trị mô tả các sự kiện, hiện tượng cụ thể. Còn tri thức (knowledge) là gì? Có thể có những định nghỹa rõ ràng để phân biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Khó mà định nghỹa chính xác nhưng phân biệt chúng trong những ngữ cảnh nhất định là rất cần thiết và có thể làm được. Thông tin là một khái niệm rất rộng, khó có thể đưa ra một định nghỹa chính xác cho khái niệm này. Cũng không thể định nghỹa cho khái niệm tri thức cho chỉ hạn chế trong phạm vi những tri thức được chiết xuất từ các CSDL. Tuy nhiên, ta có thể hiểu tri thức là một biểu thức trong một ngôn ngữ nào đó diễn tả một (hoặc nhiều) mối quan hệ giữa các thuộc tính trong các dữ liệu đó. Các ngôn ngữ thường được dùng để biểu diễn tri thức (trong việc phát hiện tri thức từ các CSDL) là các khung (frames), các cây và đồ thị, các luật (rules), các công thức trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một, các hệ thống phương trình, Nhóm SV Lớp: L10CQCN7-B 6 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi v.v…, ví dụ như ta có các luật mô tả các thuộc tính của dữ liệu, các mẫu thường xuyên xảy ra, các nhóm đối tượng trong cơ sở dữ liệu, v.v… Tóm lại: Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng như hợp thức mới, khả ích và có thể hiểu được. 1.3.1. Quá trình khám phá tri thức được tiến hành qua 5 bước sau : Hình 1.1. Quá trình khám phá tri thức Mặc có 5 giai đoạn như trên, xong quá trình phát hiện tri thức cơ sở dữ liệu là một quá trình tương tác và lặp đi lặp lại theo kiểu hình xoắn chôn ốc, trong đó lần lặp sau hoàn chỉnh hơn lần lặp trước. Ngoài ra giai đoạn sau lại dựa trên kết quảthu được của giai đoạn trước theo kiểu thác nước. Đây là một quá trình biện trứngmang tính chất học của quá trình phát hiện trí thức và là phương pháp luận trongviện phát hiện tri thức. Các giai đoạn đó sẽ được trình bày cụ thể như sau: GĐ1: Hình thành và định nghĩa bài toán Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phương pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu. Nhóm SV Lớp: L10CQCN7-B 7 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi GĐ2: Thu thập và tiền xử lý dữ liệu Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ liệu thu thập có thể là từ các kho dữ liệu hay nguồn thông tin internet). Trong giai đoạn này dữ liệu cũng được tiền xử lý để biến đổi và cải thiện chất lượng dữ liệu cho phù hợp với phương pháp khai phá dữ liệu được chọn lựa trong bước trên. Bước này thường chiếm nhiều thời gian nhất trong quá trình khám phá tri thức. Các giải thuật tiền xử lý dữ liệu bao gồm : 1. Xử lý dữ liệu bị mất/ thiếu: Các dạng dữ liệu bị thiếu sẽ được thay thế bởi các giá trị thích hợp 2. Khử sự trùng lắp: các đối tượng dữ liệu trùng lắp sẽ bị loại bỏ đi. Kỹ thuật này không được sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu. 3. Giảm nhiễu: nhiễu và các đối tượng tách rời khỏi phân bố chung sẽ bị loại đi khỏi dữ liệu. 4. Chuẩn hoá: miền giá trị của dữ liệu sẽ được chuẩn hoá. 5. Rời rạc hoá: các dạng dữ liệu số sẽ được biến đổi ra các giá trị rời rạc. 6. Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có. 7. Giảm chiều: các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt. GĐ3: Khai phá dữ liệu và rút ra các tri thức Đây là bước quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của bước này là trích ra được các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu. Một mô hình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả hệ thống trong cơ sở dữ liệu, hay miêu tả cách dữ liệu được nảy sinh. Còn một mẫu là một cấu trúc cục bộ có liên quan đến vài biến và vài trường hợp trong cơ sở dữ liệu. GĐ4: Phân tích và kiểm định kết quả Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng. Nhóm SV Lớp: L10CQCN7-B 8 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi GĐ5: Sử dụng các tri thức phát hiện được Trong bước này, các tri thức khám phá được sẽ được củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó. Các mô hình rút ra được đưa vào những hệ thống thông tin thực tế dưới dạng các môdun hỗ trợ việc đưa ra quyết định. Các giai đoạn của quá trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ thuật được sử dụng trong giai đoạn trước có thể ảnh hưởng đến hiệu quả của các giải thuật được sử dụng trong các giai đoạn tiếp theo. Các bước của quá trình khám phá tri thức có thể được lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. Nhóm SV Lớp: L10CQCN7-B 9 Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1. Khai phá dữ liệu là gì? Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL. Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê). Khai thác dữ liệu (data mining) là một ngữ tương đối mới, nó ra đời vào khoảng những năm cuối của của thập kỷ 1980. Có rất nhiều định nghĩa khác nhau về khai phá dữ liệu. Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệu như sau: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”. Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu: ”Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”. Còn các nhà thống kê thì xem " khai phá dữ liệu như là một quá trình phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu". Tóm lại: Khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nhóm SV Lớp: L10CQCN7-B 10 [...]... trình khai phá dữ liệu Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Nội dung của quá trình như sau: 2.2.1.Gom dữ liệu (gatherin) Tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu Bước này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những nguồn cung ứng web 2.2.2 Trích lọc dữ liệu (selection) Ở giai đoạn này dữ liệu. .. điều khiển quá trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các Nhóm SV 17 Lớp: L10CQCN7-B Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi mẫu đáng quan tâm Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến Một vấn đề quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an... vấn đề an toàn và bảo mật thông tin trong khai phá dữ liệu Nhóm SV 18 Lớp: L10CQCN7-B Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi CHƯƠNG 3: KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 3.1 Cây quyết định 3.1.1 Định nghĩa Cây quyết định (decision tree) là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm vụ của khai phá dữ liệu là phân loại và dự báo Mặt khác, cây quyết định còn có thể chuyển sang dạng biểu diễn... luật quyết định Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục đích mong muốn Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định Cây quyết định là một dạng đặc biệt của cấu trúc cây Tạo cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân lớp và đưa ra dự đoán Cây quyết định được tạo thành bằng cách lần lượt chia (đệ quy) một tập dữ liệu thành các tập dữ liệu. .. chính Khai phá dữ liệu mang lại những lợi ích như : + Cung cấp tri thức hỗ trợ ra quyết định + Dự báo + Khái quát dữ liệu 2.4 Các kỹ thuật khai phá dữ liệu Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện hai chức năng mô tả và dự đoán - Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có Một số kỹ thuật khai phá. .. tiền xử lý dữ liệu đơn giản - Có thể xử lý với cả các dữ liệu rời rạc và liên tục - Cây quyết định là một mô hình hộp trắng - Kết quả dự đoán bằng cây quyết định có thể thẩm định lại bằng cách kiểm tra thống kê 3.1.5.Vấn đề xây dựng cây quyết định Có nhiều thuật toán khác nhau để xây dựng cây quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0…Nhưng nói chung quá trình xây dựng cây quyết định đều... này, dữ liệu có thể được tổ chức và sử dụng lại Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu 2.2.5 Phát hiện và trích mẫu dữ liệu ( pattern extraction and discovery) Đây là bước tư duy trong khai phá dữ liệu Ở trong giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng để trích mẫu dữ liệu. .. thống khác - … Hướng phát triển của khám phá tri thức và khai phá dữ liệu là vượt qua được tất cả những thách thức trên Chú trọng vào việc mở rộng ứng dụng để đáp ứng cho mọi lĩnh vực trong đời sống xã hội, và tăng tính hữu ích của việc khai phá dữ liệu trong những lĩnh vực đã có khai phá dữ liệu Tạo ra các phương pháp khai phá dữ liệu linh động, uyển chuyển để xử lý số lượng dữ liệu lớn một cách hiệu... trường hợp của dữ liệu đưa vào tính toán 3 Kết quả của cây quyết định đưa ra một sự biểu diễn của ý niệm mà dễ dàng cho con người bởi vì nó đưa ra quá trình phân loại hiển nhiên Nhóm SV 20 Lớp: L10CQCN7-B Báo cáo thực tập GVHD: Nguyễn Quỳnh Chi 3.1.4.Ưu điểm của cây quyết định So với các phương pháp khai phá dữ liệu khác, cây quyết định có một số ưu điểm sau - Cây quyết định tương đối dể hiểu - Đòi hỏi...Báo cáo thực tập 2.2 Quá trình khai phá dữ liệu GVHD: Nguyễn Quỳnh Chi Hình 2.1 Kiến trúc hệ thống khai phá dữ liệu Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức Thuật ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu ( knowledge discovery in database _KDD) ( theo Fayyad Smyth and Piatestky-Shapiro . CSDL và sự xuất hiện của khai phá dữ liệu Chương II. Khai phá dữ liệu Chương III .Khai phá dữ liệu bằng cây quyết định Chương IV. Demo bằng Công cụ WEKA Nhóm. về khai phá dữ liệu. Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệu như sau: Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá

Ngày đăng: 02/03/2014, 14:05

Hình ảnh liên quan

Hình 1.1. Quá trình khám phá tri thức - Tìm hiểu khai phá dữ liệu bằng cây quyết định

Hình 1.1..

Quá trình khám phá tri thức Xem tại trang 7 của tài liệu.
Hình 2.1. Kiến trúc hệ thống khai phá dữ liệu - Tìm hiểu khai phá dữ liệu bằng cây quyết định

Hình 2.1..

Kiến trúc hệ thống khai phá dữ liệu Xem tại trang 11 của tài liệu.
Hình 2.2. Quá trình khai phá dữ liệu - Tìm hiểu khai phá dữ liệu bằng cây quyết định

Hình 2.2..

Quá trình khai phá dữ liệu Xem tại trang 12 của tài liệu.
Hình 3.1 Cây quyết định phân lớp mức lương - Tìm hiểu khai phá dữ liệu bằng cây quyết định

Hình 3.1.

Cây quyết định phân lớp mức lương Xem tại trang 20 của tài liệu.
Bảng 2.1. Tập dữ liệu ví dụ cho chơi Tennis - Tìm hiểu khai phá dữ liệu bằng cây quyết định

Bảng 2.1..

Tập dữ liệu ví dụ cho chơi Tennis Xem tại trang 25 của tài liệu.
Hình 2.2. Cây quyết định thuật tốn ID3 - Tìm hiểu khai phá dữ liệu bằng cây quyết định

Hình 2.2..

Cây quyết định thuật tốn ID3 Xem tại trang 26 của tài liệu.
- Dữ liệu ra: Mơ hình cây quyết định chơi tennis. - Tạo cây quyết định: - Tìm hiểu khai phá dữ liệu bằng cây quyết định

li.

ệu ra: Mơ hình cây quyết định chơi tennis. - Tạo cây quyết định: Xem tại trang 33 của tài liệu.
- Classify:Để huấn luyện và kiểmtra các mơ hình học máy (phân loại, - Tìm hiểu khai phá dữ liệu bằng cây quyết định

lassify.

Để huấn luyện và kiểmtra các mơ hình học máy (phân loại, Xem tại trang 44 của tài liệu.

Từ khóa liên quan

Mục lục

  • Lời mở đầu

  • CHƯƠNG 1. TỔNG QUAN VỀ CSDL VÀ SỰ XUẤT HIỆN KHAI PHÁ DỮ LIỆU

  • 1.1. Tổ chức và khai thác CSDL truyền thống

  • 1.2. Bước phát triển mới của việc tổ chức và khai thác các CSDL

  • 1.3. Quá trình phát hiện tri thức và khai phá dữ liệu

  • 1.3.1. Quá trình khám phá tri thức được tiến hành qua 5 bước sau :

    • GĐ1: Hình thành và định nghĩa bài toán

    • GĐ2: Thu thập và tiền xử lý dữ liệu

    • GĐ3: Khai phá dữ liệu và rút ra các tri thức

    • GĐ4: Phân tích và kiểm định kết quả

    • GĐ5: Sử dụng các tri thức phát hiện được

    • CHƯƠNG 2: KHAI PHÁ DỮ LIỆU

    • 2.1. Khai phá dữ liệu là gì?

    • 2.2. Quá trình khai phá dữ liệu

    • 2.2.1.Gom dữ liệu (gatherin)

    • 2.2.2. Trích lọc dữ liệu (selection)

    • 2.2.4. Chuyển đổi dữ liệu (transformation)

    • 2.2.5. Phát hiện và trích mẫu dữ liệu ( pattern extraction and discovery)

    • 2.4. Các kỹ thuật khai phá dữ liệu

    • 2.4.1. Phân lớp dữ liệu

    • 2.4.2. Phân cụm dữ liệu

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan