PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

34 1K 2
PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC ------ Lời cảm ơn 2 Lý do chọn đề tài 3 I. Tổng quan về phát hiện tri thức và khai phá dữ liệu 4 1. Tổ chức và khai thác cơ sở dữ liệu truyền thông 4 2. Các bước phát triển mới của việc tổ chức và khai thác CSDL 4 3. Khai thác dữ liệu và quá trình phát hiện tri thức 7 II. Khai phá dữ liệu 11 1. Khai phá dữ liệu gì 14 2. Nhiệm vụ chính của khai phá dữ liệu 14 3. Các phương pháp khai phá dữ liệu 17 4. Lợi thế của khai phá dữ liệu so với các phương pháp cơ bản 17 5. Lựa chọn phương pháp 29 6. Những thách thức trong ứng dụng và nghiên cứu kỹ thuật khai phá dữ liệu 29 7. Hình ứng dụng khai phá dữ liệu 32

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA CÔNG NGHỆ THÔNG TIN  Môn : Trí tuệ nhân tạo NIÊN KHOÁ : 2011 -2012 Trang 1 MỤC LỤC  Lời cảm ơn 2 Lý do chọn đề tài 3 I. Tổng quan về phát hiện tri thức khai phá dữ liệu 4 1. Tổ chức khai thác cơ sở dữ liệu truyền thông 4 2. Các bước phát triển mới của việc tổ chức khai thác CSDL 4 3. Khai thác dữ liệu quá trình phát hiện tri thức 7 II. Khai phá dữ liệu 11 1. Khai phá dữ liệu gì 14 2. Nhiệm vụ chính của khai phá dữ liệu 14 3. Các phương pháp khai phá dữ liệu 17 4. Lợi thế của khai phá dữ liệu so với các phương pháp cơ bản 17 5. Lựa chọn phương pháp 29 6. Những thách thức trong ứng dụng nghiên cứu kỹ thuật khai phá dữ liệu 29 7. Hình ứng dụng khai phá dữ liệu 32 Trang 2 LỜI CẢM ƠN  Nhân loại đang sống trong những năm đầu của thế kỉ 21 với những nguyên lí của một nền giáo dục tương lai: Học để làm, học để chung sống, học để làm người học để tự khẳng định mình. Chính vì thế, giáo dục được nhà nước ta xem là quốc sách hàng đầu mà giáo viên là đội ngũ thực hiện nhiệm vụ giáo dục đề ra. Họ là những kĩ sư tâm hồn, là người góp nhặt những tinh hoa của trời đất để gieo vào thế hệ trẻ những mầm xanh tươi đẹp cho cuộc sống. Công việc của họ không giống như người nông dân cày cấy để tạo ra lương mà sản phẩm lao động của họ chính là nhân cách con người. Chủ Tịch Hồ Chí Minh đã nói: “ Non sông việt nam có trở nên vẻ vang hay không, dân tộc việt nam có thể sánh vai với cường quốc năm châu được hay không, chính là nhờ công học tập của các cháu”. Như vậy, công tác giáo dục nói chung giáo dục các hệ cao đẳng, đại học nói riêng đóng vai trò vô cùng quan trọng trong công cuộc xây dương đất nước. Dưới sự hướng dẫn tận tình của thầy Lữ Nhật Vinh, chúng em đã hoàn thành xong đề tài “ Phát hiện tri thức khai thác dữ liệu”. Trong quá trình làm đề tài cũng không thể tránh những thiếu xót vì thế chúng em mong thầy xem xét góp ý. Em xin chân thành cám ơn! Trang 3 LÝ DO CHỌN ĐỀ TÀI  Sự phát triển của công nghệ thông tin việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining). Kỹ thuật phát hiện tri thức khai phá dữ liệu đã đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu dần đưa vào ứng dụng. Trong bài viết này, tác giả sẽ trình bày một cách tổng quan về Kỹ thuật phát hiện tri thức khai phá dữ liệu. Trên cơ sở đó đưa ra một bài toán dự báo về dân số thế giới giải quyết bài toán bằng phương pháp hồi qui đơn nhằm cung cấp cho bạn đọc một cách nhìn khái quát về kỹ thuật mới này cũng như mối tương quan với phương pháp thống kê truyền thống. Vì vậy nhóm chúng em đã quyết định chọn đề tài “Phát hiện tri thức khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining)” này! Trang 4 TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC KHAI PHÁ DỮ LIỆU (KDD - Knowledge Discovery and Data Mining) 1. TỔ CHỨC KHAI THÁC CƠ SỞ DỮ LIỆU TRUYỀN THỐNG Việc dùng các phương tiện tin học để tổ chức khai thác các cơ sở dữ liệu đã được phát triển từ những năm 60. Từ đó cho đến nay, rất nhiều cơ sở dữ liệu đã được tổ chức, phát triển khai thác ở mọi quy mô ở khắp các lĩnh vực hoạt động của con người xã hội. Theo như đánh giá cho thấy, lượng thông tin trên thế giới cứ sau 20 tháng lại tăng gấp đôi. Kích thước số lượng cơ sở dữ liệu thậm chí còn tăng nhanh hơn. Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng 5 triệu, hầu hết đều là các cơ sở dữ liệu cỡ nhỏ được phát triển trên DBaseIII. Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hóa mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch đơn giản nhất như một cuộc gọi điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v… đều được ghi vào trong máy tính. Cho đến nay, con số ày đã trở nên khổng lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes thậm chí terabytes lưu trữ các dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn, … Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú thuận tiện đã giúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình cơ sở dữ liệu quan hệ ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọng trong việc tổ chức khai thác các cơ sở dữ liệu đó. Cho đến nay, không một tổ chức kinh tế nào là không sử dụng các hệ quản trị cơ sở dữ liệu các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các cơ sở dữ liệu phục vụ cho hoạt động tác nghiệp của mình. 2. BƯỚC PHÁT TRIỂN MỚI CỦA VIỆC TỔ CHỨC KHAI THÁC CÁC CSDL Cùng với việc tăng không ngừng khối lượng dữ liệu, các hệ thống thông tin cũng được chuyên môn hóa, phân chia theo các lĩnh vực ứng dụng như sản xuất, tài chính, buôn bán thị trường v.v. Như vậy, bên cạnh chức năng khai thác dữ liệu có tính chất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các hệ thống thông tin nữa mà là tính linh hoạt sẵn sàng đáp lại những yêu cầu trong thực tế, CSDL cần đem lại những “tri thức” hơn là chính những dữ liệu đó. Các quyết định cần phải có càng nhanh càng tốt phải chính xác dựa trên những dữ liệu sẵn có trong khi khối lượng dữ liệu cứ sau 20 tháng lại tăng gấp đôi làm ảnh hưởng đến thời gian ra quyết định cũng như khả năng hiểu hết được nội dung dữ liệu. Lúc này các mô hình CSDL truyền thống ngôn ngữ SQL đã cho thấy không Trang 5 có khả năng thực hiện công việc này. Để lấy được những thông tin có tính “tri thức” trong khối dữ liệu khổng lồ này, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, có chất lượng, chỉ được sử dụng riêng cho một vài mục đích nào đó. Các kỹ thuật đó được gọi chung là kỹ thuật tạo kho dữ liệu (data warehousing) môi trường các dữ liệu có được gọi là các kho dữ liệu (data warehouse). Kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho người dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các CSDL tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại. Theo W.H.Inmon, có thể định nghĩa kho dữ liệu như sau: “Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định. Nói cách khác, một kho dữ liệu bao gồm: • Một hoặc nhiều công cụ để chiết xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu nào. • Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu bằng cách lập bảng dữ liệu của dữ liệu.” Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau: • Là một cơ sở dữ liệu được thiết kế có nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau. Hỗ trợ cho một số người dùng có liên quan với các thông tin liên quan. • Là dữ liệu chỉ đọc. • Nội dung của nó được cập nhật thường xuyên theo cách thêm thông tin. • Chứa các dữ liệu lịch sử hiện tại để cung cấp các xu hướng thông tin. • Chứa các bảng dữ liệu có kích thước lớn. • Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng các liên kết nhiều bảng. Cấu trúc kho dữ liệu được xây dựng dựa trên hệ quản trị CSDL quan hệ, có chức năng giống như một kho lưu trữ thông tin trung tâm. Trong đó, dữ liệu tác nghiệp phần xử lý được tách riêng khỏi quá trình xử lý kho dữ liệu. Kho lưu trữ trung tâm được bao quanh bởi các thành phần được thiết kế để làm cho kho dữ liệu có thể hoạt động, quản lý truy nhập được từ người dùng đầu cuối cũn g như từ các nguồn dữ liệu. Trang 6 Như trên Hình 1.1 cho thấy, kho dữ liệu bao gồm 7 thành phần: • Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các kho dữ liệu tác nghiệp) các công cụ chiết xuất, làm sạch chuyển đổi dữ liệu. • Kho dữ liệu về dữ liệu (MetaData) • Các kỹ thuật xây kho • Kho dữ liệu thông minh hay dữ liệu theo chủ đề (Data marts): là nơi các dữ liệu được khoanh vùng theo chủ đề đến một giới hạn nào đó có thể được thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng. Với các kho dữ liệu này, cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp, nghĩa là với một tập hợp các kho dữ liệu thông minh, ta tạo ra một kho dữ liệu; ngược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông minh. • Các công cụ vấn đáp (query), báo cáo (reporting), phân tích trực tiếp (OLAP) khai phá dữ liệu (data mining). Đây chính là các cách khai thác kho dữ liệu để đem lại những “tri thức” hơn là đem lại chính những dữ liệu thô. Điểm mạnh yếu của các kỹ thuật này ta sẽ phân tích kỹ hơn ở những phần sau. • Quản trị kho dữ liệu. • Hệ thống phân phối thông tin. Nhưng chỉ có kho dữ liệu thôi thì chưa đủ để có các tri thức. Như đã đề cập ở trên, các kho dữ liệu được sử dụng theo ba cách chính: • Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công cụ vấn đáp báo cáo. Tuy nhiên, nhờ có việc chiết xuất, tổng hợp chuyển đổi từ các dữ liệu thô sang dạng các dữ liệu chất lượng cao có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biểu diễn Trang 7 thông tin truyền thống (hỏi đáp báo cáo). Bằng cách tạo ra một tầng ẩn giữa CSDL người dùng, các dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữ liệu khác nhau, tránh cho người dùng khỏi những câu lệnh SQL phức tạp. Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh chính xác hơn chứ chưa đưa ra được dữ liệu “tri thức”. • Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL các công cụ làm báo cáo truyền thống chỉ có thể mô tả những gì có trong CSDL thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết. Hơn nữa, kích thước quá lớn tính chất phức tạp của kho dữ liệu làm cho nó rất khó có thể được sử dụng cho những mục đích như đưa ra các giả thuyết từ các thông tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giả thuyết giải thích được hành vi của một nhóm khách hàng). Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra những giả thuyết từ các thông tin dữ liệu thu thập được. Tuy nhiên, thực nghiệm cho thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn trong kho dữ liệu này. Phương pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến để phù hợp với sự phát triển của dữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ liệu vẫn chưa được khai thác thậm chí được lưu trữ chủ yếu trong các kho dữ liệu không trực tuyến (off-line). Điều này tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích tìm hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu việc khai thác các dữ liệu đó.Trong khi đó, càng ngày người ta càng nhận thấy rằng, nếu được phân tích thông minh thì dữ liệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên thương trường. • Thứ ba: Giới tin học đã đáp ứng lại những thách thức trong thực tiễn cũng như trong nghiên cứu khoa học bằng cách đã đưa ra một phương pháp mới trên kho dữ liệu đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn. Đó chính là công nghệ Khai phá dữ liệu (data mining). 3. KHAI PHÁ DỮ LIỆU QUÁ TRÌNH PHÁT HIỆN TRI THỨC Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử dụng thông tin một cách có hiệu quả. Điều đó có nghĩa là từ các dữ liệu sẵn có, phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển những yếu tố tác động lên chúng. Thực hiện công việc đó chính là thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu Trang 8 (Knowledge Discovery in Database – KDD) mà trong đó kỹ thuật cho phép ta lấy được các tri thức chính là kỹ thuật khai phá dữ liệu (data mining). Như John Naisbett đã nói “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Dữ liệu thường được cho bởi các giá trị mô tả các sự kiện, hiện tượng cụ thể. Còn tri thức (knowledge) là gì? Có thể có những định nghĩa rõ ràng để phân biệt các khái niệm dữ liệu, thông tin tri thức hay không? Khó mà định nghĩa chính xác nhưng phân biệt chúng trong những ngữ cảnh nhất định là rất cần thiết có thể làm được. Thông tin là một khái niệm rất rộng, khó có thể đưa ra một định nghĩa chính xác cho khái niệm này. Cũng không thể định nghĩa cho khái niệm tri thức cho chỉ hạn chế trong phạm vi những tri thức được chiết xuất từ các CSDL. Tuy nhiên, ta có thể hiểu tri thức là một biểu thức trong một ngôn ngữ nào đó diễn tả một (hoặc nhiều) mối quan hệ giữa các thuộc tính trong các dữ liệu đó. Các ngôn ngữ thường được dùng để biểu diễn tri thức (trong việc phát hiện tri thức từ các CSDL) là các khung (frames), các cây đồ thị, các luật (rules), các công thức trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một, các hệ thống phương trình, v.v…, ví dụ như ta có các luật mô tả các thuộc tính của dữ liệu, các mẫu thường xuyên xảy ra, các nhóm đối tượng trong cơ sở dữ liệu, v.v… Hình 1.2. Quá trình phát hiện tri thức Phát hiện tri thức từ CSDL là một quá trình có sử dụng nhiều phương pháp công cụ tin học nhưng vẫn là một quá trình mà trong đó con người là trung tâm. Do đó, nó không phải là một hệ thống phân tích tự động mà là một hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người CSDL, tất nhiên là với sự hỗ trợ của các công cụ tin học. Người sử dụng hệ thống ở đây phải là người có kiến thức cơ bản về lĩnh vực cần phát hiện tri thức để có thể chọn được đúng các tập con dữ liệu, các lớp mẫu phù hợp đạt tiêu chuẩn quan tâm so với mục đích. Tri thức mà ta nói ở đây là các tri thức rút ra từ các CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định. Do đó, Trang 9 quá trình phát hiện tri thức cũng mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà là phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra. Vì vậy, quá trình phát hiện tri thức là một quá trình hoạt động tương tác giữa con người (người sử dụng hoặc chuyên gia phân tích) với các công cụ tin học để thực hiện các bước cơ bản sau: • Tìm một cách hiểu (bằng ngôn ngữ tin học) lĩnh vực ứng dụng nhiệm vụ đặt ra, xác định các tri thức đã có các mục tiêu của người sử dụng. • Tạo một tập dữ liệu đích bằng cách chọn từ CSDL một tập dữ liệu với các giá trị biến các mẫu được quan tâm, trên đó ta thực hiện quá trình phát hiện tri thức. • Làm sạch tiền xử lý dữ liệu • Thu gọn rút bớt số chiều của dữ liệu để tập trung vào những thuộc tính chủ chốt đối với việc phát hiện tri thức. • Chọn nhiệm vụ khai phá dữ liệu dựa vào mục tiêu của quá trình phát hiện tri thức: xếp loại, phân nhóm hay hồi quy, v.v… • Chọn thuật toán khai phá dữ liệu thích hợp thực hiện việc khai phá dữ liệu để tìm được các mẫu hình (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng (luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi quy, …) • Đánh giá, giải thích, thử lại các mẫu hình đã được khai phá, có thể lặp lại một hoặc nhiều bước kể trên. • Củng cố, tinh chế các tri thức đã được phát hiện. Kết hợp các tri thức thành hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó, tri thức được chuẩn bị sẵn sàng cho ứng dụng. Lý luận thực tiễn thực hiện các quá trình phát hiện tri thức mà ta xét ở đây là sự tiếp thu, sử dụng phát triển nhiều thành tựu công cụ của các lĩnh vực đã phát triển trước đó như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v… Nhưng đặc điểm cơ bản của lý luận về phát hiện tri thức ở đây là phát hiện tri thức trực tiếp từ dữ liệu, do đặc điểm đó mà nó có những điểm mới, phân biệt với các ngành đã có từ trước. Thí dụ như với các hệ chuyên gia thì cơ sở tri thức được hình thành từ kinh nghiệm kiến thức của các chuyên gia là chủ yếu, với nhiều bài toán nhận dạng thì thường là tập các dạng mẫu cho trước, v.v…, còn đối với lý thuyết phát hiện tri thức thì các tri thức, các dạng mẫu, các giả thuyết đều được phát hiện từ việc khai phá các kho dữ liệu. Nếu phát hiện tri thức là toàn bộ quá trình chiết xuất tri thức từ các CSDL thì khai phá dữ liệu là giai đoạn chủ yếu của quá trình đó. Như trên đã trình bày, trong quá trình phát hiện tri thức, khâu khai phá dữ liệu được thực hiện sau các khâu tinh lọc tiền xử lý dữ liệu, tức là việc khai phá để tìm ra các mẫu hình có ý nghĩa được tiến hành trên tập dữ liệu có hy vọng là sẽ thích hợp với nhiệm vụ khai phá đó chứ không phải là khai phá hết dữ liệu với một thời gian đủ dài để lấy được một mẫu không thực sự có ích như khái niệm trong thống kê trước đây. Vì vậy, khai Trang 10 [...]... trước đó Việc sử dụng tri thức miền là rất quan trọng trong khai phá dữ liệu Đã có nhiều biện pháp nhằm khắc phục vấn đề này như sử dụng cơ sở dữ liệu suy diễn để phát hiện tri thức, những tri thức này sau đó được sử dụng để hướng dẫn cho việc tìm kiếm khai phá dữ liệu hoặc sử dụng sự phân bố xác suất dữ liệu trước đó như một dạng mã hóa tri thức có sẵn 7 HÌNH ỨNG DỤNG KHAI PHÁ DỮ LIỆU Mặc còn rất... dữ liệu trong cơ sở dữ liệu, chúng thường chỉ bao được các trường hợp quan trọng Hơn nữa, các chuyên gia sẽ xác nhận tính giá trị hữu dụng của các mẫu phát hiện được Cũng như với các công cụ quản trị cơ sở dữ liệu, ở các phương pháp này đòi hỏi có sự tham gia của con người trong việc phát hiện tri thức 4.3 .Phát kiến khoa học Khai phá dữ liệu rất khác với phát tri n khoa học ở chỗ những khai phá. .. 1992) đối với các dữ liệu bán hàng trong siêu thị, KEFIR của GTE cho cơ sở dữ liệu y tế (Matheus, Piatetsky-Shapiro, & McNeil); phát hiện phòng chống gian lận cũng thường là bài toán của khai phá dữ liệu phát hiện tri thứcdụ như hệ thống phát hiện gian lận trong dịch vụ y tế đã được Major Riedinger phát tri n tại Travelers insurance năm 1992 Internal Revenue Service đã phát tri n một hệ thống... giữa các lớp nhưng không có các tính chất đặc điểm của lớp 3 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó, giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp, hồi quy, phân nhóm, v.v… 3.1.Các thành phần của giải thuật khai phá dữ liệu Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau:... lẫn trong hoạt động kinh doanh đến như vậy? 1 KHAI PHÁ DỮ LIỆU LÀ GÌ? 1.1.Khái niệm Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu sử dụng các kỹ thuật để tìm ra các mẫu hình... tập dữ liệu Năm 1989, Fayyad, Piatestsky-Shapiro Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu. .. để khai phá các tri thức tiềm ẩn trong dữ liệu Có thể coi khai phá dữ liệu ngày nay đang ở trạng thái giống như việc quản trị dữ liệu vào những năm 60, khi mà các ứng dụng quản trị dữ liệu đều không tuân theo một nguyên tắc chung nào cho đến khi mô hình dữ liệu quan hệ ra đời cùng với sức mạnh của ngôn ngữ vấn đáp đã thúc đẩy việc phát tri n các ứng dụng quản trị dữ liệu lên nhanh chóng Tuy vậy, hiện. .. sau: 6.1.Các vấn đề về cơ sở dữ liệu Đầu vào chủ yếu của một hệ thống khai thác tri thức là các dữ liệu thô trong cơ sở phát sinh trong khai phá dữ liệu chính là từ đây Do các dữ liệu trong thực tế thường động, không đầy đủ, lớn bị nhiễu Trong những trường hợp khác, người ta không biết cơ sở dữ liệu có chứa các thông Trang 30 tin cần thiết cho việc khai thác hay không làm thế nào để giải quyết... dụng hơn Như vậy, nhờ có khai phá dữ liệu, việc dự đoán kiểm tra rất vất vả trước đây có thể được đưa lên máy tính, được tính, dự đoán kiểm tra một cách tự động 5.LỰA CHỌN PHƯƠNG PHÁP Các giải thuật khai phá dữ liệu tự động vẫn mới chỉ ở giai đoạn phát tri n ban đầu Người ta vẫn chưa đưa ra được mpháp nào trong trường hợp thì có hiệu quả Hầu hết các kỹ thuật khai phá dữ liệu đều mới đối với lĩnh... 2 NHIỆM VỤ CHÍNH CỦA KHAI PHÁ DỮ LIỆU Rõ ràng rằng mục đích của khai phá dữ liệu là các tri thức chiết xuất được sẽ được sử dụng cho lợi ích cạnh tranh trên thương trường các lợi ích trong nghiên cứu khoa học Do đó, ta có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả (description) dự đoán (prediction) Các mẫu mà khai phá dữ liệu phát hiện được nhằm vào mục đích này Dự đoán liên quan . chí còn tăng nhanh hơn. Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng 5 tri u, hầu hết đều là các cơ sở dữ liệu cỡ nhỏ được phát tri n trên DBaseIII. Với sự phát tri n mạnh mẽ của. hiện tri thức cũng mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà là phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra. Vì vậy, quá trình phát hiện tri thức. trên. • Củng cố, tinh chế các tri thức đã được phát hiện. Kết hợp các tri thức thành hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó, tri thức được chuẩn bị sẵn

Ngày đăng: 06/06/2014, 21:40

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan