Giới thiệu về khai phá dữ liệu

30 317 0
Giới thiệu về khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học:  Giới thiệu về Khai phá dữ liệu ề  Giới thiệu v ề công cụ WEK A  Tiền xử lý dữ liệu  Phát hiện các luật kết hợp  Các kỹ thuật phân lớpvàdự đoán  Các kỹ thuật phân lớp và dự đoán  Các kỹ thuật phân nhóm 2 Khai Phá Dữ Liệu T ạ i sao cần khai p há dữ li ệ u? ạ p ệ  Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến mức độ petabytes Th hậ d liệ à ồ i ủ d liệ  Th u t hậ p d ữ liệ u v à sự t ồ n tạ i c ủ a d ữ liệ u  Các công cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ liệu, World Wide Web, xã hội số Cá ồ dữ liệ hhú  Cá c ngu ồ n dữ liệ u p h ong p hú  Kinh doanh: Internet, thương mại điện tử, giao dịch thương mại, chứng khoán,…  Khoa học: Tín hiệucảmbiến tin sinh thí nghiệmmô  Khoa học: Tín hiệu cảm biến , tin sinh , thí nghiệm mô phỏng/giả lập,…  Xã hội: Tin tức, máy ảnh số, các mạng xã hội Chúng ta bị tràn ngập trong dữ liệu Nhưng lạithiếu(cần) tri  Chúng ta bị tràn ngập trong dữ liệu – Nhưng lại thiếu (cần) tri thức  Khai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất lớn để khám phá ra các tri thức lớn , để khám phá ra các tri thức 3 Khai Phá Dữ Liệu Khai p há dữ li ệ u – Đ ị nh n g hĩa p ệ ị g  Khai phá dữ liệu (Data mining – DM) – Khám phá tri thức từ dữ liệu (Knowledge discovery from data) ẫ  Là việc trích rút ra được các m ẫ u hoặc tri thức quan trọn g từ một lượng dữ liệu (rất) lớn  quan trọng = không tầm thường, ẩn, chưa được biết đến, và có thể hữuích có thể hữu ích  Các tên gọi khác  Khám phá tri thức trong các cơ sở dữ liệu (Knowledge discovery in databases KDD) in databases - KDD)  Trích rút tri thức (Knowledge extraction)  Phân tích mẫu/dữ liệu (Data/pattern analysis)   …  Khai phá dữ liệu khác với…  Tìm kiếm thông tin (Information retrieval) ấ ố  Xử lý các câu truy v ấ n (SQL) đ ố i với các cơ sở dữ liệu 4 Khai Phá Dữ Liệu DM: L ị ch sử p hát triển ị p  1989 IJCAI Workshop on Knowledge Discovery in Databases  Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)  1991-1994 Workshops on Knowledge Discovery in Databases  Advances in Knowled g e Discover y and Data Minin g ( U. Fa yy ad , G. g y g ( yy , Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)  1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD ’ 95 - 98) Databases and Data Mining (KDD 95 98)  Journal of Data Mining and Knowledge Discovery (1997)  ACM SIGKDD conferences since 1998 and (Journal) SIGKDD Explorations  More conferences on data mining  PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc.  ACM Transactions on KDD starting in 2007 5 Khai Phá Dữ Liệu Các bước của quá trình KD 1.Tìm hiểu lĩnh vực của bài toán (ứng dụng)  Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực 2.Tạo nên (thu thập) một tập dữ liệu phù hợp 3.Làm sạch và tiền xử lý dữ liệu 4.Giảm kích thước của dữ liệu, chuyển đổi dữ liệu  Xác định các thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến 5.Lựa chọn chức năng khai phá dữ liệu Tóm tắt hóa (s mmari ation) phân loại/phân lớphồiq /d  Tóm tắt hóa (s u mmari z ation) , phân loại/phân lớp , hồi q uy /d ự đoán, kết hợp, phân cụm 6.Lựa chọn/Phát triển (các) giải thuật khai phá dữ liệu phù hợp 7 Tiến hành quá trình khai phá dữ liệu 7 . Tiến hành quá trình khai phá dữ liệu 8.Đánh giá mẫu thu được và biểu diễn tri thức  Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa, … 9 Sử dụng các tri thức được khám phá 9 . Sử dụng các tri thức được khám phá 6 Khai Phá Dữ Liệu Quá trình khám phá tri thức (1)  Đây là cách nhìn của giới nghiên cứu về các hệ thống dữ liệuvàkhodữ liệu liệu và kho dữ liệu  Khai phá dữ liệu đóng vai trò quan trọng trong quá trình khám phá tri thức Pattern Evaluation khám phá tri thức Task-relevant Data Data Mining Data Cleaning Data Warehouse Selection Data Cleaning Data Integration 7 Khai Phá Dữ Liệu Databases (Han and Kamber - Data mining: Concepts and Techniques) Quá trình khám phá tri thức (2) (Han and Kamber - Data mining: Concepts and Techniques) Input Data Data Mining Data Pre- Processing Post- Processing Data integration Normalization Feature selection Dimension reduction Pattern discovery Association & correlation Classification Clustering Pattern evaluation Pattern selection Pattern interpretation Pattern visualization  Đây là cách nhìn của giới nghiên cứu về học máy và thố kê Dimension reduction Outlier analysis … … … … Pattern visualization thố ng kê 8 Khai Phá Dữ Liệu Kiến trúc hệ thống khai phá dữ liệu Graphical User Interface Pattern Evaluation Knowledge Database or Data Data Mining Engine Knowledge base data cleaning, integration, and selection Warehouse Serve r Database Data Warehouse World-Wide Web Other Info Repositories (Han and Kamber - Data mining: Concepts 9 Khai Phá Dữ Liệu Data mining: Concepts and Techniques) Khai phá dữ liệu cho kinh doanh Increasing potential to support business decisions End User Business Decision Making Data Presentation Analyst Data Analyst Data Presentation Visualization Techniques Data Mining Information Discovery Analyst Information Discovery Data Exploration Statistical Summary, Querying, and Reporting DBA Data Preprocessing/Integration, Data Warehouses Data Sources 10 Khai Phá Dữ Liệu Paper, Files, Web documents, Scientific experiments, Database Systems (Han and Kamber - Data mining: Concepts and Techniques) [...]... cấu trúc, dữ liệu dạng đồ thị, các mạng xã hội Các cơ sở dữ liệu hỗn tạp Dữ liệu phụ thuộc không gian/thời gian, dữ liệu đa phương tiện Cần các chương trình ( g dụng) p g (ứng ụ g) phân tích dữ liệu mới, phức ệ ,p tạp hơn Khai Phá Dữ Liệu 12 DM – Nhiều cách nhìn (quan điểm) Dữ liệu được khai phá Dữ liệu quan hệ, kho dữ liệu, dữ liệu giao dịch, luồng dữ liệu, dữ liệu hướng liệ h ớ đối t tượng, dữ liệ phụ... Kinh doanh bán lẻ, viễn thông, ngân hàng, phát hiện gian lận tài g g chính, khai phá dữ liệu sinh học, phân tích thị trường chứng khoán, khai phá văn bản, khai phá Web, … ả Khai Phá Dữ Liệu 13 DM – Các cách phân biệt p ệ Theo chức năng tổng quát Khai phá dữ liệu mô tả: Tìm các mẫu (mà con người có thể hiểu/diễn giải được) biểu diễn/mô tả dữ liệu Khai phá dữ liệu dự đoán: Sử dụng một số biến để dự đoán... về Khai phá dữ liệu Dựa theo dữ liệu: Những kiểu dữ liệu nào được khai phá? ể Dựa theo tri thức: Những kiểu tri thức nào được khám phá? Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng? Dựa theo ứng dụng (bài toán): Những kiểu ứng dụng (bài toán) nào phù hợp để giải quyết? Khai Phá Dữ Liệu 14 DM: Khái quát hóa q Tích hợp thông tin và xây dựng các kho dữ liệu Làm sạch dữ liệu, chuyển đổi dữ. .. quá trình khai phá dữ liệu các ràng buộc tri buộc, thức chuyên gia, tri thức nền tảng (background knowledge) Đánh giá mẫu và tích hợp tri thức Khai há á kiểu Kh i phá các kiể dữ liệu rất khác nhau (dữ liệu tin sinh, W b liệ ất khá h liệ ti i h Web, mạng thông tin,…) Tích hợp khai phá dữ liệu vào các thiết bị hoạt động Bảo đảm tính an ninh, toàn vẹn, riêng tư trong khai phá dữ liệu Khai Phá Dữ Liệu 30... ngữ nghĩa: Khai phá các liên kết (Link mining) Khai há Web (Web i i ) Kh i phá W b (W b mining) WWW là một mạng thông tin khổng lồ: PageRank (Google) Phân tích các mạng thông tin Web Khám phá cộng đồng Web Khai phá ý kiến (Opinion mining) Khai Web, mining), phá dữ liệu truy cập Web (usage mining) Khai Phá Dữ Liệu 20 Tất cả các mẫu đều quan trọng? Quá trình khai phá dữ liệu có thể sinh (phát hiện) ra... rủi ro ủi Dự đoán, giữ khách hàng, phân tích cạnh tranh Phát hiện gian lận và phát hiện các mẫu bất thường (outliers) Các ứng dụng khác Khai phá văn bản (nhóm tin – news group, email, tài liệu) Khai phá Web Khai phá dữ liệu luồng (chuỗi) Phân tích dữ liệu sinh học và tin sinh Khai Phá Dữ Liệu 25 Ứng dụng: Phân tích thị trường (1) Nguồn của dữ liệu từ đâu? Các giao dịch sử dụng thẻ tín dụng, các thẻ... Công nghiệp bán lẻ: phát hiện các người làm thuê gian lận Chống khủng bố Khai Phá Dữ Liệu 29 DM: Các vấn đề thách thức Tính hiệu quả (efficiency) và tính ổn định (scalability) của các giải thuật khai phá dữ liệu Các Cá phương pháp khai phá dữ liệu song song, phân tán, luồng á á ệ ồ (stream), và tăng cường (incremental) Xử lý với dữ liệu có số chiều (số thuộc tính) lớn Xử lý với dữ liệu chứa nhiễu (lỗi),... petabytes Dữ liệu được biểu diễn trong không gian nhiều chiều (số lượng rất lớn các thuộc tính) Vd: Dữ liệu trong lĩnh vực tin sinh (bioinformatics) có thể được biểu diễn bởi hàng chục ngàn thuộc tính Dữ liệu có độ phức tạp (rất) cao Các luồng Cá l ồ dữ liệu và dữ liệ th nhận từ các mạng cảm biế liệ à liệu thu hậ á ả biến Dữ liệu liên tục theo thời gian, dữ liệu phụ thuộc theo thời gian, chuỗi dữ liệu Dữ liệu. .. phụ th ộ khô gian, dữ liệ liê liệu h thuộc không i liệu liên tục theo thời gian, dữ liệu dạng văn bản, dữ liệu đa phương tiện, dữ liệu hỗn tạp, dữ liệu trên WWW, … Tri thứ đ T i thức được khá phá khám há Sự đặc trưng, sự phân biệt, luật kết hợp, phân lớp, phân cụm, xu hướng/dịch chuyển, phân tích ngoại lai (outlier) Các kỹ thuật được sử dụng Dựa trên cơ sở dữ liệu, phân tích kho dữ liệu, học máy, thống... ự quan Công nghệ cơ sở dữ liệu (Database technology) Giải thuật (Algorithm) Thống kê (Statistics) Học máy (Machine learning) Nhận dạng mẫu (Pattern recognition) Hiển thị hóa (Visualization) Tính toán hiệu năng cao (High-performance computing) Khai Phá Dữ Liệu 11 Phân tích dữ liệu ệ Lượng dữ liệu rất lớn Các giải thuật (phân tích dữ liệu) cần phải hoạt động tốt với những tập dữ liệu lên đến hàng terabytes, . chính, khai phá dữ liệu sinh học, phân tích thị trườn g chứn g ả g g khoán, khai phá văn b ả n, khai phá Web, … 13 Khai Phá Dữ Liệu DM – Các cách p hân bi ệ t p ệ  Theo chức năng tổng quát  Khai. cộng đồng Web Khai phá ý kiến (Opinion mining) Khai  Khám phá cộng đồng Web , Khai phá ý kiến (Opinion mining) , Khai phá dữ liệu truy cập Web (usage mining) 20 Khai Phá Dữ. Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học:  Giới thiệu về Khai

Ngày đăng: 03/07/2015, 15:21

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan