Khai thác dữ liệu

36 596 3
Khai thác dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai thác dữ liệu

Khai Thác Dữ LiệuGV: Nguyễn Kim Long Giới thiệu môn học •Trình bày được các khái niệm cơ bản trong khai thác dữ liệu.•Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu.•Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể.•Nâng cao kỹ năng tham khảo tài liệu về lĩnh vực khai thác dữ liệu.Kết quả đạt được •Điểm tích cực(30%)–Thuyết trình lý thuyết (1/2)–Bài tập hàng tuần (1/2)•Đồ án(30%)–Báo cáo tuần 9 (40%), tuần 13-14 (60%)•Thi cuối kỳ(40%)–Thi vấn đáp theo lịch phòng đào tạoĐánh giá kết quả •Sách principle of DataMining•Sách DataMining Concepts and Techniques•Slides•DataMining MSSQL2008•googleTài liệu •Lý thuyết: trên lớp CS2•Thực hành: phòng máy CS2•Bài tập: tùy chọnMôi trường học và thực hành •1-2. Tổng quan•3. Xác xuất và entropy•4. Tiền xử lý dữ liệu•5. Kho dữ liệu và OLAP •6-7. Luật kết hợp •8-9. Phân nhóm•10-11. Phân cụm.•12-13. Web Mining, Text Mining•14. Ôn tậpNội dung môn học (Lý thuyết) •1-3. Làm quen công cụ mining•4-8. MSSQL 2008•9-13. Text Mining •14. Ôn tậpNội dung môn học (Thực hành) Bài giảng 1. Giới thiệu 1. L ch s KTDL.ị ử2. T i sao khaithác d li u?ữ ệ3. Khái thác d li u là gì?ữ ệ4. Các b c KTDL.ướ5. Khai thác trên ki u d li u gì?ể ữ ệ6. Ch c n ng KTDLứ ă7. Các k thu t (thu t tóan) KTDLỹ ậ ậ8. Phân l ai h th ng KTDLọ ệ ố9. Tóm t tắNội dung [...]... liệu tự động HT khai thác dữ liệu có tương tác HT khai thác dữ liệu theo truy vấn HT sử dụng kỹ thuật máy học, thống kê, mô phỏng, nhận dạng mẫu Theo môi trường ứng dụng (4/4) • • • • • HT khai thác dữ liệu tài chính kế tóan HT khai thác dự liệu viễn thông HT khai thác dự liệudi truyền học HT khai thác dự liệu chứng khóan HT khai thác dự liệu giáo dục Tổng kết • Các bước khai thác dữ liệu? Các bước... database (cơ sở dữ liệu quan hệ) data warehouse (Kho dữ liệu) Cơ sở dữ liệu giao dịch Dữ liệu cao cấp, hệ thống thông tin và ứng dụng cao cấp – Cơ sở dữ liệu quan hệ đối tượng – Cơ sở dữ liệu thời gian, Cơ sở dữ liệu khoảng thời gian, và Cơ sở dữ liệu chuỗi thời gian – Cơ sở dữ liệu không gian và cơ sở dữ liệu không gian thời gian – Cơ sở dữ liệu văn bản và cơ sở dữ liệu đa truyền thông – Cơ sở dữ liệu hỗn... thống khai thác dữ liệu mạng tòan cần Theo tri thức (2/4) • Hệ thống mô tả và phân biệt dữ liệu • Hệ thồng khai thác kết hợp và tương quan dữ liệu • Hệ thống phân lớp và dự đóan dữ liệu • Hệ thống gom nhóm dữ liệu • HT phân tích dữ liệu ngọai lệ và tiến hóa • HT khai thác tri thức phổ biến • HT khai thác tri thức thô • HT khai thác tri thức đa cấp độ Theo kỹ thuật (3/4) • • • • HT khai thác dữ liệu tự... sở dữ liệu được khai thác Phân lọai theo tri thức khai thác Phân lọai theo kỹ thuật KTDL Phân lọai theo môi trường ứng dụng Theo CSDL(1/4) • • • • • • Hệ thống khai thác CSDL quan hệ Hệ thống khai thác CSDL giao dịch Hệ thống khai thác CSDL quan hệ đối tượng Hệ thống khai thác kho dữ liệu Hệ thống khai thác CSDL không gian, thời gian Hệ thống khai thác dữ liệu văn bản, đa truyền thông • Hệ thống khai. .. tài liệu do Google trả về dựa trên ngữ cảnh (Rừng Amazon, trang web Amazon, ) Quá trình khám phá tri thức Các bước KTDL 1 Làm sạch dữ liệu – Data cleaning 2 Tích hợp dữ liệu − Data integration 3 Lựa chọn dữ liệu − Data selection 4 Chuyển hóa dữ liệu − Data transformation 5 Khai thác dữ liệu − Data mining 6 Đánh giá mẫu − Pattern evaluation 7 Biểu diễn tri thức − Knowledge representation Kiểu dữ liệu. .. hướng đối tượng, CSDL phân tán, => sự bùng nổ kho dữ liệu khổng lồ => „giàu dữ liệu, nghèo thông tin” Tại sao KTDL? KTDL là gì? Các khái niệm tương đương • • • • • • • khai thác tri thức Knowledge Discovery form Data (KDD) knowledge mining from data knowledge extraction data/pattern analysis data archaeology (khai quật dữ liệu) data dredging (nạo vét dữ liệu) Phân biệt KTDL • Tra cứu số điện thoại trong... dữ liệu kế thừa relational database • • • • • • Table Attribute(column/field) Record (row/tuple) ER SQL (select, join, sum, min, max, avg) => nơi lưu trữ nhiều thông tin nhất hiện nay Data warehouse • Kho dữ liệu: – Def: Là nơi lưu trữ thông tin tập hợp từ nhiều nguồn khác nhau – Dạng lưu trữ: Schema (giản đồ), khối đa chiều • Các bước xây dựng kho dữ liệu: – – – – – Làm sạch dữ liệu Tích hợp dữ liệu. .. dự liệudi truyền học HT khai thác dự liệu chứng khóan HT khai thác dự liệu giáo dục Tổng kết • Các bước khai thác dữ liệu? Các bước thực hiện một bài tóan khai thác dữ liệu? • Nội dung thuyết trình • Chủ đề 1 thi cuối kỳ: - tổng quan khai thác dữ liệu Q&A? ... lưu trữ thông tin tập hợp từ nhiều nguồn khác nhau – Dạng lưu trữ: Schema (giản đồ), khối đa chiều • Các bước xây dựng kho dữ liệu: – – – – – Làm sạch dữ liệu Tích hợp dữ liệu Chuyển hóa dữ liệu Nạp dữ liệu Làm tươi dữ liệu (refresh) Text database • Các dạng thường gặp: – – – – Word, excel, pp, txt Website, HTML/XML Từ điển, thư viện • Mục đích: – – – – Mô tả chung Từ khóa Phân lọai Chức năng KTDL •... mỗi record có chứa nhiều thuộc tính, trong đó có 1 thuộc tính là class Clustering (D)2/6 • Cho 1 tập các điểm dữ liệu (data points) với các thuộc tính và 1 đơn vị tương đương (similarity measure), tìm các nhóm sao cho: – Dữ liệu trong cùng 1 nhóm (cluster) thì giống nhau hơn nhóm khác – Dữ liệu trong các nhóm khác nhau thì ít giống nhau hơn Association (D) 3/6 • Cho trước 1 nhóm records có chứa một . khai thác dữ liệu. •Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể.•Nâng cao kỹ năng tham khảo tài liệu về lĩnh vực khai thác dữ liệu. Kết. cleaning2. Tích hợp dữ liệu − Data integration 3. Lựa chọn dữ liệu − Data selection 4. Chuyển hóa dữ liệu − Data transformation 5. Khai thác dữ liệu − Data mining

Ngày đăng: 17/01/2013, 11:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan