Bài giảng khai phá dữ liệu (data mining) introduction

26 5 0
Bài giảng khai phá dữ liệu (data mining) introduction

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/ Nội dung  Giới thiệu môn học  Các nội dung  Tài liệu tham khảo  Hình thức đánh giá  Danh sách đề tài – đồ án môn học  Các vấn đề data mining  Trao đổi thảo luận Giới Thiệu Môn Học  Khai phá liệu (data mining)  tín  Mục tiêu:  Cung cấp cho sinh viên nguyên lý, khái niệm, kỹ thuật tảng khai phá liệu  Giới thiệu cho sinh viên hiểu biết định chủ đề khai phá liệu mẻ đại xu hướng lĩnh vực  Cung cấp tảng tốt suy luận thống kê cấu trúc tốn học cần thiết để phục vụ cho cơng việc nghiên cứu khoa học  Kỹ thực hành, thiết kế mô thực nghiệm  Thái độ học tập chăm chỉ, nghiêm túc sáng tạo Các Nội Dung  Giới thiệu khai phá liệu vấn đề liên quan  Tiền xử lý liệu (preprocessing)  Hồi quy liệu (regression)  Các phương pháp phân lớp (classification): Naïve Bayes Classifier, Neural Network, SVM, Boosting…  Các phương pháp phân cụm (clustering): Kmeans, Phân cụm đa cấp, …  Luật kết hợp (association rules)  Đồ án mơn học – seminar nhóm Tài liệu tham khảo  Slide giảng viên cung cấp  Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann Publishers, 2011  Ian H Witten and Eibe Frank, Data Mining – Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann Publishers, 2005  Richard O Duda, Peter E Hart, and David G Stork, Pattern Classification, Wiley,2000  Các nguồn khác internet  Google  Kaggle  … Hình thức đánh giá  Điểm trình:  Chuyên cần: 10%  Báo cáo đề tài: 40%    Soạn slide báo cáo Thuyết trình giảng trước lớp (20 phút đến 30 phút) Chương trình demo mơ ứng dụng phương pháp/thuật tốn trình bày  Báo cáo cuối kỳ: 50%  Báo cáo trình bày theo mẫu nghiên cứu khoa học/ khóa luận tốt nghiệp  Báo cáo yêu cầu 30 trang  Có tài liệu tham khảo trích dẫn (ít 15 tài liệu tham khảo)  Trình bày chi tiết sở lý thuyết thuật toán/ phương pháp lựa chọn ❖ Điểm thưởng (+): phát biểu, giải tập, đặt câu hỏi cho nhóm thuyết trình, Danh sách chủ đề báo cáo ❖ Sinh viên đăng ký làm đề tài theo nhóm (mỗi nhóm tối đa sinh viên): K-Nearest Neighbors Decision Tree (C4.5, CART, …) Clustering (K-means, Spectral clustering, hierarchical clustering, DBSCAN, …) Support vector machines (SVM) Boosting algorithm: thuật toán AdaBoost Association rules: thuật toán Apriori Expectation–Maximization algorithm Naïve Bayes Classifier Neural Network 10 Rough set theory (Lý thuyết tập thô) Các ứng dụng ▪ Trích chọn thơng tin ▪ Phân tích chủ đề ứng dụng ▪ Phân tích liên kết tìm kiếm Web ▪ Quảng cáo trực tuyến ▪ Phân tích quan điểm ▪ Các hệ thống gợi ý ▪ Phân tích mạng xã hội ▪ Dữ liệu lớn Khai phá liệu quy mơ lớn ▪ Phân tích dự báo với liệu kinh tế tài ▪ Đấu giá thị trường ▪ … Các Vấn Đề Trong Data Mining ❖ Data Mining gì? • Q trình trích xuất tri thức từ lượng lớn liệu • Q trình trích xuất thơng tin ẩn, hữu ích, chưa biết trước từ liệu Các Vấn Đề Trong Data Mining  Các ứng dụng: Prediction Tid Refund Marital Status Taxable Income Cheat Yes Single 125K No No Married 100K No No Single 70K Yes Married 120K No Refund Marital Status Taxable Income Cheat No No Single 75K ? No Yes Married 50K ? Divorced 95K Yes No Married 150K ? No Married No Yes Divorced 90K ? Yes Divorced 220K No No Single 40K ? No Single Yes No Married 80K ? 60K 85K 10 No Married 75K No 10 No Single 90K Yes 10 10 Các Vấn Đề Trong Data Mining  Các ứng dụng : Recommender system 12 Các Vấn Đề Trong Data Mining  Các ứng dụng : Sentiment Analysis 13 Các Vấn Đề Trong Data Mining  Các ứng dụng : Credit scoring 14 Các Vấn Đề Trong Data Mining  Quá trình khám phá tri thức Pattern Evaluation Data Mining Task-relevant Data Data Warehouse Selection Data Cleaning Data Integration Databases 15 Các Vấn Đề Trong Data Mining ❖ Quá trình khám phá tri thức chuỗi lặp gồm bước:  Data cleaning (làm liệu)  Data integration (tích hợp liệu)  Data selection (chọn lựa liệu)  Data transformation (biến đổi liệu)  Data mining (khai phá liệu)  Pattern evaluation (đánh giá mẫu)  Knowledge presentation (biểu diễn tri thức) 16 Các Vấn Đề Trong Data Mining ❖ Quá trình khám phá tri thức chuỗi lặp gồm bước thực thi với:  Data sources (các nguồn liệu)  Data warehouse (kho liệu)  Task-relevant data (dữ liệu cụ thể khai phá)  Patterns (mẫu kết từ khai phá liệu)  Knowledge (tri thức đạt được) 17 18 Các Vấn Đề Trong Data Mining  Lượng lớn liệu sẵn có để khai phá  Bất kỳ loại liệu lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi cấu trúc  Dữ liệu lưu trữ     Các tập tin truyền thống (flat files) Các sở liệu giao tác (transactional databases) hay kho dữliệu (data warehouses) Các sở liệu hướng ứng dụng: sở liệu chuỗi thời gian (time series databases), sở liệu văn (text databases), sở liệu đa phương tiện (multimedia databases), … Các kho thông tin: the World Wide Web, …  Dữ liệu tạm thời: dòng liệu (data streams) 19 Các Vấn Đề Trong Data Mining Database Technology Machine Learning Pattern Recognition Statistics Data Mining Algorithm Visualization Other Disciplines 20 Các Vấn Đề Trong Data Mining  Phân loại thuật toán: (chức năng)  Regression Algorithms  Classification Algorithms  Bayesian Algorithms  Clustering Algorithms  Artificial Neural Network Algorithms  Ensemble Algorithms  Association Rules 21 Các vấn đề Data Mining  Regression vs Classification  Regression: biến đầu định lượng (liên tục/dạng số/có thứ tự)  Classification: biến đầu dạng định tính (kiểu rời rạc/thứ bậc/định danh) (categorical) 22 Các vấn đề Data Mining  Prediction vs Inference  Prediction (dự đoán): Dự đoán biến output với tập liệu input cho trước, sử dụng hàm ước lượng thống kê  Inference (suy diễn): Tìm hiểu mối quan hệ output với biến input 23 Các vấn đề Data Mining  Recognition: Verification vs Identification 24 Các Vấn Đề Trong Data Mining ❖ Phân cụm (clustering)  Chia liệu thành tập mà chúng có đặc tính chung 25 Các Vấn Đề Trong Data Mining ❖ Chuẩn bị liệu  Tiền xử lý liệu (data preprocessing) để chuẩn hóa liệu trước áp dụng vào giải thuật xử lý – Lấy mẫu: chọn tập quan sát/mẫu – Trích chọn thuộc tính: Chọn biến đầu vào – Chuẩn hóa liệu (Normalization) (standardization, scaling, binarization) – Xử lý liệu thiếu phần tử ngoại lai (missing data and outliers)  Ngồi ra, cịn phụ thuộc vào giải thuật xử lý – Decision Tree, Xgboost xử lý liệu thiếu/phần tử ngoại lai – PCA, SVM, Neural Nets yêu cầu liệu chuẩn hóa 26

Ngày đăng: 23/12/2023, 10:14

Tài liệu cùng người dùng

Tài liệu liên quan