Bài giảng khai phá dữ liệu chương 1 phan mạnh thường

18 285 0
Bài giảng khai phá dữ liệu  chương 1   phan mạnh thường

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai phá liệu (Datamining) Phan Mạnh Thường LOGO 12/07/2014 Thông tin môn học Thời lượng • Số tiết lý thuyết : 45 • Số tiết thực hành : 30 Điều kiện • Nắm vững kiến thức sở liệu • SQL Server ngôn ngữ T-SQL • Lập trình Visual.NET Mục tiêu Cung cấp kiến thức • Các phương pháp khai phá liệu • Nhà kho liệu 7/12/2014 www.lhu.edu.vn Thông tin môn học Tài liệu tham khảo Đỗ Phúc, Giáo trình Khai thác liệu, ĐHQG TPHCM, 2005 Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001 Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2002 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2002 John Wang, Data mining: opportunities and challenges, Idea Group, 2003 ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 2005 7/12/2014 www.lhu.edu.vn Nội dung môn học Chương 1: Tổng quan khai phá liệu 7/12/2014 Chương 2: Luật kết hợp Chương 3: Phân lớp liệu Chương 4: Chuỗi phổ biến Chương 5: Gom cụm liệu Chương 6: Nhà kho liệu www.lhu.edu.vn Thông tin môn học Đánh giá Gồm cột điểm: • Điểm chuyên cần (10%): điểm danh buổi học (Lưu ý: nghỉ 30% số tiết bị cấm thi) • Điểm kiểm tra (30%): tập, seminar • Điểm thi (60%): làm thi máy 7/12/2014 www.lhu.edu.vn Chương Tổng quan Nội dung Các khái niệm Các giai đoạn khai phá tri thức Ứng dụng khai phá liệu Các kỹ thuật khai phá Chương Tổng quan Các khái niệm  Dữ liệu (Data): xem chuỗi bit, số, ký tự…mà tập hợp hàng ngày công việc  Thông tin (Information): tập hợp mảnh liệu chắt lọc dùng mô tả, giải thích đặc tính đối tượng  Tri thức (Knowledge): tập hợp thông tin có liên hệ với nhau, xem tri thức kết tinh từ liệu Tri thức thể tư người vấn đề 7/12/2014 www.lhu.edu.vn Chương Tổng quan Các khái niệm  Khám phá tri thức từ sở liệu: (Knowledge Discovery in Databases – KDD)  “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996)  “Khám phá tri thức từ sở liệu quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp chọn lọc liệu, khai thác liệu, đánh giá kết quả, giải thích liệu, áp dụng tri thức vào thực tế  http://www.kdnuggets.com/ 7/12/2014 www.lhu.edu.vn Chương Tổng quan Tại phải khai phá liệu ?  Nhà bác học tiếng Karan Sing nói “Chúng ta ngập chìm biển thông tin lại khát tri thức”  Dữ liệu thu thập hàng ngày lớn  Các CSDL khổng lồ  Dữ liệu từ Internet  Theo báo cáo IBM, có 80% liệu khai thác, 20% lại ẩn Database tri thức quý giá 7/12/2014 www.lhu.edu.vn Chương Tổng quan Khai phá liệu gì?  Khai phá liệu (Datamining) bước quy trình khám phá tri thức, nhằm:  Rút trích thông tin hữu ích, chưa biết, tiềm ẩn khối liệu lớn  Phân tích liệu bán tự động  Giải thích liệu tập liệu lớn 7/12/2014 www.lhu.edu.vn Chương Tổng quan Lợi ích khai phá liệu Giá trị EDP MIS DSS Số lượng 7/12/2014 EDP: Electronic Data Processing MIS: Management Information Systems DSS: Decision Support Systems www.lhu.edu.vn Chương Tổng quan Quy trình khai phá liệu Nghiên cứu lĩnh vực Tạo tập liệu đầu vào Tiền xử lý/ làm sạch, mã hóa Rút gọn / chiều Chọn tác vụ Khai thác liệu 7/12/2014 www.lhu.edu.vn Chương Tổng quan Quy trình khai phá liệu Chọn thuật giải KTDL KTDL: Tìm kiếm tri thức Đánh giá mẫu tìm Biểu diễn tri thức Sử dụng tri thức vừa khám phá 7/12/2014 www.lhu.edu.vn Chương Tổng quan Quy trình khai phá liệu Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP 7/12/2014 www.lhu.edu.vn Chương Tổng quan Từ liệu đến định Quyết định • Promote product A in region Z Tri thức • Mail ads to families of profile P • Cross-sell service B to clients C • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Thông tin • X lives in Z Dữ liệu • Customer data • S is Y years old • X and S moved • W has money in Z • Store data • Demographical Data • Geographical data 7/12/2014 www.lhu.edu.vn Chương Tổng quan Các ứng dụng Sản xuất Kinh doanh - Phân tích liệu bán hàng tiếp thị - Phân tích đầu tư - Chứng khoán - Xác định gian lận Khoa học 7/12/2014 - Không gian - Sinh học - Địa lý - etc - Điều khiển lập lịch - Quản trị mạng lưới - Phân tích kết thử nghiệm Y học - Bệnh lý - Sinh học www.lhu.edu.vn Chương Tổng quan Các kỹ thuật sử dụng Tìm đặc trưng lớp đối tượng sử dụng để phân lớp liệu Gom cụm Phân lớp ? Dữ đoán liệu tương lai dựa liệu khứ Dự đoán Mẫu 7/12/2014 Xác định cụm tiềm ẩn tập đối tượng chưa xếp lớp Tìm mẫu phổ biến từ liệu mối quan hệ đối tượng liệu Luật kết hợp Khám phá mẫu tín hiệu phổ biến từ liệu kiện Xác định trật tự liệu, cấu trúc lưu trữ phù hợp với tác vụ khai phá Nhà kho- OLAP www.lhu.edu.vn Chương Tổng quan Kết luận  KPDL: tiến trình khám phá bán tự động thông tin, mẫu có ích từ CSDL lớn  Các bước KDD  Tiền xử lý  KTDL( data mining tasks)  Hậu xử lý  Các quan niệm, khía cạnh …     7/12/2014 CSDL (quan hệ, hướng đối tượng, không gian, WWW, …) Tri thức (đặc trưng, gom cụm, kết hợp, …) Kỹ thuật (máy học, thống kê, trực quan hóa, …) Ứng dụng (bán lẻ, điện thoại, khai thác Web …) www.lhu.edu.vn [...].. .Chương 1 Tổng quan Lợi ích của khai phá dữ liệu Giá trị EDP MIS DSS Số lượng 7 /12 /2 014 EDP: Electronic Data Processing MIS: Management Information Systems DSS: Decision Support Systems www.lhu.edu.vn Chương 1 Tổng quan Quy trình khai phá dữ liệu Nghiên cứu lĩnh vực Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa Rút gọn / chiều Chọn tác vụ Khai thác dữ liệu 7 /12 /2 014 www.lhu.edu.vn Chương 1. .. lớp dữ liệu mới Gom cụm Phân lớp ? Dữ đoán dữ liệu tương lai dựa trên dữ liệu quá khứ Dự đoán Mẫu tuần tự 7 /12 /2 014 Xác định các cụm tiềm ẩn trong các tập đối tượng chưa được xếp lớp Tìm các mẫu phổ biến từ dữ liệu và mối quan hệ của các đối tượng dữ liệu Luật kết hợp Khám phá các mẫu tín hiệu phổ biến nhất từ dữ liệu các sự kiện Xác định trật tự dữ liệu, cấu trúc lưu trữ phù hợp với tác vụ khai phá. .. Rút gọn / chiều Chọn tác vụ Khai thác dữ liệu 7 /12 /2 014 www.lhu.edu.vn Chương 1 Tổng quan Quy trình khai phá dữ liệu Chọn các thuật giải KTDL KTDL: Tìm kiếm tri thức Đánh giá mẫu tìm được Biểu diễn tri thức Sử dụng các tri thức vừa khám phá 7 /12 /2 014 www.lhu.edu.vn Chương 1 Tổng quan Quy trình khai phá dữ liệu Increasing potential to support business decisions Making Decisions End User Data Presentation... Data • Geographical data 7 /12 /2 014 www.lhu.edu.vn Chương 1 Tổng quan Các ứng dụng Sản xuất Kinh doanh - Phân tích dữ liệu bán hàng và tiếp thị - Phân tích đầu tư - Chứng khoán - Xác định gian lận Khoa học 7 /12 /2 014 - Không gian - Sinh học - Địa lý - etc - Điều khiển và lập lịch - Quản trị mạng lưới - Phân tích kết quả thử nghiệm Y học - Bệnh lý - Sinh học www.lhu.edu.vn Chương 1 Tổng quan Các kỹ thuật... Information Providers, Database Systems, OLTP 7 /12 /2 014 www.lhu.edu.vn Chương 1 Tổng quan Từ dữ liệu đến quyết định Quyết định • Promote product A in region Z Tri thức • Mail ads to families of profile P • Cross-sell service B to clients C • A quantity Y of product A is used in region Z • Customers of class Y use x% of C during period D Thông tin • X lives in Z Dữ liệu • Customer data • S is Y years old •... www.lhu.edu.vn Chương 1 Tổng quan Kết luận  KPDL: tiến trình khám phá bán tự động các thông tin, mẫu có ích từ CSDL lớn  Các bước của KDD  Tiền xử lý  KTDL( data mining tasks)  Hậu xử lý  Các quan niệm, khía cạnh …     7 /12 /2 014 CSDL (quan hệ, hướng đối tượng, không gian, WWW, …) Tri thức (đặc trưng, gom cụm, kết hợp, …) Kỹ thuật (máy học, thống kê, trực quan hóa, …) Ứng dụng (bán lẻ, điện thoại, khai ... 2005 7 /12 /2 014 www.lhu.edu.vn Nội dung môn học Chương 1: Tổng quan khai phá liệu 7 /12 /2 014 Chương 2: Luật kết hợp Chương 3: Phân lớp liệu Chương 4: Chuỗi phổ biến Chương 5: Gom cụm liệu Chương. .. doanh - Phân tích liệu bán hàng tiếp thị - Phân tích đầu tư - Chứng khoán - Xác định gian lận Khoa học 7 /12 /2 014 - Không gian - Sinh học - Địa lý - etc - Điều khiển lập lịch - Quản trị mạng lưới -. .. khổng lồ  Dữ liệu từ Internet  Theo báo cáo IBM, có 80% liệu khai thác, 20% lại ẩn Database tri thức quý giá 7 /12 /2 014 www.lhu.edu.vn Chương Tổng quan Khai phá liệu gì?  Khai phá liệu (Datamining)

Ngày đăng: 03/12/2015, 01:06

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan