DM BI chapter 2 data

39 330 0
DM BI   chapter 2   data

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chương 2: Data Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm: Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation). Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô. Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được. Triển khai (Deployment). Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 2: Dữ liệu khai phá Cao Học Ngành Hệ Thống Thông Tin Quản Lý Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu (chauvtn@cse.hcmut.edu.vn) Học kỳ – 2016-2017 Tài liệu tham khảo          [1] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001 [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009 [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 [7] Ian H.Witten, Frank Eibe, Mark A Hall, “Data mining : practical machine learning tools and techniques”, Third Edition, Elsevier Inc, 2011 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010 Nội dung     Chương 1: Tổng quan khai phá liệu Chương 2: Dữ liệu khai phá Chương 3: Các vấn đề tiền xử lý liệu Chương 4: Các kỹ thuật khai phá liệu         Hồi qui liệu Phân loại liệu Gom cụm liệu Luật kết hợp Chương 5: Hệ trí tuệ kinh doanh Chương 6: Khai phá liệu trí tuệ kinh doanh với công nghệ sở liệu Chương 7: Các đề tài nghiên cứu khai phá liệu trí tuệ kinh doanh Ôn tập Chương 2: Dữ liệu khai phá  2.1 Kiểu liệu  2.2 Các độ đo khoảng cách khai phá liệu  2.3 Vấn đề thu thập chuẩn bị liệu  2.4 Vấn đề chất lượng liệu  2.5 Trực quan hóa liệu  2.6 Tóm tắt Tổng quan trình khám phá tri thức Dữ liệu khai phá Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Selection/Transformation Data Cleaning Data Integration Data Sources 2.1 Kiểu liệu  Tính cấu trúc liệu  Việc lưu trữ liệu  Lượng liệu  Các vấn đề cần xem xét cho liệu 2.1 Kiểu liệu  Tính cấu trúc liệu  có cấu trúc  bán cấu trúc  phi cấu trúc  Dữ liệu thực tế bao gồm thành phần có cấu trúc khác 2.1 Kiểu liệu  Tính  cấu trúc liệu Structured  simple  Ví  Semi-structured  complex  Ví  dụ: relational data dụ: XML data Un-structured  complex  Ví dụ: text data, multimedia data 2.1 Kiểu liệu  Việc lưu trữ liệu  Dữ liệu lưu trữ       Các tập tin truyền thống (flat files) Các sở liệu quan hệ (relational databases) hay quan hệ đối tượng (object relational databases) Các sở liệu giao tác (transactional databases) hay kho liệu (data warehouses) Các sở liệu hướng ứng dụng: sở liệu không gian (spatial databases), sở liệu thời gian (temporal databases), sở liệu không thời gian (spatio-temporal databases), sở liệu chuỗi thời gian (time series databases), sở liệu văn (text databases), sở liệu đa phương tiện (multimedia databases), … Các kho thông tin: the World Wide Web, … Dữ liệu tạm thời: dòng liệu (data streams) 2.1 Kiểu liệu  Lượng liệu Source: Wikipedia, p petabyte, 2013 10 5.1 Tổng quan gom cụm liệu R Xu, D Wunsch II Survey of Clustering Algorithms IEEE Transactions on Neural Networks, 16(3), May 2005, pp 645-678 25 2.3 Vấn đề thu thập chuẩn bị liệu  Thu thập liệu  Thiết bị nhập  Thiết bị lưu trữ  Thiết bị xuất  Chuẩn  bị liệu Tiền xử lý 26 2.4 Vấn đề chất lượng liệu  Chất lượng (quality of data/information)  Phù hợp với đặc tả (specifications), yêu cầu từ người dùng (user requirements), ngữ cảnh sử dụng (context of use), …  “A comprehensive list of commonly agreed quality dimensions is still not available.”  Phân loại chiều chất lượng (quality dimensions)  Schema quality dimensions  structure  Data quality dimensions  instance C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 27 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62 2.4 Vấn đề chất lượng liệu  Data quality dimensions  Accuracy: “inaccuracy implies that the information system represents a real world state different from the one that should have been represented.”  Timeliness: refers to “the delay between a change of the real-world state and the resulting modification of the information system state.”  Completeness: is “the ability of an information to represent every meaningful state of the represented real world system” C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 28 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62 2.4 Vấn đề chất lượng liệu  Data quality dimensions  Consistency: consistency of data values occurs whether or not there is more than one state of the information system matching a state of the real world system; therefore, “inconsistency would mean that the representation mapping is one-to-many.”  Interpretability: concerns the documentation and metadata that are available to interpret correctly the meaning and properties of data sources C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 29 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62 2.4 Vấn đề chất lượng liệu  Data quality dimensions  Accessibility: measures the ability of the user to access the data as from his/her own culture, physical status/functions and technologies available  Usability: measures the effectiveness, efficiency, satisfaction with which specified users perceive and make use of data  Trustworthiness: measures how reliable the organization is in providing data sources C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 30 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62 2.5 Trực quan hóa liệu  Giao tiếp liệu rõ ràng hiệu với biểu diễn đồ họa  Báo cáo  Quản lý tác nghiệp  Theo dõi tiến triển công việc  Khám phá mối liên hệ liệu thơng qua trực quan hóa 31 2.5 Trực quan hóa liệu  Các kỹ thuật  pixel-oriented  geometric projection  icon-based  hierarchical  graph-based  tag cloud  …  Dữ liệu quan sát ghi nhận với nhiều đặc điểm (thuộc tính, đặc trưng) khác  Không 32 gian liệu vs Không gian biểu diễn liệu 2.5 Trực quan hóa liệu Figure 2.10, [1], p 57 33 2.5 Trực quan hóa liệu Figure 2.13 for geometric projection visualization, [1], p 59 34 2.5 Trực quan hóa liệu Figure 2.20 for geometric projection visualization, [1], p 65 35 2.5 Trực quan hóa liệu SOM visualization 36 2.5 Trực quan hóa liệu 37 2.6 Tóm tắt  Dữ  liệu thực tế phong phú: lượng, chất, thể  Thu thập  Lưu trữ  Truy  xuất => trực quan hóa liệu ẩn chứa nhiều thơng tin tri thức quý báu  Xử lý  Khai phá 38 Hỏi & Đáp … 39 ... "Understaning Big Data: Analytics for Enterprise Class Hadoop and Streaming Data" , The McGraw-Hill Companies, 20 12. , p 5-6 11 2. 1 Kiểu liệu  Massive datasets  Volume   How big is big? Variety... i j bi? ??u diễn tương ứng vector x y Độ tương tự (similarity) i j tính độ đo cosine: x = (x1, …, xp) y = (y1, …, yp) s(x, y) = (x1*y1 + … + xp*yp)/((x 12 + … + xp2)1 /2* (y 12+ … + yp2)1 /2) 18 2. 2 Các... tập Chương 2: Dữ liệu khai phá  2. 1 Kiểu liệu  2. 2 Các độ đo khoảng cách khai phá liệu  2. 3 Vấn đề thu thập chuẩn bị liệu  2. 4 Vấn đề chất lượng liệu  2. 5 Trực quan hóa liệu  2. 6 Tóm tắt

Ngày đăng: 20/05/2017, 21:37

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan