Đang tải... (xem toàn văn)
Tiền xử lý dữ liệu (ETL)
và phân tích đa chiều OLAPNguyễn Danh Tú
Trang 2Tiền xử lý & OLAP
Visualization
Trang 3● OLAP: Hệ thống
phân tích dữ liệu đa chiều
Trang 4OLTP và OLAP
Trang 5OLAP - Online analytical processing
Trang 6Nội dung
1 OLAP Cubea Dimensionb Fact
2 Các thao tác phân tích cơ bản trong OLAP
a Roll-upb Drill-downc Slice and diced Pivot (rotate)
Trang 7OLAP Cube: Là một khối dữ liệu nhiều chiều mà có thể dễ dàng phân tích
Trang 8Dimension & Fact
Pivot Chart Kéo vào Filters, Legend (Series), Axis
Trang 9OLAP Cube: Ví dụ
Trang 11Hệ thống chiều khái niệm (voi dim)/ Data taxonamy
Bộ phậnChức danhLoại phụ cấpLoại lươngNhân viênLoại BHXHThángFact
Bộ phận bán
Bộ phận
T.Vụ….
Trang 12Roll-up: Tổng hợp dữ liệu theo một công thức nào đó theo các chiều dữ liệu
Trang 15Dice: Chọn một vài dữ liệu trong một chiều
Trang 16Pivot: Xoay dữ liệu
Trang 17● Star schema:
○ Link 1Link 2
● Measure● Dimension● Fact
● OLAP cube: Link
OLAP - Data Model
Trang 18OLAP Data model
Thực hành: Vẽ Data model cho Nhân sự
Trang 19Mô hình dữ liệu OLTP vs OLAP
OLAP
Trang 20Mô hình hình sao (Star model)
Trang 21Mô hình bông tuyết (Snowflake Model)
Trang 22Mô hình dải thiên hà (Galaxy model)
Trang 23ETL-Extract, Transform, Load
Tiền xử lý dữ liệu
Trang 24ETL - Extract, Transform, Load
Trang 25Vùng Staging - Thực hiện các hoạt động tiền xử lý dữ liệu
Chứa các bản copy của dữ liệu được tải vào từ dữ liệu hoạt động
- Dữ liệu được chuẩn bị trong vùng staging (tích hợp, làm sạch,…)
Trang 26Type of Transform (Concept)Tools/ExampleExamples
Bucketing/BinningDate, Split, Add ColumnLấy dữ liệu Năm, Tháng, Lấy Tỉnh thành từ một chuỗiData Aggregation/ Data
Summarization Group by Lấy doanh thu theo tháng, chủng loại hàng, loại khách hàngData CleansingRemove Error, Remove Column, Row, Replace ValuesBỏ các dữ liệu lỗi, bỏ các cột, dòng thừa
Data Deduplication Remove duplicate Loại bỏ dùng trùng
Data DerivationAdd column, SplitTrích rút thông tin từ một hoặc 1 vài trường dữ liệu Từ ngày, tháng, năm -> DateData FilteringFilter
Data IntegrationNew sources, Append QueriesTích hợp dữ liệu từ nhiều nguồnData JoiningMerge Queries
Data SplittingSplit Column, Text to Column
Data ValidationData Type, Data Validation
Format RevisionData TypeDữ liệu ngày tháng bị loạn, chuẩn hóa lại Dữ liệu số dạng Text, chuẩn hóa lạiKey RestructuringIndex Colum
Z-Score Normalization and Min Scaling
Max-Data Rotation Transpose, Pivot, Unpivot
Trang 27Data Validation
Trang 28Data Binning
Trang 29Data Integration - Append Queries
Trang 30Data Join - Merge Queries
Trang 31Data join
Trang 32Data Rotation - Pivot
Trang 33Data Rotation - Unpivot
Trang 34Case study: Tối ưu hóa
Tỷ lệ hoàn trả cho công ty sữa Ngô
Mô tả hoạt động kinh doanh:● Kinh doanh sữa ngô tươi
● Giao cho các đại lý, cửa hàng bán lẻ (rất nhiều điểm)● Sản phẩm khi không tiêu thụ hết được hoàn/đổi trả● Sản phẩm sau khi trả/đổi là mất vì là đồ tươi Không sử
dụng đượcVấn đề cần giải:
● Cần giảm được tỷ lệ hoàn/đổi trả
● Giảm thiểu tối đa thiệt hại khi tôi ưu (VD: giảm doanh thu, giảm khách hàng
Giải pháp: Đưa ra được các phương án tối ưu dựa trên dữ liệu● Cần làm gì để tối ưu?
● Khi làm việc đó thì tác động lên doanh nghiệp ntn? (doanh thu, tỷ lệ đổi trả, )
Trang 35Tổng kết
1 Hệ thống xử lý giao dịch (OLTP): ERP, CRM, …2 Hệ thống phân tích dữ liệu đa chiều (OLAP)3 Khối dữ liệu OLAP: Dimension, Fact
4 Các thao tác với khối dữ liệu1 Roll-up, Drill-down
2 Slice, dice3 Pivot (rotate)
5 Tiền xử lý dữ liệu: Trích rút (Extract), Biến đổi (Transform), Lưu (Load)1 Data Cleaning
2 Data Binding
3 Data Rotation (Pivot, Unpivot)
4 Data Integration (Merge-Join, Append-Union)5 …
Trang 36Tài liệu tham khảo
Trang 38OLAP