tiền xử lý dữ liệu etl và phân tích đa chiều olap

38 0 0
Tài liệu đã được kiểm tra trùng lặp
tiền xử lý dữ liệu etl và phân tích đa chiều olap

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

Tiền xử lý dữ liệu (ETL)

và phân tích đa chiều OLAPNguyễn Danh Tú

Trang 2

Tiền xử lý & OLAP

Visualization

Trang 3

● OLAP: Hệ thống

phân tích dữ liệu đa chiều

Trang 4

OLTP và OLAP

Trang 5

OLAP - Online analytical processing

Trang 6

Nội dung

1 OLAP Cubea Dimensionb Fact

2 Các thao tác phân tích cơ bản trong OLAP

a Roll-upb Drill-downc Slice and diced Pivot (rotate)

Trang 7

OLAP Cube: Là một khối dữ liệu nhiều chiều mà có thể dễ dàng phân tích

Trang 8

Dimension & Fact

Pivot Chart Kéo vào Filters, Legend (Series), Axis

Trang 9

OLAP Cube: Ví dụ

Trang 11

Hệ thống chiều khái niệm (voi dim)/ Data taxonamy

Bộ phậnChức danhLoại phụ cấpLoại lươngNhân viênLoại BHXHThángFact

Bộ phận bán

Bộ phận

T.Vụ….

Trang 12

Roll-up: Tổng hợp dữ liệu theo một công thức nào đó theo các chiều dữ liệu

Trang 15

Dice: Chọn một vài dữ liệu trong một chiều

Trang 16

Pivot: Xoay dữ liệu

Trang 17

● Star schema:

○ Link 1Link 2

● Measure● Dimension● Fact

● OLAP cube: Link

OLAP - Data Model

Trang 18

OLAP Data model

Thực hành: Vẽ Data model cho Nhân sự

Trang 19

Mô hình dữ liệu OLTP vs OLAP

OLAP

Trang 20

Mô hình hình sao (Star model)

Trang 21

Mô hình bông tuyết (Snowflake Model)

Trang 22

Mô hình dải thiên hà (Galaxy model)

Trang 23

ETL-Extract, Transform, Load

Tiền xử lý dữ liệu

Trang 24

ETL - Extract, Transform, Load

Trang 25

Vùng Staging - Thực hiện các hoạt động tiền xử lý dữ liệu

Chứa các bản copy của dữ liệu được tải vào từ dữ liệu hoạt động

- Dữ liệu được chuẩn bị trong vùng staging (tích hợp, làm sạch,…)

Trang 26

Type of Transform (Concept)Tools/ExampleExamples

Bucketing/BinningDate, Split, Add ColumnLấy dữ liệu Năm, Tháng, Lấy Tỉnh thành từ một chuỗiData Aggregation/ Data

Summarization Group by Lấy doanh thu theo tháng, chủng loại hàng, loại khách hàngData CleansingRemove Error, Remove Column, Row, Replace ValuesBỏ các dữ liệu lỗi, bỏ các cột, dòng thừa

Data Deduplication Remove duplicate Loại bỏ dùng trùng

Data DerivationAdd column, SplitTrích rút thông tin từ một hoặc 1 vài trường dữ liệu Từ ngày, tháng, năm -> DateData FilteringFilter

Data IntegrationNew sources, Append QueriesTích hợp dữ liệu từ nhiều nguồnData JoiningMerge Queries

Data SplittingSplit Column, Text to Column

Data ValidationData Type, Data Validation

Format RevisionData TypeDữ liệu ngày tháng bị loạn, chuẩn hóa lại Dữ liệu số dạng Text, chuẩn hóa lạiKey RestructuringIndex Colum

Z-Score Normalization and Min Scaling

Max-Data Rotation Transpose, Pivot, Unpivot

Trang 27

Data Validation

Trang 28

Data Binning

Trang 29

Data Integration - Append Queries

Trang 30

Data Join - Merge Queries

Trang 31

Data join

Trang 32

Data Rotation - Pivot

Trang 33

Data Rotation - Unpivot

Trang 34

Case study: Tối ưu hóa

Tỷ lệ hoàn trả cho công ty sữa Ngô

Mô tả hoạt động kinh doanh:● Kinh doanh sữa ngô tươi

● Giao cho các đại lý, cửa hàng bán lẻ (rất nhiều điểm)● Sản phẩm khi không tiêu thụ hết được hoàn/đổi trả● Sản phẩm sau khi trả/đổi là mất vì là đồ tươi Không sử

dụng đượcVấn đề cần giải:

● Cần giảm được tỷ lệ hoàn/đổi trả

● Giảm thiểu tối đa thiệt hại khi tôi ưu (VD: giảm doanh thu, giảm khách hàng

Giải pháp: Đưa ra được các phương án tối ưu dựa trên dữ liệu● Cần làm gì để tối ưu?

● Khi làm việc đó thì tác động lên doanh nghiệp ntn? (doanh thu, tỷ lệ đổi trả, )

Trang 35

Tổng kết

1 Hệ thống xử lý giao dịch (OLTP): ERP, CRM, …2 Hệ thống phân tích dữ liệu đa chiều (OLAP)3 Khối dữ liệu OLAP: Dimension, Fact

4 Các thao tác với khối dữ liệu1 Roll-up, Drill-down

2 Slice, dice3 Pivot (rotate)

5 Tiền xử lý dữ liệu: Trích rút (Extract), Biến đổi (Transform), Lưu (Load)1 Data Cleaning

2 Data Binding

3 Data Rotation (Pivot, Unpivot)

4 Data Integration (Merge-Join, Append-Union)5 …

Trang 36

Tài liệu tham khảo

Trang 38

OLAP

Ngày đăng: 11/05/2024, 17:13

Tài liệu cùng người dùng

Tài liệu liên quan