Báo cáo Tiểu luận THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ

34 569 1
Báo cáo Tiểu luận THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Giảng viên: PGS, TS. Hà Quang Thụy Học viên: Lê Duy Tiến Bùi Xuân Trọng Nguyễn Quốc Thắng Hà Nội, ngày 10 tháng 8 năm 2011 Thương mại điện tử cung cấp việc chia sẻ thông tin kinh doanh, duy trì mối quan hệ kinh doanh, và tiến hành giao dịch kinh doanh dựa trên các mạng truyền thông ● Một kho dữ liệu là nơi chứa dữ liệu tích hợp có tính lịch sử của một công ty với mục đích hỗ trợ việc xử lý và đưa ra quyết định. ● Từ áp lực kinh doanh, cả từ bên trong và bên ngoài, bắt buộc các dự án kho dữ liệu phải thể hiện sự hữu ích của chúng tới công việc kinh doanh một cách nhanh chóng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Báo cáo Tiểu luận THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ Giảng viên: PGS, TS Hà Quang Thụy Học viên: Lê Duy Tiến Bùi Xuân Trọng Nguyễn Quốc Thắng Hà Nội, ngày 10 tháng năm 2011 Đại học Công nghệ - ĐHQGHN GiỚI THIỆU VỀ KHO DỮ LIỆU VÀ PHƯƠNG PHÁP LUẬN THIẾT KẾ PHÂN TÍCH YÊU CẦU CHO KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ THIẾT KẾ LOGIC THIẾT KẾ VẬT LÝ VÀ KẾT TẬP KẾT LUẬN ● Thương mại điện tử cung cấp việc chia sẻ thơng tin kinh doanh, trì mối quan hệ kinh doanh, tiến hành giao dịch kinh doanh dựa mạng truyền thông ● Một kho liệu nơi chứa liệu tích hợp có tính lịch sử cơng ty với mục đích hỗ trợ việc xử lý đưa định ● Từ áp lực kinh doanh, từ bên bên ngoài, bắt buộc dự án kho liệu phải thể hữu ích chúng tới cơng việc kinh doanh cách nhanh chóng ● Mục tiêu thiết kế kho liệu tạo lược đồ tối ưu hóa để xử lý hỗ trợ việc đưa định kinh doanh Các hệ thống OLTP chủ yếu thiết kế dựa thông qua phát triển biểu đồ thực thể - liên kết (ERD) ● Lược đồ liệu dành cho kho liệu phải đủ đơn giản để nhà phân tích kinh doanh hiểu Dữ liệu kho liệu phải sạch, quán, xác Lược đồ liệu cần phải hỗ trợ xử lý truy vấn nhanh Phương pháp luận để xây dựng mơ hình đa chiều bao gồm bước sau đây: Chọn liệu chuyên đề Chọn hạt nhân bảng kiện Chọn chiều tương ứng với hạt nhân Chọn kiện ● Các yêu cầu đặt ra: ● Xử lý liệu đa phương tiện bán cấu trúc ● Dịch danh mục giấy (catalog) sang sở liệu web ● Hỗ trợ giao diện người dùng cấp sở liệu (ví dụ như: lướt web (navigation), bố cục kho hàng, siêu liên kết…) ● Lược đồ tiến hóa (ví dụ như: ghép hai catalog, chủng loại sản phẩm, sản phẩm bán hết, sản phẩm mới) ● Tiến hóa liệu (ví dụ như: thay đổi đặc tả mô tả, đặt tên, giá) ● Xử lý đặc tả liệu ● Nắm bắt liệu lướt web ngữ cảnh ● Truy vấn OLAP cho thương mại điện tử Kho liệu cần phải cung cấp cho nhà phân tích kinh doanh liệu hữu ích mà họ cần định dạng sử dụng được, yêu cầu kỹ thuật chi tiết nên bắt đầu với nhà phân tích kinh doanh Nắm bắt câu hỏi kinh doanh truy vấn OLAP Gán vào hạng mục, tạo chủ đề Thiết kế data-mart ● Truy vấn OLAP cho thương mại điện tử: ● Một truy vấn OLAP thu thập, nhà thiết kế cần số hình thức phân loại để nhóm truy vấn ● Gồm loại chính: ● Bán hàng & Phân tích thị trường, trả lại hàng, thiết kế Website phân tích chuyển hướng, dịch vụ chăm sóc khách hàng, kho / tồn kho, quảng bá/khuyến mãi, Vận chuyển ● Đề án phân loại dựa quy trình kinh doanh giúp để hình thành chủ đề data-mart cố gắng để liên kết truy vấn OLAP đến chiều (Bộ truy vấn OLAP cho TMĐT lưu file PDF riêng - TruyvanOLAP-TMDT.PDF) XÁC ĐỊNH MƠ HÌNH ĐA CHIỀU (DIMENSION MODELS) THIẾT KẾ BẢNG CHIỀU (DIMENSION TABLE) THIẾT KẾ BẢNG SỰ KIỆN (FACT TABLE) LƯỢC ĐỒ HÌNH SAO ĐẦY ĐỦ CHO E-COMMERCE Kiến trúc kho liệu kiểu BUS ● Là ma trận mà chiều cột liệu chuyên đề dòng ● Xác định chiều thỏa mãn chiều sử dụng nhiều liệu chuyên đề ● Giả định việc thiết kế kho liệu thực Oracle8 ● Bố trí bảng kiện bảng chiều hợp lý: đưa lại thuận lợi cho kỹ thuật xử lý song song đa tuyến ● Bảng kiện bảng lớn nhất, có tần suất sử dụng lớn sở liệu: cần nguồn tài nguyên dành riêng, cần có xử lý chuyên dụng ● Các bảng chiều có kích thước lớn: bố trí vào không gian bảng khác ● Các mục lưu trữ khơng gian bảng có thuộc tính đánh mục (gồm bảng Sự kiện bảng Chiều) ● Hai kỹ thuật sử dụng để tạo mục: ○ Chỉ mục đồ nhị phân (bitmap) ○ Chỉ mục liên kết (join) ● Các mục bitmap thường tạo cho thuộc tính có số lượng thành tố nhỏ thực nhanh với phép toán AND, OR NOT ● Chỉ mục liên kết tạo dựa liên kết hai bảng gọi mục kết nối (join index) ● Chỉ mục liên kết tạo từ nhiều hai bảng Trong trường hợp này, mục liên kết gọi Chỉ mục kết nối đa bảng (Multi-table joins Index) ● Các thuộc tính đề cập truy vấn từ bảng chiều phải đánh mục ● Quy luật việc chọn loại mục ● Dựa vào giá trị tiềm thuộc tính: ● Nếu giá trị tiềm nhỏ ngưỡng (thường 1%) tổng số ghi bảng mục Bitmap sử dụng ● Nếu giá trị liệu tiềm lớn ngưỡng (1%) mục B (B - Tree) sử dụng Trong đó, Tổng số thành tố tổng số giá trị (unique) thuộc tính ● Có ba vấn đề MVs chọn lọc tập MVs tối ưu, trì MVs cách tự động tăng dần, truy vấn tối ưu sử dụng MVs ● Thương mại chủ yếu ứng dụng kết tập cách thủ cơng trì chúng dạng liệu đặc tả xử lý theo chế độ (batch), bắt đầu thực kỹ thuật khung nhìn đơn giản ● Kết tập khung nhìn thực tính tốn trước liệu tổng hợp từ bảng gốc xác định ● Microsoft OLAP Server tạo kết tập nhằm gia tăng hiệu suất ● Oracle hỗ trợ khung nhìn kết nối, khung nhìn kết tập, khung nhìn truy vấn ● Các đặc điểm kết tập: ● Kết tập hình xây dựng xuất phát từ lược đồ vật lý hình gốc ● Kết tập thực tính tốn trước liệu truy vấn thường xuyên, đặc biệt nhằm đưa câu trả lời nhanh ● Lợi ích kết tập thường kèm với chi phí bổ sung nhớ lưu trữ chi phí bảo trì ● Các lược đồ kết tập cần đánh giá lại định kỳ theo thay đổi của yêu cầu kinh doanh ● Mục tiêu thiết kế kết tập: ● Xác định chiều cho kết tập ● Xác định các thuộc tính ứng cử để đưa vào truy vấn (queries), phân cấp (Hierachy) ● Phương pháp: Ví dụ Lược đồ kết tập bán hàng hình ● Dựa sở câu truy vấn OLAP thứ tự ưu tiên chúng ● Sự phân bổ thống kê liệu ● Ví dụ việc sử dụng phân bổ liệu thống kê chiều để tính tốn giảm bớt việc xử lý số lượng dòng: Giả định 1% sản phẩm bán ngày 0,01% khách hàng với 10% chế độ vận chuyển 10% khuyến mại Sản phẩm Phương thức vận chuyển Khuyến mại Ngày Khách hàng 5000 * 0,01 = 50 40 * 0,1 = 200 * 0,1 = 20 365 2000000 * 0,0001 = 200 Số lượng dòng bảng kiện năm = 50*4*20*365*200=2,92*108 dịng ● Phân tích bán hàng với nhãn hiệu hàng bán, tháng tài chính, thành phố, phương thức vận chuyển hình thức khuyến mại Số lượng dòng bảng kết tập: Số lượng dòng giảm tỷ lệ: sản phẩm/nhãn mác, Ngày/Tháng, Khách hàng/Thành phố_khách hàng Nhãn mác sản phẩm 500 Tỷ lệ 1/10 Tháng 12 Tỷ lệ 1/30 100000 Tỷ lệ 1/20 Thành phố khách hàng Số lượng dòng bảng kết tập năm = = 50*4*20**365*200/(10*30*20) = 4.87*104 dịng Ví dụ nói làm giảm số dòng cần xử lý đến 6000 lần cho yếu tố ● Truy vấn tổng hợp liệu: sản phẩm/nhãn mác, Ngày/Tháng, Khách hàng/Thành phố_khách hàng ● Truy vấn dựa vào kết tập nói sử dụng để phân tích dọc theo chiều: ○ Nhãn mác: tổng hợp nhóm phụ Nhãn mác theo Tháng, tổng hợp nhóm Nhãn mác theo Tháng, tổng hợp Phòng quản lý Nhãn mác theo Tháng ○ Chiều Tháng: tổng hợp Nhãn mác theo Quý tổng hợp Nhãn mác theo Năm ● Kết tập kết hợp với Chỉ mục kết nối đa bảng (Multi-table joins Index) để xây dựng phân cấp (Hierachy) Từ phân tích, tổng hợp liệu mức Cây ● Các vấn đề nghiên cứu trình bày: ● Phân tích u cầu ● Thiết kế logic ● Thiết kế vật lý kết tập Cụ thể: ● Tập câu truy vấn OLAP thông dụng, ● Kiến trúc kho liệu dạng “bus”, ● Các cấu trúc bảng chiều, ● Một lược đồ hình logic, lược đồ hình vật lý, ● Một lược đồ hình kết tập cho mơi trường TMĐT Đây mơ hình đa chiều chi tiết cho TMĐT Mặc dù chưa áp dụng cho tất doanh nghiệp TMĐT, khung, mơ hình tổng qt điều chỉnh, làm mịn để áp dụng cho lĩnh vực kinh doanh TMĐT cụ thể ● Những lợi ích kho liệu TMĐT: ● Tạo lợi cạnh tranh cho doanh nghiệp sử dụng hệ thống hỗ trợ tra định quản lý tri thức, trí tuệ doanh nghiệp ● Các kho liệu TMĐT - hệ thống hỗ trợ định thu thập, nắm bắt liệu từ nhiều khía cạnh, góc độ TMĐT, bán hàng điện tử ● Những khó khăn thiết kế kho liệu TMĐT: ● Nắm bắt, lưu liệu nào?, đâu? cách nào? Chẳng hạn, nắm bắt địa e-mail, địa IP khách hàng ● Có nên sử dụng lược đồ hình Kimball đề xuất cách độc lập hay kết hợp đặt lược đồ mạnh ● [1] Tập giảng môn Kho liệu khai phá liệu ● [2] Yeol Song and Kelly LeVan-Shultz (College of Information Science and Technology, Drexel University Philadelphia, PA 19104) - Data Warehouse Design for E-Commerce Environment ... GiỚI THIỆU VỀ KHO DỮ LIỆU VÀ PHƯƠNG PHÁP LUẬN THIẾT KẾ PHÂN TÍCH YÊU CẦU CHO KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ THIẾT KẾ LOGIC THIẾT KẾ VẬT LÝ VÀ KẾT TẬP KẾT LUẬN ● Thương mại điện tử cung cấp việc... đặt tên, giá) ● Xử lý đặc tả liệu ● Nắm bắt liệu lướt web ngữ cảnh ● Truy vấn OLAP cho thương mại điện tử Kho liệu cần phải cung cấp cho nhà phân tích kinh doanh liệu hữu ích mà họ cần định dạng... đồ liệu dành cho kho liệu phải đủ đơn giản để nhà phân tích kinh doanh hiểu Dữ liệu kho liệu phải sạch, quán, xác Lược đồ liệu cần phải hỗ trợ xử lý truy vấn nhanh Phương pháp luận để xây dựng

Ngày đăng: 12/08/2014, 11:00

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan