NGHIÊN CỨU QUY TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU

24 1.2K 2
NGHIÊN CỨU QUY TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - QUẢN ĐÌNH THĂNG NGHIÊN CỨU QUY TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI -2013 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS VŨ VĂN THỎA Phản biện 1: ………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông MỞ ĐẦU Lý chọn đề tài Tại Việt Nam, tập đoàn kinh tế có nhiều liệu cần khai thác bước xây dựng hoàn thiện hệ thống liệu để phục vụ công tác khai thác nguồn tài nguyên Trong hệ thống lưu trữ liệu tập trung lớn (Data warehouse), tạm gọi kho liệu bao gồm nhiều thành phần, thành phần có chức riêng thành phần chịu trách nhiệm cho việc trích xuất, chuyển đổi tải liệu (Extract, Transform, Load hay gọi tắt ETL) đóng vai trò then chốt Cụ thể hơn, hệ thống ETL đảm nhiệm việc trích rút liệu từ nhiều nguồn khác nhau, làm sạch, tùy chỉnh theo khuôn dạng định tải liệu vào kho liệu Việc xây dựng ETL chiếm phần lớn thời gian xây dựng hệ thống kho liệu Vì vậy, việc đánh giá vai trò đầu tư hướng cho việc xây dựng ETL giúp cho việc xây dựng kho liệu tốt Với lý nêu trên, luận văn chọn đề tài nghiên cứu thiết kế, cài đặt phát triển trinh ETL xây dựng kho liệu Đồng thời, luận văn xây dựng ứng dụng ETL phục vụ cho hệ thống liệu doanh nghiệp viễn thông Mục đích đề tài: Nghiên cứu mô hình trình ETL, phương pháp xây dựng chương trình ETL áp dụng để xây dựng module ETL 2.Đối tượng phạm vi nghiên cứu:Lý thuyết xây dựng hệ thống ETL, tìm hiểu số hệ thống ETL giới, xây dựng mô hình module ETL Phương pháp nghiên cứu: Tìm hiểu tài liệu xây dựng ETL kho liệu, tài liệu hệ thống ETL giới Kết cấu luận văn Luận văn gồm chương Chương 1: Tổng quan ETL kho liệu Trình bày tóm lượt số kiến thức kho liệu vị trí vai trò ETL kho liệu Chương 2: Kiến trúc thành phần ETL Kiến trúc hệ thống ETL, cách thức hoạt động xây dựng hệ thống ETL Một số khó khăn gặp phải xây dựng hệ thống Chương 3: Xây dựng module ETL Tìm hiểu số hệ thống ETL giới, xây dựng module ETL Áp dụng cho doanh nghiệp viễn thông 3 CHƯƠNG TỔNG QUAN VỀ ETL TRONG KHO DỮ LIỆU 1.1 Kho liệu 1.1.1 Khái niệm kho liệu Định nghĩa kho liệu W.H.Inmon [3] đưa : Kho liệu (Data Warehouse) tập hợp liệu tích hợp theo hướng chủ đề từ nhiều nguồn khác nhau, tương đối ổn định khoảng thời gian, cập nhật định kỳ nhằm hỗ trợ trình tạo định 1.1.2 Các đặc trưng kho liệu - Hướng chủ đề - Tính tích hợp - Tính bền vững - Dữ liệu theo thời gian - Dữ liệu tổng hợp 1.1.3 Mục tiêu kho liệu Mục tiêu kho liệu nhằm đáp ứng tiêu chuẩn sau: - Truy cập dễ dàng - Thông tin quán - Bảo mật - Hỗ trợ định 1.1.4 Kiến trúc kho liệu Mô hình kiến trúc hệ thống kho liệu gồm có ba thành phần: Dữ liệu nguồn, vùng liệu trung gian kho liệu Hình 1.1 Kiến trúc kho liệu 1.1.3.1 Kho liệu chủ đề Kho liệu chủ đề (Datamart - DM) CSDL có đặc điểm giống với kho liệu với quy mô nhỏ lưu trữ liệu lĩnh vực, chủ đề Các Datamart hình thành từ tập liệu kho liệu xây dựng độc lập sau xây dựng xong Datamart kết nối, tích hợp lại với tạo thành kho liệu Có thể chia Datamart làm loại: Datamart độc lập Datamart phụ thuộc 1.1.3.2 Siêu liệu Trong việc tổ chức kho liệu, người dùng đầu cuối mà nhân viên quản trị cần truy nhập toàn thông tin bảng gồm đối tượng thuộc tính Do họ muốn biết số vấn đề: • Có thể tìm thấy liệu đâu? • Tồn loại thông tin, liệu nào? • Dữ liệu thuộc loại nào, có dạng sao? • Trong sở liệu khác liệu có liên quan với nào? • Dữ liệu lấy từ đâu thuộc quản lý? Vì hình thành dạng sở liệu khác gọi siêu liệu nhằm mô tả cấu trúc nội dung sở liệu 1.1.3.3 Cơ sở liệu kho liệu Cơ sở liệu kho liệu hầu hết cài đặt dựa công nghệ Hệ thống quản trị sở liệu quan hệ (RDBMS) 5 1.1.4 Xây dựng CSDL cho kho liệu Những dự án dùng phương pháp kho liệu buộc phải lựa chọn mô hình liệu giản đồ liệu liên quan trực quan cho việc phân tích không phong phú thể Khi phương pháp kho liệu tiếp tục phát triển cách tiếp cận cho việc thiết kế giản đồ liệu phù hợp với việc phân tích hình thành điều cốt yếu dẫn đến thành công phương pháp kho liệu Có loại thiết kế giản đồ sau: - Giản đồ hình - Giản đồ hình tuyết rơi - Giản đồ kết hợp 1.2 ETL vai trò ETL kho liệu 1.2.1 Khái niệm ETL Hệ thống ETL (Extract-Transform-Load) tảng kho liệu Một hệ thống ETL thiết kế cho việc trích xuất liệu từ hệ thống nguồn, chuyển đổi liệu đảm bảo nguồn độc lập tích hợp, cuối liệu sau chuyển đổi đưa vào kho liệu phục vụ mục đích phát triển ứng dụng hay phục vụ mục đích kho liệu 1.2.2 Vị trí vai trò ETL kho liệu Hệ thống ETL phải đóng vai trò quan trọng việc cung cấp cho ứng dụng người sử dụng khuôn dạng liệu phù hợp Quá trình ETL hệ thống nguồn đến liệu đưa vào bảng chiều, bảng kiện tốn phần lớn thời gian việc xây dựng kho liệu 6 CHƯƠNG KIẾN TRÚC VÀ CÁC THÀNH PHẦN CỦA ETL 2.1 Kiến trúc trình ETL kho liệu 2.1.1 Các thành phần ETL Hình 2.1 Các thành phần ETL Trích xuất: Dữ liệu nguồn từ nhiều nguồn khác có nhiều cấu trúc liệu khác nhiều loại sở liệu, từ tệp liệu excel hay từ tệp liệu thô Vì nhiệm vụ bước trích xuất liệu từ hệ thống nguồn để xử lý Chuyển đổi : Đây trình phức tạp dùng để chuyển đổi liệu nguồn mô hình khác phù hợp chuyển vào sở liệu đích Ở bước phải sử dụng phép chuyển đổi:  Chọn cột liệu phù hợp (chỉ chọn cột cần thiết )  Chuyển đổi liệu  Tạo trường liệu cần thiết  Lọc liệu theo chủ đề  Sắp xếp liệu theo tiêu chí lưu chữ  Thực phép tổng hợp liệu từ liệu nguồn  Tạo giá trị  Tìm kiếm hay so sánh liệu 7 Có thể nói bước quan trọng tiến trình ETL , thực hầu hết nhiệm vụ tiến trình ETL Tải liệu: Đây trình đẩy liệu sau chuyển đổi vào kho liệu Dữ liệu sau chuyển đổi tải vào kho liệu 2.1.2 Yêu cầu với ETL Danh sách sau liệt kê hoạt động tác vụ tạo nên quy trình ETL Danh sách không hoàn toàn với tất kho liệu, cho ta nhìn cần thực để hoàn thành trình ETL ETL Cho bảng kiện ETL cho bảng chiều Viết thủ tục cho tải tất liệu Tổ chức vùng xử lý liệu công cụ kiểm thử Kế hoạch cho bảng tổng hợp Xác định liệu chuyển đổi luật làm Thiết lập luật trích xuất liệu Chuẩn bị cho việc ánh xạ thành phần liệu đích với liệu nguồn Xác định nguồn liệu, liệu Xác định liệu đích cần thiết kho liệu Hình2.1 Các bước quy trình ETL - Kết hợp nhiều nguồn liệu có cấu trúc vào ghi sở liệu đích kho liệu - Chia nhỏ liệu nguồn liệu có cấu trúc vào số ghi sở liệu đích - Đọc liệu từ danh mục liệu từ điển hệ thống nguồn - Đọc liệu từ nhiều file có cấu trúc bao gồm tệp phẳng, tệp mục (VASM), hệ thống sở liệu cũ - Tải chi tiết cho việc tập hợp bảng kiện - Tổng hợp tóm tắt cho bảng kiện - Chuyển đổi liệu từ định dạng nguồn thành định dạng khác tảng đích - Lấy giá trị mục tiêu từ trường đầu vào 8 - Thay đổi giá trị khó hiểu giá trị có nghĩa cho người dùng 2.1.3 Các yếu tố quan trọng ETL - Sự phức tạp chức trích xuất chuyển đổi có nguyên nhân từ đa dạng hệ thống nguồn - Chức tải liệu làm kho liêu tải liệu phải làm việc với lượng lớn liệu cần đảm bảo thời gian chạy 2.1.4 Các khó khăn gặp phải xây dựng hệ thống ETL - Trích xuất liệu phụ thuộc vào độ phức tạp hệ thống nguồn - Các chức chuyển đổi liệu thực hàng loạt phương thức chuyển đổi khác - Với chức tải liệu Kích thước liệu ban đầu tải vào vùng đệm lớn cập nhật từ nhiều nguồn khác với nhiều tiến trình chạy 2.2 Vùng liệu trung gian Trong kiến trúc kho liệu, thường có vùng chứa liệu gọi vùng trung gian giành cho việc tiền xử lý liệu Dữ liệu chuyển từ nguồn vào vùng xử lí mà không qua (hoặc ít) xử lí 2.3 Trích xuất liệu Trích xuất liệu hiệu chìa khóa cho thành công việc xây dựng kho liệu Trong trình xây dựng hệ thống trích xuất ta cần quan tâm đến vấn đề quan trọng xây dựng chiến lược trích xuất cho kho liệu Đây vấn đề quan trọng trích xuất liệu 2.3.1 Xác định nguồn liệu Xác định nguồn liệu bao gồm việc xác định tất nguồn liệu thích hợp, liệu cần thiết để đưa vào kho liệu 9 Hình 2.3 Các bước xác định nguồn liệu 2.3.2 Các kỹ thuật trích xuất liệu 2.3.2.1 Các loại kỹ thuật trích xuất - Nắm bắt liệu tĩnh - Nắm bắt liệu tăng thêm 2.3.2.2 Các kỹ thuật trích xuất liệu thời gian thực Hình 2.5 Trích xuất liệu theo thời gian thực 10 - Nắm bắt liệu qua ghi giao dịch - Nắm bắt thông qua trigger sở liệu - Nắm bắt ứng dụng nguồn 2.3.2.3 Các kỹ thuật trích xuất liệu chậm Nắm bắt dựa ngày tháng nhãn thời gian Mỗi ghi tạo cập nhật có thẻ đánh dấu nhãn biểu diễn ngày thời gian Nhãn thời gian cung cấp sở cho việc chọn ghi cho việc trích xuất Trích xuất cách so sánh tập tin Nếu kỹ thuật không khả thi cho tập tin nguồn cụ thể, kỹ thuật xem biện pháp cuối Kỹ thuật gọi với tên khác kỹ thuật so sánh khác ảnh chụp so sánh ảnh chụp nguồn liệu 2.3.2.4 Đánh giá kỹ thuật trích xuất 2.4 Làm chuyển đổi liệu 2.4.1 Các nhiệm vụ chuyển đổi liệu Trích chọn Nhiệm vụ nằm phần đầu toàn trình chuyển đổi Có thể toàn số ghi từ liệu nguồn Tách/Nhập Nhiệm vụ bao gồm loại thao tác liệu để thực việc chọn phần liệu nguồn Chuyển đổi chuẩn hóa liệu trích xuất từ nguồn khác tạo trường mà người dùng thể sử dụng hiểu Tổng hợp.Khi việc lưu trữ liệu tổng hợp yêu cầu thay lưu trữ liệu mức thấp Làm giàu liệu: Nhiệm vụ xếp đơn giản hóa trường riêng biết để làm cho chúng trở nên hữu dụng cho kho liệu 2.4.2 Các kiểu chuyển đổi liệu - Cơ cấu lại khóa - Xóa ghi trùng - Sửa lại định dạng - Giải mã trường - Giá trị tính toán giá trị thứ phát - Chia nhỏ trường đơn - Gộp thông tin 11 - Chuyển đổi Bộ ký tự - Chuyển đổi đơn vị đo lường - Chuyển đổi thời gian - Tổng hợp 2.4.3 Tích hợp hợp liệu 2.4.3.1 Xác định thực thể chuyển đổi liệu Thực thể xuất nhiều hệ thống khác nhau, làm để tổng hơp nguồn mà không sợ bị trùng lặp hay bị thiếu - Bước đầu tiên, tất gi, không phân biệt có trùng hay không, định danh - Bước thứ hai hợp ghi trùng cách định kỳ thông qua giải thuật tự động kiểm tra thủ công 2.4.3.2 Tích hợp nhiều nguồn liệu Vấn đề kết việc phần tử liệu có nhiều nguồn liệu Một giải pháp đơn giản đặt ưu tiên cho nguồn chọn nguồn có độ ưu tiên cao 2.4.4 Chuyển đổi thuộc tính chiều Trong phần xem xét loại thay đổi với thuộc tính chiều, phương pháp để xử lý loại thay đổi liệu chiều - Thay đổi loại sửa lỗi Các loại áp dụng cho kho liệu không cần giữ tính lịch sử - Loại thay đổi giữ tính lịch sử kho liệu - Loại thay đổi thay đổi dự kiến nơi người dùng cần có khả phân tích số liệu cách – có thay đổi, không thay đổi 2.5 Tải liệu 2.5.1 Các loại tải liệu Tải lần – tập hợp tất bảng kho liệu cho lần Tải bổ sung – áp dụng thay đổi cần thiết cách định kì Làm toàn - xóa hoàn toàn nội dung nhiều bảng tải lại với liệu 12 2.5.1 Kỹ thuật quy trình tải liệu Load.Nếu bảng mục tiêu tồn liệu tồn bảng, trình tải xóa liệu có tải liệu từ tập tin đến Nếu bảng rỗng trước tải, tiến trình tải đơn giản tải liệu từ file đến Append Tải append giống mở rộng Load Nếu liệu tồn bảng, tiến trình append thêm vô điều kiện liệu vào, giữ nguyên liệu có bảng mục tiêu Khi ghi trùng với ghi có, ta xác định cách xử lý liệu đẩy trùng Các ghi đầu vào cho phép thêm vào liệu trùng Trong trường hợp khác, ghi trùng đầu bị loại bỏ trình append Destructive Merge.Trong mô hình này,ta tải liệu đầu vào vào bảng liệu đích Nếu khóa ghi đầu với giống khóa ghi có, cập nhật ghi đích tương ứng Nếu ghi đầu vào ghi không trùng khóa với ghi có, ghi thêm vào bảng liệu đích Constructive Merge.Chế độ khác so với Destructive Merge Nếu khóa ghi trùng với khóa ghi có, để lại ghi này, thêm ghi đánh dấu ghi thêm ghi thay cho ghi cũ Cách áp dụng cho loại tải kho liệu *)Quy trình tải cho loại Tải ban đầu: Với lần chạy tải ban đầu ta sử dụng kiểu tải Load, sau tiếp tục với chế độ Append Tải gia tăng.Các ứng dụng liên tục thay đổi theo hệ thống nguồn Vì vậy, ta cần phương pháp để nắm bắt chu kỳ thay đổi Tải làm tươi toàn Loại ứng dụng liên quan đến định kỳ ghi lại toàn kho liệu Đôi khi, ta cần làm lại số bảng cụ thể Làm tươi phần bảng chiều gắn với bảng kiện 2.5.2 Làm tươi liệu cập nhât liệu Sau tải ban đầu, ta trì kho liệu cập nhật với phương thức:  Cập nhật - ứng dụng cho liệu thay đổi hệ thống nguồn  Làm tươi – tải lại toàn theo chu kỳ 2.5.3 Phương pháp tải với bảng chiều Trong kho liệu, ta sử dụng khóa sinh hệ thống Bản ghi hệ thống nguồn có khóa chúng Vì vậy, trước liệu nguồn đưa vào bảng chiều, cho dù tải 13 ban đầu hay tải liệu thay đổi, khóa sản phẩm cần chuyển sang khóa hệ thống kho liệu Ta cần coi chuyển đổi khóa phần chức truyển đổi thực cách riêng biệt trước thực chức tải 2.5.4 Tải lịch sử tải gia tăng cho bảng kiện Khóa bảng kiện tải kết hợp khóa bảng chiều Do nguyên nhân này, chi cho chiều liệu tải trước tiên Sau đó, trước tải liệu cho bảng kiện, ta phải tạo khóa kết nối cho bảng kiện tới khóa tương ứng bảng chiều 14 CHƯƠNG XÂY DỰNG ỨNG DỤNG ETL CHO DOANH NGHIỆP VIỄN THÔNG 3.1 Yêu cầu toán 3.1.1 Doanh nghiệp Viễn Thông Mô hình quản lý doanh nghiệp viễn thông cụ thể với tập đoàn VNPT 3.1.1 Mục tiêu toán Một số yêu cầu ứng dụng: - Đảm bảo tính đắn vè mặt số liệu so với hệ thống liệu nguồn, tuân thủ luật việc trích rút liệu - Ứng dụng phải đảm bảo tính mềm dẻo linh động nguồn liệu khác - Cho phép theo dõi cảnh báo thay đổi hệ thống liệu nguồn vấn đề xảy trình khai thác 15 3.1.2 Một số hệ thống hỗ trợ ETL giới sử dụng 3.1.2.1 ETL SQL Server Integration Services Microsoft xây dựng SQL Server Integration Services với mục đích cung cấp tảng để xây dựng giải pháp tích hợp liệu với hiệu suất cao bao gồm việc kiết xuất , chuyển đổi tải liệu (ETL) SSIS cho phép ta tạo gói tạo thành nhiệm vụ thực việc chuyển liệu hệ thống 3.1.2.2 ELT với Oracle Oracle có sản phẩm hỗ trợ ETL - ODI (Oracle Data Integator), - OWB(Oracle Warehouse Builder ), - ODIEE(Oracle Business Intelligence Enterprise Edition), - OWBEE(bản nâng cấp OWB) Kiến trúc ODI Các thành phần kiến trúc ODI sau:  Repository: Đây nơi lưu giữ tất thông tin xử lý ODI,cụ thể là, chi tiết kết nối, siêu liệu, quy tắc chuyển đổi kịch bản,tạo mã, ghi thực hiện, số liệu thống kê  Studio: Studio giao diện đồ họa ODI Nó sử dụng quản trị viên, nhà phát triển, nhà khai thác  Agents: Chứa Agent  Console: Console công cụ web cho phép người dùng duyệt kho lưu trữ ODI, nhiên công cụ sử dụng để phát triển biến đổi  The Oracle Enterprise Manager plugin cho ODI tích hợp giám sát trực tiếp vào OEM để quản trị viên củng cố giám sát tất sản phẩm Oracle họ giao diện đồ họa 3.1.2.3 Đánh giá tính phù hợp công cụ ETL với việc xây dựng kho liệu tập đoàn VNPT 3.1.3 Mục tiêu toán 3.1.3.1 Mục tiêu Mục tiêu toán đặt luận văn xây dựng module ETL phục vụ cho việc trích xuất làm sach tải liệu từ nhiều nguồn khác vào kho liệu 16 3.1.3.2 Phạm vi nguồn liệu Dữ liệu sử dụng từ hệ thống phát triển thuê bao quản lý mạng ngoại vi đơn vị thành viên VNPT Dữ liêu bao gồm : liệu phát triển dịch vụ, liệu quản lý mạng ngoại vi, liệu cắt mở hủy dịch vụ 3.2 Mô hình hóa toán 3.2.1 Kiến trúc ứng dụng KHU VỰC XỬ LÝ GHI FILE Dữ liệu ngoại vi FoxPro FTP Đ ỌC Dữ liệu trích xuất Phát triển dịch vụ (Oracle) Đọc Module trích Ghi xuất liệu Phát triển dịch vu (SQL) Làm Đọc Kho liệu Du lieu cắt mở dịch vụ (Oracle) chứa liệu làm Hình 3.8 Kiến trúc ứng dụng ETL 3.2.2 Một số công nghệ sử dụng việc xây dựng toán: Kết nối nguồn liệu - Kết nối liệu Foxpro từ hệ thống nguồn qua FTP đẩy file liệu lên máy chủ - Kết nối với liệu Oracle qua kết nối sở liệu (ODBC, OCI) - Kết nối với liệu SQL Server thông qua ODBC Trích xuất liệu 17 - Phương pháp: Do ghi liệu gắn liền với thời gian ta sử dụng kiểu trích xuất định kỳ - Nắm bắt thay đổi liệu: Ở ta sử dụng phương pháp nắm bắt liệu chậm sử dụng ngày tháng nhãn thời gian Tải liệu - Sử dụng SQL Loader để tải liệu vào sở liệu Oracle - Sử dụng DBLink Oracle làm sở tải liệu từ liệu Oracle SQL Server khác Làm liệu Công đoạn làm liệu làm vùng đệm chủ yếu sử dụng câu lệnh SQL hàm xử lý Oracle định dạng lại ngày tháng, truy vấn tìm ghi trùng 3.2.3 Mô hình hóa module với UML Trích xuất Tải Data Staging Làm Nguồn liệu Chuyển đổi Kho liệu Tải Cơ sở liệu tác nghiệp Nguồn mở rộng Dữ liệu chuyên đề Hình 3.10 Sơ đồ trường hợp sử dụng module ETL 18 D: Data Source E:Extractor DB: Data staging area C: Cleaner T: Transformer L:Loader DB: Data Warehouse/ Data Mart 1: Set connection() 2: Extract data() Load Data 3: Install data() 4: Read data() 5: Clean data() 6: Trasform data() 7: Get data() 8: Load data() Hình 3.11 Sơ đồ hệ thống ETL 3.3 Triển khai cài đặt 3.3.1 Xây dựng ứng dụng  Công cụ phân tích thiết kế: Microsoft Visio 10  Môi trường lập trình: Visual Studio 10  Ngôn ngữ lập trình: Visual C# 3.3.2 Dữ liệu đích: Dữ liệu chuyên đề phát triển dịch vụ 19 Hình 3.12 Lược đồ quan hệ kho liệu chuyên đề phát triển dịch vụ CTR_CONTRACT : Bảng liệu lập hợp đồng đăng ký dịch vụ CTR_CUSTOMER : Bảng liệu khác hàng CTR_SUBSCRIBER : Bảng liệu dịch vụ đăng ký khác hàng COM_PROVINCE : Bảng liệu danh bạ theo tỉnh thành Dữ liệu chuyên đề mạng ngoai vi 20 Hình 3.13 Lược đồ quan hệ kho liệu chuyên đề ngoại vi Trong bảng GCN_EXCHANGE : Tổng đài GCN_CABINETS : Các tủ hộp cáp GCN_CABLES : Các dây cáp GCN_JUMPER : Tình trạng sử dụng cáp tủ cáp 3.3.3 Trích xuất tải liệu : - Sử dụng tải oracle loader để tải liệu ban đầu, liệu lớn liệu trích xuất từ liệu foxpro - Các liệu từ foxpro export dạng file text trước tải vào bảng trung gian oracle loader Sau file liệu ngoại vi 3.3.4 Làm liệu : Trong phần làm liệu thực vùng đệm kho liệu tận dụng hàm Oracle việc xủ lý liệu - Chuyển đổi Bộ ký tự - Chuyển đổi thời gian : - Thêm sửa trường liệu - Xóa ghi trùng 21 3.3.5 Cấu hình ứng dụng Để đảm bảo cho việc linh động việc thêm, sửa hay loại bỏ nguồn liệu, thông tin kết nối thông tin ánh xạ liệu nguồn đích lưu dạng file XML 3.4 Phân tích đánh giá kết thử nghiệm Thử nghiệm liệu đầu vào liệu quản lý mạng ngoại vi liệu phát triển thuê bao số VNPT Tỉnh Thành 22 KẾT LUẬN Các kết đạt luận văn: Luận văn với đề tài “NGHIÊN CỨU QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU” đạt kết sau:  Phân tích công nghệ, cấu trúc, kiến trúc, công cụ để xây dựng công cụ ETL phục vụ cho việc xây dựng kho liệu Tìm hiểu phương pháp, kỹ thuật trích xuất, chuyển đổi, tải áp dụng với loại liệu, với trường hợp cụ thể để mang lại hiệu cao cho hệ thống ETL  Thực xây dựng kho liệu thử nghiệm từ hệ thống nguồn liệu phát triển dịch vụ quản lý mạng ngoại vi VNPT  Kết thu hệ thống cho phép trích xuất liệu từ nguồn liệu với khuôn dạng khác Oracle, FoxPro, SQL Server tải vào kho liệu qua trình làm Kết cho thấy áp dụng hệ thống cho hệ thống thực tế trình triển khai Qua đó, khẳng định xây dựng hệ thống ETL cho việc xây dựng hệ thống kho liệu doanh nghiệp cần thiết doanh nghiệp Việc hiểu tầm quan trọng phương pháp xây dựng hệ thống ETL đóng vai trò định việc xây dựng cho hệ thống kho liệu nói riêng hệ thống dựa tảng kho liệu nói chung Hướng nghiên cứu tiếp theo: Luận văn dừng lại việc nghiên cứu mô hình cách xây dựng module ETL kiểm thử số liệu định Nếu có điều kiện nghiên cứu tiếp tiếp cận với lượng lớn CSDL tác giả luận văn sâu vào tính toán tối ưu hóa vận hành hệ thống ETL để đạt kết tốt nhanh 23 TÀI LIỆU THAM KHẢO [1] Arktos : towards the modeling, design, control and execution of ETL processes, Panos Vassiliadis*, Zografoula Vagena, Spiros Skiadopoulos, Nikos Karayannidis, Timos Sellis, 2001 [2] A UML Based Approach for Modeling ETL Processes in Data Warehouses, Juan Trujillo and Sergio Luj´n-Moraa, Dept de Lenguajes y Sistemas Inform´ticosa Universidad de Alicante (Spain) [3] Building the Data Warehouse, W.H.Inmon, Copyright © 2005 John Wiley & Sons, Inc [4] Conceptual Modeling for ETL Processes, Panos Vassiliadis, Alkis Simitsis, Spiros Skiadopoulos [5] Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals Paulraj Ponniah, Copyright © 2001 John Wiley & Sons, Inc [6] Data Cleaning: Problems and Current Approaches, Erhard Rahm *, Hong Hai Do, University of Leipzig, Germany [7] The Data Warehouse ETL Toolkit Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data, Ralph Kimball, Joe Caserta [8] Hierarchical Approach to Data Extraction using UML 2.0, Payal Pahwa1, Geetika Chaudhary, Khyati Jain, Neha Sharma and Ruchira Gupta [...]... định xây dựng hệ thống ETL cho việc xây dựng hệ thống kho dữ liệu của doanh nghiệp là hết sức cần thiết đối với các doanh nghiệp Việc hiểu được tầm quan trọng và phương pháp xây dựng hệ thống ETL đóng vai trò quy t định trong việc xây dựng cho hệ thống kho dữ liệu nói riêng và các hệ thống dựa trên nền tảng kho dữ liệu nói chung Hướng nghiên cứu tiếp theo: Luận văn mới chỉ dừng lại ở việc nghiên cứu. .. tài “NGHIÊN CỨU QUÁ TRÌNH ETL TRONG XÂY DỰNG KHO DỮ LIỆU” đã đạt được các kết quả chính như sau:  Phân tích công nghệ, cấu trúc, kiến trúc, và công cụ để xây dựng công cụ ETL phục vụ cho việc xây dựng kho dữ liệu Tìm hiểu các phương pháp, kỹ thuật trích xuất, chuyển đổi, tải áp dụng với từng loại dữ liệu, với các trường hợp cụ thể để mang lại hiệu quả cao nhất cho hệ thống ETL  Thực hiện xây dựng kho. .. với dữ liệu mới 12 2.5.1 Kỹ thuật và quy trình tải dữ liệu Load.Nếu bảng mục tiêu đã tồn tại và dữ liệu đã tồn tại trong bảng, quá trình tải sẽ xóa dữ liệu đã có và tải dữ liệu từ tập tin đến Nếu bảng đã rỗng trước khi tải, tiến trình tải đơn giản tải dữ liệu từ file đến Append Tải append giống như một mở rộng của Load Nếu dữ liệu đã tồn tại trong bảng, tiến trình append sẽ thêm vô điều kiện các dữ liệu. .. Đọc Kho dữ liệu Du lieu cắt mở dịch vụ (Oracle) chứa dữ liệu đã làm sạch Hình 3.8 Kiến trúc ứng dụng ETL 3.2.2 Một số công nghệ sử dụng trong việc xây dựng bài toán: Kết nối nguồn dữ liệu - Kết nối dữ liệu Foxpro từ hệ thống nguồn qua FTP đẩy các file dữ liệu lên máy chủ - Kết nối với dữ liệu Oracle qua kết nối cơ sở dữ liệu (ODBC, OCI) - Kết nối với dữ liệu SQL Server thông qua ODBC Trích xuất dữ liệu. .. ghi trong dữ liệu gắn liền với thời gian như vậy ta sử dụng kiểu trích xuất định kỳ - Nắm bắt thay đổi dữ liệu: Ở đây ta sử dụng phương pháp nắm bắt dữ liệu chậm sử dụng ngày tháng và nhãn thời gian Tải dữ liệu - Sử dụng SQL Loader để tải dữ liệu vào cơ sở dữ liệu Oracle - Sử dụng DBLink của Oracle làm cơ sở tải dữ liệu từ các dữ liệu Oracle và SQL Server khác Làm sạch dữ liệu Công đoạn làm sạch dữ liệu. .. dữ liệu ban đầu, các dữ liệu lớn và dữ liệu được trích xuất từ dữ liệu foxpro - Các dữ liệu từ foxpro được export ra dạng file text trước khi được tải vào các bảng trung gian bằng oracle loader Sau đây là một file về dữ liệu ngoại vi 3.3.4 Làm sạch dữ liệu : Trong phần làm sạch dữ liệu được thực hiện tại vùng đệm của kho dữ liệu tận dụng bộ các hàm của Oracle trong việc xủ lý dữ liệu - Chuyển đổi Bộ... Oracle của họ trong một giao diện đồ họa duy nhất 3.1.2.3 Đánh giá tính phù hợp của các công cụ ETL với việc xây dựng kho dữ liệu tại tập đoàn VNPT 3.1.3 Mục tiêu của bài toán 3.1.3.1 Mục tiêu Mục tiêu của bài toán đặt ra trong luận văn này là xây dựng một module ETL phục vụ cho việc trích xuất làm sach và tải dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu 16 3.1.3.2 Phạm vi nguồn dữ liệu Dữ liệu được... của hệ thống ETL 3.3 Triển khai cài đặt 3.3.1 Xây dựng ứng dụng  Công cụ phân tích thiết kế: Microsoft Visio 10  Môi trường lập trình: Visual Studio 10  Ngôn ngữ lập trình: Visual C# 3.3.2 Dữ liệu đích: Dữ liệu chuyên đề phát triển dịch vụ 19 Hình 3.12 Lược đồ quan hệ kho dữ liệu chuyên đề phát triển dịch vụ CTR_CONTRACT : Bảng dữ liệu lập hợp đồng đăng ký dịch vụ CTR_CUSTOMER : Bảng dữ liệu khác hàng... đúng đắn vè mặt số liệu so với hệ thống dữ liệu nguồn, tuân thủ các luật trong việc trích rút dữ liệu - Ứng dụng phải đảm bảo tính mềm dẻo và linh động đối với các nguồn dữ liệu khác nhau - Cho phép theo dõi và cảnh báo về các thay đổi trong hệ thống dữ liệu nguồn cũng như vấn đề xảy ra trong quá trình khai thác 15 3.1.2 Một số hệ thống hỗ trợ ETL trên thế giới đang sử dụng 3.1.2.1 ETL trong SQL Server... nguồn dữ liệu 2.3.2.4 Đánh giá các kỹ thuật trích xuất 2.4 Làm sạch và chuyển đổi dữ liệu 2.4.1 Các nhiệm vụ cơ bản của chuyển đổi dữ liệu Trích chọn Nhiệm vụ này nằm ở phần đầu của toàn bộ quá trình chuyển đổi Có thể toàn bộ hoặc một số bản ghi từ dữ liệu nguồn Tách/Nhập Nhiệm vụ này bao gồm các loại thao tác dữ liệu để thực hiện việc chọn các phần dữ liệu nguồn Chuyển đổi chuẩn hóa giữa dữ liệu trích ... thống quản trị sở liệu quan hệ (RDBMS) 5 1.1.4 Xây dựng CSDL cho kho liệu Những dự án dùng phương pháp kho liệu buộc phải lựa chọn mô hình liệu giản đồ liệu liên quan trực quan cho việc phân tích... liệu Trong trình xây dựng hệ thống trích xuất ta cần quan tâm đến vấn đề quan trọng xây dựng chiến lược trích xuất cho kho liệu Đây vấn đề quan trọng trích xuất liệu 2.3.1 Xác định nguồn liệu... loại thông tin, liệu nào? • Dữ liệu thuộc loại nào, có dạng sao? • Trong sở liệu khác liệu có liên quan với nào? • Dữ liệu lấy từ đâu thuộc quản lý? Vì hình thành dạng sở liệu khác gọi siêu liệu

Ngày đăng: 26/03/2016, 04:46

Từ khóa liên quan

Mục lục

  • HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

  • Người hướng dẫn khoa học: TS VŨ VĂN THỎA

  • Phản biện 1: …………………………………………………………………………

  • Phản biện 2: …………………………………………………………………………..

  • Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

  • Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............

  • Có thể tìm hiểu luận văn tại:

  • 1.1.2. Các đặc trưng của kho dữ liệu

  • 1.1.3 Mục tiêu của kho dữ liệu

  • 1.1.4. Kiến trúc kho dữ liệu

  • 1.1.4. Xây dựng CSDL cho kho dữ liệu

  • 1.2.1. Khái niệm ETL

  • 1.2.2 Vị trí và vai trò của ETL trong kho dữ liệu

  • 2.1.1. Các thành phần của ETL

    • Hình 2.1. Các thành phần của ETL

    • 2.1.3. Các yếu tố quan trọng đối với ETL

    • 2.1.4. Các khó khăn gặp phải khi xây dựng hệ thống ETL

    • 2.3.1. Xác định nguồn dữ liệu

      • Hình 2.3. Các bước xác định nguồn dữ liệu

      • 2.3.2. Các kỹ thuật trích xuất dữ liệu

        • 2.3.2.1. Các loại kỹ thuật trích xuất

        • 2.3.2.4. Đánh giá các kỹ thuật trích xuất

        • 2.4.1 Các nhiệm vụ cơ bản của chuyển đổi dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan