ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM

47 706 0
ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC QUỐC GIA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN LÊ MẠNH TUẤN ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NƠNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN LÊ MẠNH TUẤN ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN VIỆT NAM Ngành: Công nghệ thông tin Chuyên ngành: Quản lý hệ thống thông tin Mã số: Chuyên ngành đào tạo thí điểm LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: Chức danh khoa học Họ tên LỜI CAM ĐOAN Tôi xin cam đoan là công trình nghiên cứu của riêng Các số liệu, kết luận được đưa luận văn là trung thực, có nguồn gốc rõ ràng Tác giả luận văn Lê Mạnh Tuấn LỜI CẢM ƠN Để hồn thành hồn thành cơng trình nghiên cứu này, ngoài sự nỗ lực của bản thân, tác giả còn nhận được sự giúp đỡ rất lớn từ PGS.TS ……………, người đã quan tâm, trách nhiệm nhiệt tình hướng dẫn, giúp đỡ, động viên tác giả trình thực nghiên cứu của mình Tác giả xin gửi lời cảm ơn chân thành tới PGS.TS ………………… Tác giả cũng xin trân trọng cảm ơn thầy, cô Viện Cộng nghệ thông tin – Đại học Quốc Gia Hà Nội, bạn đồng nghiệp, lãnh đạo cán nhân viên Ngân hàng Nông nghiệp phát triển Nông thôn Việt Nam và bạn lớp Cao học CIO2 giúp đỡ tác giả suốt thời gian học tập nghiên cứu luận văn Để đạt những kết nghiên cứu tốt tương lai, tác giả mong tiếp tục nhận hướng dẫn, giúp đỡ nhà chuyên môn, thầy cô Viện Công nghệ thông tin – Đại học Quốc Gia Hà Nội phương pháp luận, cách thức tiếp cận khoa học hợp lý Tác giả luận văn Lê Mạnh Tuấn MỤC LỤC PHẦN MỞ ĐẦU 11 CHƯƠNG I HIỆN TRẠNG VỀ HỆ THỐNG CSDL VÀ HỆ THỐNG BÁO CÁO HIỆN TẠI NHNo&PTNT VIỆT NAM 13 1.1 Tổng quan NHNo&PTNT Việt Nam .13 1.1.1 Sơ lược NHNo&PTNT Việt Nam .13 1.1.2 Lịch sử hình thành, phát triển NHNo&PTNT Việt Nam 13 1.2 Đánh giá hệ thống báo cáo khai thác liệu NHNo&PTNT Việt Nam .14 1.3 Tại cần xây dựng DW&BI NHNo&PTNT Việt Nam .15 CHƯƠNG II GIỚI THIỆU VỀ KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH (DATA WAREHOUSE & BI) 16 1.4 Các khái niệm .16 2.1.1 Data Warehouse BI gì? 16 Data Sources (Dữ liệu nguồn): bao gồm CSDL hệ thống tác nghiệp, liệu dạng file,… .17 Data Warehouse (Kho liệu tập trung): bao gồm CSDL tích hợp CSDL chủ đề 17 BI:tầng ứng dụng khai thác phân tích thơng tin hỗ trợ định; end-user tương tác với hệ thống qua tầng BI 17 Administration: Metadata quản trị hệ thống 17 2.1.2 Các đặc trưng mặt liệu hệ thống DW&BI .17 2.1.3 Phân biệt hệ thống OLTP hệ thống DSS 18 1.5 Các phương pháp luận xây dựng hệ thống DW&BI .18 2.2.1 Phương pháp luận Top-down 19 2.2.2 Phương pháp luận Bottom-up 19 2.2.3 Phương pháp luận Spiral 19 2.2.4 Ưu/Nhược điểm phương pháp 20 2.2.5 Cơ sở lựa chọn phương pháp luận 21 CHƯƠNG III THIẾT KẾ MỘT HỆ THỐNG DATA WAREHOUSE VÀ BI 22 1.6 Thiết kế logic hệ thống DW BI 22 3.1.1 Phạm vi công việc phương pháp thực giai đoạn Thiết kế logic 22 3.1.2 Thiết kế tổng thể .23 DSA nguồn: chứa liệu tương ứng với nguồn cụ thể, dạng 1:1 nội dung cấu trúc, phạm vi liệu phiên 24 DSA đích: chứa liệu tổng hợp từ DSA nguồn, phạm vi liệu phiên, cấu trúc DSA dạng thuận tiện cho việc chuyển đổi liệu vào CSDL tích hợp .24 3.1.3 Thiết kế chi tiết thành phần 25 Các trường thông tin tổng hợp (aggregate data): giá trị tổng hợp tính sẵn (ví dụ: tổng số lượng, tổng tiền, số lượng lớn nhất, số lượng nhỏ nhất, số lượng trung bình,…) 26 Các trường thông tin dẫn xuất (derived data): giá trị tính theo cơng thức dựa trường thơng tin tổng hợp có 26 Các measure: giá trị số (những số nghiệp vụ như: Số lượng bán, Giá trị bán thể chủ đề Tình Hình Bán Hàng) .28 Các dimension: chiều phân tích thơng tin (ví dụ: sản phẩm, cửa hàng, thời gian,…) 28 Vẽ sơ đồ thực thể quan hệ (ERD, mơ hình sao) 28 Thiết kế bảng dimension 28 Thiết kế bảng fact (mỗi DM có bảng fact) .29 Thiết kế Slave Table (nếu cần lưu thông tin bổ sung, kiểu số, mô tả trên) 29 Thiết kế hierarchy (cho dimension): mô tả 29 Thiết kế partition 29 Thiết kế index 29 Thiết kế giải pháp phi chuẩn: .29 Mỗi DM có tập hợp bảng dimension, bảng cần chuẩn hóa (tách bảng) thành bảng quan hệ theo dạng chuẩn để không bị dư thừa liệu 30 Sau chuẩn hóa, bảng danh mục tương đương (cùng ý nghĩa nghiệp vụ, primary key,…) tích hợp thành bảng (primary key chung, trường thuộc tính hợp từ hai bảng); bảng dimension cịn lại giữ nguyên cấu trúc có quan hệ tạo Foreign Key với bảng dimension khác 30 Mỗi DM có bảng fact, bảng fact bao gồm số tất trường thông tin loại liệu nghiệp vụ cụ thể (ví dụ: liệu hóa đơn bán hàng) Những bảng fact lưu thông tin loại liệu (và primary key) tích hợp thành bảng (primary key chung, foreign key trường measure hợp từ hai bảng); bảng fact lại giữ nguyên cấu trúc 30 Tích hợp bảng slave (nếu có): tương tự kèm với bảng fact 31 Riêng với bảng dimension quan hệ trực tiếp với bảng fact: Primary Key phải kiểu số (có thể dùng Surrogate Key cần) 31 Không cần trường aggregate, derived 31 Primary Key: kiểu số, dùng Surrogate Key Primary Key thời chưa phải kiểu số 31 Foreign Key: sang bảng dimension .31 Các trường measure 31 Với bảng fact: thường chia partition theo chiều thời gian (tức chia theo trường FK link sang bảng dimension thời gian) 31 Với bảng dimension lớn, có tăng trưởng liệu: chia partition theo trường có nhu cầu tìm kiếm chủ yếu (nếu xác định được) 31 Thiết kế index 31 Thiết kế giải pháp phi chuẩn: .31 CSDL có cấu trúc tương đương với EM (CSDL hình bơng tuyết), nơi chứa liệu kết cuối giai đoạn xử lý, làm tích hợp trước đưa vào EM 32 có DSA đích 32 CSDL có cấu trúc tương đương với liệu nguồn (mơ hình CSDL quan hệ thông thường) chứa liệu nguyên nguồn (sau xử lý, làm sạch) 32 Có nhiều DSA nguồn: ứng với liệu nguồn cần DSA nguồn 33 Vẽ sơ đồ ERD cho DSA đích giống với ERD EM (nên tạo bảng trùng tên với bảng tương ứng EM) 33 Thiết kế bảng dimension, bảng fact, bảng slave giống EM .33 Thiết kế index: tương index EM 33 Mục tiêu thiết kế DSA nguồn: 33 Dựa tài liệu khảo sát liệu nguồn, xác định danh sách nguồn liệu cần đưa vào kho liệu tập trung, với nguồn liệu thiết kế DSA nguồn: .33 Làm sạch: chuẩn hóa loại bỏ liệu khơng hợp lệ, khơng tồn vẹn .34 Tích hợp: tích hợp liệu từ nhiều DSA nguồn DSA đích, tích hợp bảng liệu tương đương thành bảng 34 từ DSA đích sang EM 34 từ EM sang DM .34 từ EM sang DM .34 từ DSA đích sang EM 34 từ DSA nguồn sang DSA đích .34 Làm bổ sung liệu DSA nguồn 34 Làm bổ sung liệu DSA đích 34 Cấu trúc cube: Measure, Dimension 36 Thủ tục chuyển liệu từ DM vào cube .36 Là cấu trúc lưu trữ xác định mối quan hệ tham chiếu thuật ngữ nghiệp vụ (của người dùng cuối) với đối tượng liệu tin học (các bảng, trường) .36 Đóng vai trị cầu nối để người dùng cuối khai thác liệu CSDL DW cách lựa chọn kéo thả thơng tin nghiệp vụ cần thay việc viết câu lệnh truy vấn SQL .36 Là tập hợp file kết báo cáo, phân tích,… người dùng lưu thư mục xác định 36 Là chương trình ứng dụng để người dùng phân tích, lập báo cáo chia sẻ thông tin 36 Là giao diện để người dùng truy cập hệ thống lấy thơng tin kết 37 Ví dụ: web portal, ms office,… 37 1.7 Thiết kế vật lý hệ thống DW BI 37 3.2.1 Phạm vi công việc phương pháp thực giai đoạn Thiết kế vật lý 37 Các CSDL DSA nguồn 37 CSDL DSA đích 37 CSDL EM .37 Các CSDL DM .37 Các OLAP cube 37 Với CSDL, cần thiết kế: 38 từ Data Source sang DSA 38 từ DSA nguồn sang DSA đích .38 từ DSA đích sang EM 38 từ EM sang DM .38 Lớp liệu tham chiếu 38 Các thông tin kết 38 Các công cụ khai thác, cổng thông tin .38 3.2.2 Thiết kế mơ hình vật lý hệ thống .38 3.2.3 Thiết kế vật lý CSDL DW 39 Mức – Disk to Disk: backup liệu từ đĩa hệ thống đĩa backup 40 Mức – Disk to Tape: chuyển liệu từ đĩa backup tape (có thể lấy tape mang chỗ khác được) 40 3.2.4 Thiết kế chi tiết tiến trình ETL 40 Nếu bảng thiết kế dạng có lưu vết thay đổi liệu: Căn vào lưu vết để lọc ghi thay đổi khoảng thời gian chu kỳ .41 Nếu bảng khơng có lưu vết (chỉ có liệu nhất): Sử dụng phương pháp so sánh bảng liệu nguồn với bảng liệu tương ứng DW để tìm ghi có thay đổi 41 Với bảng chi tiết giao dịch 41 Các bảng giao dịch chi tiết ln có trường thời gian thể thời điểm giao dịch thời điểm lưu ghi giao dịch, vào trường xác định ghi thêm khoảng thời gian chu kỳ 41 Làm sạch: .41 Bổ sung: 41 Cập nhật trực tiếp: Cập nhật giá trị cho ghi xác định thay đổi bảng dimension tương ứng Trong trường hợp này, kể từ thời điểm cập nhật, kết truy vấn thay đổi theo giá trị Ví dụ: doanh nghiệp chuyển đổi loại hình sở hữu kết truy vấn tổng hợp theo chiều loại hình sơ hữu thay đổi trả theo giá trị .43 SUBPLIER 43  .43 SUBPLIER 43 Lưu vểt thay đổi: Với bảng dimension cần lưu vết, thiết kế bảng lưu vết (history table) tương ứng Trong đó: 43 SUBPLIER 43 .43 SUBPLIER_HISTORY .43 3.2.5 Thiết kế vật lý tầng BI 44 Theo nhóm người dùng 44 Theo phân loại báo cáo mặt nghiệp vụ 44 Theo phân loại báo cáo kiểu báo cáo: báo cáo web, báo cáo dạng in, dạng file văn office,… 45 Xây dựng sơ đồ chức cổng thông tin; mô tả chức 45 Xác định danh sách đối tượng người dùng, phân quyền truy cập, quyền xem loại thông tin kết 45 Công cụ tạo báo cáo, phân tích thơng tin giao diện Web .45 Công cụ tạo báo cáo, phân tích thơng tin giao diện Desktop .45 Cơng cụ tạo báo cáo, phân tích thơng tin nhúng sản phẩm Office .45 Các công cụ chuyên dụng để phân tích .45 3.2.6 Dự báo tăng trưởng liệu 45 DSA lưu trữ liệu tạm thời nên có cần dung lượng đủ cho phiên ETL, bỏ qua việc dự báo tăng trưởng liệu 45 Dự báo tăng trưởng liệu cho EM DM: 45 Ước tính số lượng kết đầu ra, dung lượng file 46 Dự báo tăng trưởng không gian lưu trữ file kết (theo năm), không gian lưu trữ cho thành phần vật lý khác hệ thống BI (system, log…) 46 Tổng hợp từ thành phần tính 46 3.2.7 Lập yêu cầu cấu hình phần cứng 46 Số lượng người sử dụng, số lượng session truy cập đồng thời 46 Tính sẵn sàng hệ thống, thời gian tối đa dừng hệ thống giờ, giờ46 Thời gian tối đa cho lần tra cứu thông tin, báo cáo,… 46 Đảm bảo toàn vẹn liệu 46 Các yêu cầu khác 46 Lưu trữ liệu 46 Hệ điều hành hệ quản trị CSDL 47 Dự phòng 47 Sao lưu 47 CHƯƠNG IV PHÂN TÍCH THIẾT KẾ DATA WAREHOUSE VÀ BI TẠI NHNo&PTNN VIỆT NAM 48 1.8 Phân tích hệ thống 48 4.1.1 Kiến trúc vật lý hệ thống CSDL NHNo&PTNT Việt Nam .48 4.1.2 Kiến trúc logic CSDL phần nghiệp vụ tín dụng 48 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 PHỤ LỤC 51 10 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Stt Từ, cụm từ Nội dung NHNo&PTNN Ngân hàng Nông nghiệp Phát triển Nông thôn Việt Nam CN Chi nhánh CNTT Công nghệ thông tin DW Kho liệu (Data Warehouse) BI Hệ thống hỗ trợ định (Business Intelligence) DW&BI Data Warehouse Business Intelligence CSDL Cơ sở liệu OLTP On Line Transaction Processing OLAP Ghi On Line Analytical Processing 10 DM Data Mart DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1.1: Vai trị DW&BI 16 Hình 2.1.2: Các thành phần DW&BI 17 Hình 2.2.3: Các phương pháp luận xây dựng DW&BI 19 Hình 3.1.4: Mơ hình logic tổng thể hệ thống DW&BI 23 Hình 3.1.5: Star schema (CSDL hình sao) 25 Hình 3.1.6: Snowflake schema (CSDL hình bơng tuyết) .26 Hình 3.1.7: Một ví dụ Data Mart .30 Hình 3.1.8: Một ví dụ Enterprise Model 32 33 o Có nhiều DSA nguồn: ứng với liệu nguồn cần DSA nguồn Các bước thực thiết kế DSA - Thiết kế DSA đích (dựa thiết kế EM có): o Vẽ sơ đồ ERD cho DSA đích giống với ERD EM (nên tạo bảng trùng tên với bảng tương ứng EM) o Thiết kế bảng dimension, bảng fact, bảng slave giống EM o - Thiết kế index: tương index EM Thiết kế DSA nguồn: o Mục tiêu thiết kế DSA nguồn:  Cấu trúc DSA nguồn đảm bảo tính nguyên liệu nguồn (kiểu liệu tương đương, nội dung liệu tương đương) thời điểm trước xử lý  Cấu trúc DSA nguồn đảm bảo cung cấp đầy đủ liệu nguồn cho DSA đích o Dựa tài liệu khảo sát liệu nguồn, xác định danh sách nguồn liệu cần đưa vào kho liệu tập trung, với nguồn liệu thiết kế DSA nguồn:  Phân tích sơ đồ ERD CSDL nguồn để nắm mối quan hệ liệu bảng liệu nguồn  Phân tích mối quan hệ liệu bảng liệu nguồn với bảng DSA đích, từ xác định danh sách bảng, trường đưa vào DSA nguồn  Vẽ sơ đồ ERD cho DSA nguồn (dựa kết phân tích)  Thiết kế bảng cho DSA nguồn: cấu trúc bảng DSA nguồn tương đương với cấu trúc bảng CSDL nguồn (tương đương kiểu liệu trường, primary key, foreign key)  Thiết kế index trường Primary Key, Foreign Key f Extraction - Transformation - Loading (ETL): Thu thập, làm tích hợp liệu ETL tiến trình thu thập, làm tích hợp liệu với mục đích đưa liệu nguồn cần thiết vào kho liệu tập trung theo yêu cầu nghiệp vụ 34 ETL vừa thực việc xử lý liệu vừa tạo dòng chảy liệu từ nguồn qua thành phần khác đến đích (các DM), giúp cho liệu hệ thống DW cập nhật định kỳ Trên thực tế, tình chuyển đổi liệu từ nguồn đến kho tập trung đa dạng, phức tạp,… ETL đa dạng phức tạp Dưới cách chia tách công đoạn xử lý bên tiến trình ETL, theo coi hệ thống DW có tiến trình ETL, bao gồm cơng đoạn xử lý sau: Thu thập liệu (Extraction): công đoạn khai thác đưa liệu từ nguồn vào CSDL trung chuyển (các DSA nguồn), chưa xử lý liệu Làm tích hợp (Transformation): cộng đoạn phức tạp nhất, xử lý liệu CSDL trung chuyển, xử lý bao gồm: o Làm sạch: chuẩn hóa loại bỏ liệu khơng hợp lệ, khơng tồn vẹn o Tích hợp: tích hợp liệu từ nhiều DSA nguồn DSA đích, tích hợp bảng liệu tương đương thành bảng - Loading (load liệu): công đoạn load liệu xử lý o từ DSA đích sang EM o từ EM sang DM Căn vào tài liệu khảo sát phân tích liệu nguồn, vào thiết kế logic thành phần có (các DM, EM, DSA đích, DSA nguồn), thiết kế tiến trình ETL theo bước sau: - Thiết kế chức chuyển liệu vào kho tập trung (DW): o từ EM sang DM o từ DSA đích sang EM o từ DSA nguồn sang DSA đích - Thiết kế chức Thu thập liệu từ nguồn vào DSA - Thiết kế chức Làm sạch, bổ sung liệu: nguồn o Làm bổ sung liệu DSA nguồn o Làm bổ sung liệu DSA đích 35 2.1.3.2 Thiết kế metadata Metadata lớp liệu lưu trữ thông tin mô tả thành phần DW Thực chất việc thiết kế metadata cho DW thiết kế CSDL quan hệ để lưu trữ loại liệu sau: Cấu trúc ý nghĩa CSDL DW (Data Source, DSA, EM, DM): mô tả bảng, trường, ý nghĩa ngiệp vụ - Quan hệ tham chiếu trường, bảng CSDL khác Dữ liệu nghiệp vụ end-user: giá trị số (measure), chiều thơng tin (dimension), thuộc tính kèm (attribute), phân cấp (hieararchy) Dữ liệu quản lý tiến trình ETL: liệu cơng đoạn chuyển đổi, phiên thực hiện,… Dữ liệu tầng khai thác phân tích thơng tin: cấu trúc ý nghĩa đơn vị lớp liệu tham chiếu; danh mục kết đầu (báo cáo, phân tích), danh sách user quyền truy cập Vai trị metadata: Lưu trữ hình ảnh tồn thiết kế hệ thống DW BI, phục vụ việc tra cứu thơng tin hệ thống, bảo trì mở rộng hệ thống Cung cấp liệu sở (thông tin đầu vào) cho giai đoạn thiết kế vật lý: thiết kế vật lý CSDL, tiến trình ETL, cơng cụ quản trị vận hành 2.1.3.3 Tầng khai thác phân tích thơng tin a Thiết kế CSDL đa chiều với OLAP Nhìn chung, mục đích hướng đến việc thiết kế DW DM Về mặt logic, DM thiết kế theo ý tưởng đa chiều với bảng danh mục (các chiều) xoay quanh bảng liệu chi tiết giao dịch phát sinh; kiểu thiết kế giúp đáp ứng nhanh linh hoạt nhu cầu thông tin dạng, đa chiều người dùng Nhưng chất lưu trữ liệu, DM tập bảng liệu quan hệ (các bảng với chiều dòng cột), để đưa báo cáo đa chiều, cần thực câu lệnh truy vấn (SQL) để join bảng với Để tạo thuận tiện chủ động cho người dùng cuối, đồng thời tăng tốc độ đáp ứng nhu cầu thông tin, cần tạo thêm lớp liệu dạng tính tốn sẵn gần gũi với nhu cầu thông tin người dùng, lớp liệu OLAP 36 OLAP tầng liệu phía DM, có cấu trúc lưu trữ đặc biệt (không sử dụng bảng quan hệ thông thường) để lưu trữ liệu đa chiều dạng tính tốn sẵn, liệu gần với nhu cầu thông tin người dùng Với OLAP, người dùng cần chọn lấy thơng tin cần (các dimension, measure) để thực việc báo cáo phân tích thơng tin tính tốn sẵn OLAP OLAP tổ chức thành OLAP cube (Khối liệu đa chiều), OLAP cube phục vụ nhóm nhu cầu thông tin người dùng Tương ứng với chủ đề thơng tin (DM), tạo nhiều OLAP cube Ngoài ra, tùy thuộc nhu cầu phân tích thơng tin, tạo OLAP cube từ DM khác Căn vào việc phân tích nhu cầu thơng tin người dùng, thiết kế DM, thiết kế tầng liệu OLAP theo bước sau: Xác định danh sách OLAP cube dựa nhóm nhu cầu thông tin biết - Thiết kế OLAP cube: o Cấu trúc cube: Measure, Dimension o Thủ tục chuyển liệu từ DM vào cube b Thiết kế tầng khai thác phân tích thơng tin Tầng khai thác phân tích thơng tin mơi trường thuận tiện an toàn để người dùng tương tác với hệ thống, môi trường bao gồm thành phần sau: - Lớp liệu tham chiếu: o Là cấu trúc lưu trữ xác định mối quan hệ tham chiếu thuật ngữ nghiệp vụ (của người dùng cuối) với đối tượng liệu tin học (các bảng, trường) o Đóng vai trị cầu nối để người dùng cuối khai thác liệu CSDL DW cách lựa chọn kéo thả thơng tin nghiệp vụ cần thay việc viết câu lệnh truy vấn SQL - Lớp thông tin kết o Là tập hợp file kết báo cáo, phân tích,… người dùng lưu thư mục xác định - Các cơng cụ khai thác phân tích thơng tin o Là chương trình ứng dụng để người dùng phân tích, lập báo cáo chia sẻ thông tin - Cổng thông tin: 37 o Là giao diện để người dùng truy cập hệ thống lấy thơng tin kết o Ví dụ: web portal, ms office,… 1.7 Thiết kế vật lý hệ thống DW BI 3.2.1 Phạm vi công việc phương pháp thực giai đoạn Thiết kế vật lý 2.2.1.1 Phạm vi công việc Thiết kế vật lý thiết kế thành phần hệ thống công nghệ cụ thể lựa chọn theo thiết kế logic có Thiết kế vật lý tài liệu cuối để người phát triển hệ thống làm theo, xây dựng triển khai hệ thống thực tế Nội dung công việc giai đoạn thiết kế vật lý bao gồm: - Thiết kế mô hình vật lý hệ thống - Thiết kế vật lý tầng DW: CSDL, tiến trình ETL Thiết kế vật lý tầng BI: lớp liệu tham chiếu, thông tin kết quả, công cụ khai thác, cổng thông tin Dự báo tăng trưởng liệu (dựa Thiết kế vật lý CSDL, khảo sát liệu nguồn) Lập yêu cầu cấu hình phần cứng (dựa yêu cầu nghiệp vụ, dự báo tăng trưởng liệu) Các kết giai đoạn thiết kế vật lý: - Mơ hình vật lý - Thiết kế vật lý tầng DW, BI - Dự báo tăng trưởng liệu - Yêu cầu cấu hình phần cứng 2.2.1.2 Phương pháp thực Giai đoạn thiết kế vật lý thực theo trình tự sau: - Thiết kế mơ hình vật lý - Thiết kế vật lý CSDL DW: o Các CSDL DSA nguồn o CSDL DSA đích o CSDL EM o Các CSDL DM o Các OLAP cube 38 o Với CSDL, cần thiết kế:  Cấu trúc lưu trữ  Cấu trúc hoạt động  Cấu trúc backup - Thiết kế chi tiết tiến trình ETL o từ Data Source sang DSA o từ DSA nguồn sang DSA đích o từ DSA đích sang EM o từ EM sang DM - Thiết kế vật lý tầng BI: o Lớp liệu tham chiếu o Các thông tin kết o Các công cụ khai thác, cổng thông tin Dự báo tăng trưởng liệu (dựa Thiết kế vật lý CSDL, khảo sát liệu nguồn) Lập yêu cầu cấu hình phần cứng (dựa Yêu cầu nghiệp vụ, Dự báo tăng trưởng liệu) 3.2.2 Thiết kế mơ hình vật lý hệ thống 2.2.2.1 Mơ hình vật lý Việc đưa mơ hình vật lý cho hệ thống phụ thuộc vào yếu tố trạng hạ tầng, yêu cầu nghiệp vụ mà hệ thống cần đạt Do đó, thực tế mơ hình đa dạng, mơ hình mang tính tham khảo, có thành phần điển hình hệ thống DWBI: - Máy chủ CSDL trung chuyển - Máy chủ CSDL tích hợp - Máy chủ CSDL chủ đề - Máy chủ ứng dụng BI - Máy chủ Web 39 3.2.3 Thiết kế vật lý CSDL DW 2.2.3.1 Cấu trúc lưu trữ (cho CSDL) Cấu trúc lưu trữ database mơ tả hình ảnh database triển khai công nghệ cụ thể Thiết kế cấu trúc lưu trữ cho database bao gồm việc sau: Xác định tổ chức đơn vị lưu trữ (ví dụ như: tablespace Oracle), tham số lưu trữ - Xác định file liệu: vị trí, size, phương thức quản lý,… Tính thơng số lưu trữ cho database object như: table, index, partition, mview 40 2.2.3.2 Cấu trúc hoạt động (cho CSDL) Cấu trúc hoạt động database mô tả hình ảnh database trạng thái hoạt động (khi triển khai công nghệ cụ thể) Thiết kế cấu trúc hoạt động database bao gồm việc sau: Xác định tên cho database (tên định danh nhất), tên service tương ứng Cây tổ chức thành phần database hoạt động: cấu trúc memory, user, session, … - Tính tham số cho thành phần cấu trúc hoạt động - Tạo user - Lập kế hoạch phân chia tài nguyên cho nhóm user 2.2.3.3 Cấu trúc backup (cho CSDL) Cấu trúc backup database mơ tả phương án thực backup, sử dụng đồng thời phương pháp sau: Thiết lập hệ thống dự phịng: cấu hình thơng số hệ thống tương đương hệ thống chính, đồng liệu hệ thống chính, sẵn sàng thay hệ thống có cố Tape: o backup Dùng cơng cụ để thực backup, mơ hình Disk  Disk Mức – Disk to Disk: backup liệu từ đĩa hệ thống đĩa o Mức – Disk to Tape: chuyển liệu từ đĩa backup tape (có thể lấy tape mang chỗ khác được) 3.2.4 Thiết kế chi tiết tiến trình ETL 2.2.4.1 Yêu cầu liệu nguồn Yêu cầu chung tất liệu nguồn: Mọi bảng liệu nguồn cần có trường khóa khơng đổi (Nature Key) Đây để nhận dạng dòng liệu lấy cho phiên ETL Các bảng liệu nguồn chia thành loại: - Các bảng danh mục: nguồn cho bảng dimension DW - Các bảng chi tiết giao dịch: nguồn cho bảng fact DW 2.2.4.2 Xác định phạm vi liệu nguồn cho phiên ETL Với phiên ETL (first load), phạm vi liệu nguồn toàn liệu lịch sử đến Từ phiên ETL thứ trở đi, phiên ETL thực theo chu 41 kỳ (hàng ngày, hàng tuần,…); mục tiêu phiên chuyển liệu nguồn phát sinh có thay đổi khoảng thời gian tương ứng với chu kỳ xác định - Với bảng danh mục: o Nếu bảng thiết kế dạng có lưu vết thay đổi liệu: Căn vào lưu vết để lọc ghi thay đổi khoảng thời gian chu kỳ o Nếu bảng khơng có lưu vết (chỉ có liệu nhất): Sử dụng phương pháp so sánh bảng liệu nguồn với bảng liệu tương ứng DW để tìm ghi có thay đổi o Với bảng chi tiết giao dịch o Các bảng giao dịch chi tiết có trường thời gian thể thời điểm giao dịch thời điểm lưu ghi giao dịch, vào trường xác định ghi thêm khoảng thời gian chu kỳ 2.2.4.3 Công đoạn ETL từ Data Source sang DSA nguồn Đây công đoạn chuyển đổi liệu cho nguồn riêng, data source chuyển vào schema tương ứng DSA nguồn Những bước thực bao gồm: lấy liệu Trên Data Source, xác định danh sách bảng, trường cần Xác định quan hệ tham chiếu (mapping) trường, bảng DSA nguồn với trường, bảng data source Thiết kế module convert liệu chuyển liệu từ data source vào DSA nguồn theo mapping xác định Ngay DSA nguồn sau liệu chuyển vào, tùy theo yêu cầu nghiệp vụ cụ thể chất lượng liệu nguồn, thiết kế riêng chức xử lý liệu DSA nguồn như: o Làm sạch:  Loại bỏ liệu không hợp lệ  Định dạng liệu theo format thống o Bổ sung:  Thêm liệu phù hợp để đảm bảo tính tồn vẹn Trên thực tế, khó khăn thường gặp phải thiết kế ETL chất lượng liệu nguồn khơng tốt (khơng đủ, khơng tồn vẹn, dư thừa, sai, …) Giải pháp cần ưu tiên đề xuất sách yêu cầu hệ thống tác nghiệp để đảm bảo chất lượng liệu nguồn 42 Trong trường hợp không tác động đến liệu nguồn, q trình làm tích hợp liệu phức tạp, có bước cần tham gia người dùng nghiệp vụ Khi đó, cần có cơng cụ phần mềm chun dụng (thường gọi Data Quality) phù hợp, chí phải phát triển ứng dụng riêng biệt để giải vấn đề 2.2.4.4 Công đoạn ETL từ DSA nguồn sang DSA đích Đây cơng đoạn chuyển đổi liệu có tính chất tích hợp, liệu từ nhiều DSA nguồn (đã làm sạch) tích hợp DSA đích Những bước thực bao gồm: Xác định quan hệ tham chiếu (mapping) trường, bảng DSA đích với trường, bảng DSA nguồn Thiết kế module chuyển liệu từ DSA nguồn sang DSA đích theo mapping xác định Sau liệu tích hợp DSA đích, tùy theo yêu cầu nghiệp vụ cụ thể, thiết kế chức xử lý bổ sung liệu tích hợp 2.2.4.5 Cơng đoạn ETL từ DSA đích sang EM Đây cơng đoạn chuyển đổi liệu có tính chất 1:1, liệu phiên ETL DSA đích (đã hoàn tất xử lý) chuyển toàn vào EM Những bước thực bao gồm: Thiết kế module chuyển liệu 1:1 từ DSA đích vào EM (nguồn đích cấu trúc; giữ nguyên nội dung liệu) - Dữ liệu sau chuyển vào EM không thay đổi 2.2.4.6 Công đoạn ETL từ EM sang DM Đây công đoạn cuối tiến trình ETL DW, đưa liệu từ EM sang DM Những bước thực bao gồm: Xác định mapping trường, bảng DM với trường, bảng EM - Thiết kế module chuyển liệu theo mapping xác định 2.2.4.7 Phương án quản lý việc thay đổi liệu nguồn Về nguyên tắc, liệu DW có tính bất biến, tức load vào khơng thay đổi Do đó, giải pháp nên áp dụng để tránh thay đổi liệu khơng thực cần thiết đề xuất sách mặt nghiệp vụ: Không cho phép sửa liệu lịch sử nguồn - liệu mà load vào DW 43 Dữ liệu nguồn cần đảm bảo chốt (không thay đổi nữa) trước phiên ETL Tuy nhiên thực tế, có tình thay đổi liệu mang tính khách quan cần cập nhật vào DW, đặc biệt với bảng dimension Khi đó, cần đưa giải pháp kỹ thuật để xử lý Đối với bảng dimension, có phương pháp thơng dụng để quản lý việc thay đổi liệu: o Cập nhật trực tiếp: Cập nhật giá trị cho ghi xác định thay đổi bảng dimension tương ứng Trong trường hợp này, kể từ thời điểm cập nhật, kết truy vấn thay đổi theo giá trị Ví dụ: doanh nghiệp chuyển đổi loại hình sở hữu kết truy vấn tổng hợp theo chiều loại hình sơ hữu thay đổi trả theo giá trị SUBPLIER Supplier_key Supplier_Name Supplier_State 001 Phlogistical Supply Company CA Supplier_key Supplier_Name Supplier_State 001 Phlogistical Supply Company IL  SUBPLIER o Lưu vểt thay đổi: Với bảng dimension cần lưu vết, thiết kế bảng lưu vết (history table) tương ứng Trong đó:  Bảng dimension: lưu ghi  Bảng history: lưu ghi lịch sử SUBPLIER Supplier_key Supplier_Name Supplier_State 001 Phlogistical Supply Company IL SUBPLIER_HISTORY Supplier_key Supplier_Name Supplier_State Create_Date 001 Phlogistical Supply CA 22-Dec-2004 44 Company Nhìn chung, với hầu hết yêu cầu phân tích thơng tin phương pháp Cập nhật trực tiếp có đáp ứng tốt, phương pháp đơn giản Trong trường hợp cần phân tích liên quan đến việc thay đổi liệu lịch sử phương pháp Lưu vết thay đổi cần áp dụng 2.2.4.8 Quản lý tiến trình ETL Tiến trình ETL chuỗi cơng đoạn chuyển đổi, xử lý vận chuyển liệu từ Data Source đích DM Cần thiết kế chức quản lý tiến trình ETL để đảm bảo tính đồng bộ, tồn vẹn liệu, nghĩa là, phiên ETL coi hoàn thành tất cơng đoạn bên hồn thành, liệu nguồn chu kỳ ETL chuyển vào tất CSDL bên DW (EM, DM) Một phiên ETL thực mà phiên liền trước hồn thành Để theo dõi trạng thái thực kết công đoạn bên phiên ETL, cần thiết kế hệ thống bảng quản lý ETL (một phần metadata) chức ghi log 3.2.5 Thiết kế vật lý tầng BI 2.2.5.1 Lớp liệu tham chiếu Dựa công nghệ BI cụ thể lựa chọn, lớp liệu tham chiếu tổ chức thành đơn vị tương ứng với nhóm nhu cầu thơng tin, nhu cầu phân tích người dùng (ví dụ: Universe sản phẩm BO) Mỗi đơn vị thiết kế sau: Xác định bảng liệu nguồn (từ DM) liên quan, quan hệ bảng Xác định danh sách thông tin nghiệp vụ (các giá trị số, chiều phân tích):mỗi thơng tin xác định việc truy vấn bảng liệu nguồn - Phân quyền truy cập cho người dùng 2.2.5.2 Các thông tin kết Kết đầu việc khai thác phân tích tầng BI báo cáo dạng file, lưu trữ thư mục máy chủ Các bước thực bao gồm: - Tổ chức cấu trúc thư mục lưu trữ kết quả: o Theo nhóm người dùng o Theo phân loại báo cáo mặt nghiệp vụ 45 o Theo phân loại báo cáo kiểu báo cáo: báo cáo web, báo cáo dạng in, dạng file văn office,… - Phân quyền truy cập báo cáo 2.2.5.3 Các cơng cụ khai thác, cổng thơng tin Có dạng giao diện để người dùng sử dụng hệ thống: Cổng thông tin: website để người dùng đăng nhập hệ thống, tra cứu, tìm kiếm chia sẻ thơng tin kết có Cơng cụ khai thác phân tích thơng tin: giao diện để người dùng trực tiếp tương tác với hệ thống, tạo báo cáo với nhiều định dạng khác nhau, phân tích thơng tin chia sẻ kết tạo Các bước cần thực bao gồm: - Thiết kế cổng thông tin: o Xây dựng sơ đồ chức cổng thông tin; mô tả chức o Xác định danh sách đối tượng người dùng, phân quyền truy cập, quyền xem loại thông tin kết - Thiết kế công cụ khai thác: o Cơng cụ tạo báo cáo, phân tích thơng tin giao diện Web o Công cụ tạo báo cáo, phân tích thơng tin giao diện Desktop o Cơng cụ tạo báo cáo, phân tích thơng tin nhúng sản phẩm Office o 3.2.6 Các công cụ chuyên dụng để phân tích Dự báo tăng trưởng liệu Một đặc trưng hệ thống DWBI dung lượng liệu lớn, thường không xác định vịng đời Do đó, để đảm bảo cho vận hành lâu dài hệ thống, cần thực việc dự báo tăng trưởng dung lượng liệu tăng trưởng không gian đĩa cho lưu trữ, từ có phương án lưu trữ cho hệ thống Các bước thực bao gồm: EM, DM) Dự báo tăng trưởng liệu cho CSDL DW: (DSA, o DSA lưu trữ liệu tạm thời nên có cần dung lượng đủ cho phiên ETL, bỏ qua việc dự báo tăng trưởng liệu o Dự báo tăng trưởng liệu cho EM DM: 46  Căn liệu nguồn, phân loại bảng EM theo số ghi: bảng cực lớn bảng fact, bảng trung bình nhỏ bảng dimension  Dự báo tăng trưởng dung lượng liệu cho bảng fact, nhóm bảng dimension (dự báo theo năm)  Dự báo tăng trưởng không gian đĩa (tùy thuộc công nghệ CSDL cụ thể lựa chọn: Greenplum, Oracle, …): không gian đĩa cho lưu trữ nội dung liệu, không gian đĩa cho thành phần vật lý khác Database Production (system, temp, log,…) - Dự báo tăng trưởng liệu tầng BI o Ước tính số lượng kết đầu ra, dung lượng file o Dự báo tăng trưởng không gian lưu trữ file kết (theo năm), không gian lưu trữ cho thành phần vật lý khác hệ thống BI (system, log…) - Dự báo tăng trưởng liệu toàn hệ thống DWBI o 3.2.7 Tổng hợp từ thành phần tính Lập u cầu cấu hình phần cứng Các để đưa yêu cầu cấu hình phần cứng thành phần hệ thống: máy chủ CSDL, máy chủ BI, máy chủ Web - Các yêu cầu nghiệp vụ o Số lượng người sử dụng, số lượng session truy cập đồng thời o Tính sẵn sàng hệ thống, thời gian tối đa dừng hệ thống giờ, o Thời gian tối đa cho lần tra cứu thơng tin, báo cáo,… o Đảm bảo tồn vẹn liệu o Các yêu cầu khác - Kết dự báo tăng trưởng không gian đĩa cho lưu trữ Đưa yêu cầu kỹ thuật nhằm đảm bảo đáp ứng yêu cầu nghiệp vụ: - Máy chủ có cần chạy song hành hay không - Kết nối từ máy chủ đến hệ thống lưu trữ - Dung lượng đĩa cho: o Lưu trữ liệu 47 o Hệ điều hành hệ quản trị CSDL o Dự phòng o Sao lưu - Dung lượng RAM - Số lượng CPU, tốc độ - Lựa chọn hệ điều hành ... CÔNG NGHỆ THÔNG TIN LÊ MẠNH TUẤN ÁP DỤNG KHO DỮ LIỆU VÀ HỆ THỐNG HỖ TRỢ RA QUYẾT ĐỊNH TRONG HOẠT ĐỘNG TÍN DỤNG TẠI NGÂN HÀNG NƠNG NGHIỆP VÀ PHÁT TRIỂN NƠNG THƠN VIỆT NAM Ngành: Cơng nghệ thơng... phát triển ứng dụng phân tích liệu Tại Ngân hàng Nơng nghiệp phát triển Nông thôn Việt Nam việc xây dựng kho liệu hệ thống hỗ trợ định hoạt động tín dụng cần thiết Kho liệu thu thập liệu từ hệ. .. Ngân hàng Nông nghiệp Việt Nam thành Ngân hàng Nông nghiệp Phát triển nông thôn Việt Nam Ngân hàng Nông nghiệp Phát triển nông thôn Việt Nam hoạt động theo mơ hình tổng cơng ty 90, doanh nghiệp

Ngày đăng: 10/04/2015, 09:18

Từ khóa liên quan

Mục lục

  • 1.1. Tổng quan NHNo&PTNT Việt Nam

  • 1.2. Đánh giá hệ thống báo cáo và khai thác dữ liệu tại NHNo&PTNT Việt Nam

  • 1.3. Tại sao cần xây dựng DW&BI tại NHNo&PTNT Việt Nam

  • 1.4. Các khái niệm cơ bản

  • 1.5. Các phương pháp luận xây dựng hệ thống DW&BI

  • 1.6. Thiết kế logic một hệ thống DW và BI

  • 1.7. Thiết kế vật lý một hệ thống DW và BI

  • 1.8. Phân tích hệ thống

Tài liệu cùng người dùng

Tài liệu liên quan