Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng

7 313 4
Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng

Đang tải... (xem toàn văn)

Thông tin tài liệu

Tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng Hà Xuân Trường Trường Đại học Công nghệ Luận văn ThS. Công nghệ phần mềm; Mã số : 60 48 10 Người hướng dẫn: TS. Phạm Hồng Thái Năm bảo vệ: 2013 Abstract. Nghiên cứu hệ thống kho dữ liệu ngân hàng hiện có, từ đó phân tích, đánh giá và đưa ra các mặt hạn chế của hệ thống cũ. Đề xuất hệ thống kho dữ liệu mới nhằm cải tiến các mặt hạn chế của mô hình cũ. Phân tích, thiết kế và xây dựng hệ thống theo mô hình mới. Thiết kế thêm hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu. Xây dựng được hệ thống kho dữ liệu thử nghiệm theo mô hình cho chương trình báo cáo sản phẩm tiền gửi. Keywords. Công nghệ phần mềm; Công nghệ thông tin; Cơ sở dữ liệu; Ngân hàng; Tin học Content. Luận văn tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng gồm 3 chương, 36 hình vẽ và 10 bảng. Nội dung tóm tắt các chương như sau: Chương 1: HỆ THỐNG KHO DỮ LIỆU Tổng quan kho dữ liệu Giới thiệu khái niệm, cấu trúc cơ bản của một hệ thống kho dữ liệu. Hệ thống kho dữ liệu trong ngân hàng Nghiên cứu, tìm hiểu hệ thống kho dữ liệu trong ngân hàng TMCP Đầu tư và Phát triển Việt Nam (BIDV). Kiến trúc của hệ thống kho dữ liệu ngân hàng: Excel, text file SQL Server 2000 AS/400 STAGING AREA ENTERPRISE DATA MODEL SOURCE DATA DD CD LN GL ATM STAGING DATABASE EDM MIS (OTHERS) LOAN DEPOSIT (OTHERS) USER FRONT-END REPORTS (DBF, Text File Format, ) REPORTS (Excel File Format, ) DTS DTS DTS Kiến trúc của kho dữ liệu ngân hàng gồm 5 cấu phần: 1. Dữ liệu nguồn (Source Data) 2. Vùng tập kết (Staging Area) 3. Enterprise Data Model (EDM) 4. Data mart (dữ liệu chuyên đề) 5. Phân phối (User front-end) Source Data, Staging Area và EDM đều nằm trên AS/400 (core-banking), mỗi thành phần tương ứng là một thư viện trên AS/400. Data mart đặt trên các máy chủ Windows NT riêng biệt, sử dụng SQL Server 2000. Phân phối dữ liệu qua Excel, text file Quá trình xử lý dữ liệu trong hệ thống kho dữ liệu ngân hàng: DD CD LN GL ATM Transformation Staging Database Transformation EDM DATA MART AS400 AS400 AS400 NT SERVER Front-end Windows Client Sources Extraction Staging Warehousing Delivery DTS Packages DTS Packages OLAP Processing DTS Packages Quá trình xử lý kho dữ liệu ngân hàng gồm 3 bước: 1. Chuẩn bị dữ liệu: Đẩy dữ liệu từ dữ liệu nguồn sang vùng tập kết (staging area), bắt đầu từ 2 giờ sáng, kết thúc lúc 3 giờ sáng. 2. Chuyển đổi dữ liệu vào EDM: Trích xuất, chuyển đổi dữ liệu từ vùng tập kết sang EDM, kết thúc lúc 6 giờ 30 phút sáng. 3. Chuẩn bị báo cáo: Đẩy dữ liệu từ vùng EDM sang Data mart và thực hiện các xử lý OLAP, dữ liệu đa chiều, dữ liệu khối. Kết thúc khoảng hơn 10 giờ sáng. Tất cả quá trình xử lý trong kho dữ liệu đều được thiết kế dưới dạng [ET][L] bằng công cụ DTS (Data Transformation Services) của SQL Server 2000. Đánh giá mặt hạn chế của hệ thống: 1. Hệ thống ngân hàng thường hoạt động giao dịch từ 8 giờ sáng. Quá trình chuẩn bị báo cáo hơn 10 giờ sáng mới kết thúc, điều này sẽ làm hệ thống AS/400 phải phân tải tài nguyên, một phần thực hiện giao dịch core-banking, một phần chuyển đổi kho dữ liệu, gây ảnh hưởng phần nào đó đến tốc độ giao dịch. Mặt khác việc kết thúc chuyển đổi kho dữ liệu quá muộn như vậy sẽ không đảm bảo xử lý kịp thời về mặt nghiệp vụ quản trị điều hành, nắm bắt các thông tin cần thiết một cách nhanh nhất. Khi vận hành xử lý chuyển đổi kho dữ liệu trong thời gian giao dịch từ 8 giờ sáng trở đi, hệ thống core- banking CPU chịu tải tăng thêm khoảng 20 – 30 %. Quá trình xử lý chuẩn bị báo cáo hàng ngày đẩy khoảng 35 GB dữ liệu tới hơn 15 chương trình khác nhau phục vụ công tác quản trị điều hành. Sau hơn 10 năm hoạt động, số lượng tài khoản cũng như dữ liệu lịch sử lớn dần, quá trình chuyển đổi dữ liệu rất chậm chạp, phải mất hơn 8 tiếng, vận hành từ 2 giờ sáng tới hơn 10 giờ mới kết thúc. 2. Thiếu hệ thống phân phối và khai thác báo cáo đến người sử dụng. Hiện tại chỉ cung cấp về mặt nền tảng công nghệ báo cáo OLAP cho BIDV, gần như chưa có mảng phân phối đến người sử dụng cuối. Không hỗ trợ được người sử dụng chi nhánh khai thác báo cáo, do tính chất bảo mật của công nghệ hiện tại không đáp ứng. Chỉ hỗ trợ khai thác trực tiếp qua mạng LAN. Người sử dụng ở hội sở chính khai thác trực tiếp kho dữ liệu, cần qua hai tầng bảo mật: - Phải có tài khoản của hệ điều hành do máy chủ kho dữ liệu cung cấp. - Phải có tài khoản bảo mật mức ứng dụng. Qua mức bảo mật ứng dụng hệ thống chỉ cho phép phân quyền theo file báo cáo (file Excel) mà người sử dụng được phép khai thác, chưa thiết lập phân quyền theo mức dữ liệu Cube trên OLAP Server. Chương 2: XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU CẢI TIẾN Mục tiêu cần nâng cấp, cải tiến 1. Hạn chế tối đa mức độ ảnh hưởng phân tải tài nguyên tới hệ thống core-banking của quá trình trích xuất, chuyển đổi kho dữ liệu trong thời gian giao dịch. Rút ngắn thời gian quá trình chuẩn bị báo cáo một cách chính xác, đầy đủ và nhanh chóng, phục vụ báo cáo quản trị điều hành sớm nhất có thể được. Mục tiêu rút ngắn thời gian chuyển đổi hiện tại, đảm bảo trước 9 giờ sáng chuyển đổi dữ liệu xong, phục vụ báo cáo cho nghiệp vụ.  Với mục tiêu này, cần xây dựng lại mô hình trích xuất, chuyển đổi dữ liệu trong hệ thống kho dữ liệu. 2. Cung cấp hệ thống khai thác và phân phối báo cáo chuyên nghiệp đến người sử dụng cuối (hội sở chính và các đơn vị chi nhánh).  Ở mục tiêu này, luận văn dự kiến xây dựng thêm hệ thống khai thác và phân phối báo cáo tập trung. Phân tích và đề xuất mô hình hệ thống kho dữ liệu mới Phân tích cơ chế trích lọc dữ liệu, cơ chế OLAP, cơ chế khai thác và phân phối báo cáo của hệ thống cũ, từ đó đề xuất mô hình hệ thống kho dữ liệu mới như hình 2.5.1.1: Hệ thống tập trung Khai thác & Phân phối AS/400 STAGING AREA ENTERPRISE DATA MODEL SOURCE DATA DD CD LN GL ATM STAGING DATABASE EDM DTS [E][T][L] DTS ROLAP Hình 2.5.1.1. Mô hình hệ thống kho dữ liệu mới Quá trình “chuẩn bị báo cáo” từ EDM sang kho dữ liệu chuyên đề được thiết kế dưới dạng [E][T][L], giảm tải hệ thống core-banking một cách tối đa. Cơ sở dữ liệu chuyên đề, dữ liệu đa chiều được lưu dưới dạng ROLAP, rút ngắn được thời gian đảm bảo việc chuyển đổi dữ liệu, chuẩn bị báo cáo của kho dữ liệu trước 9 giờ sáng, phục vụ công tác quản trị điều hành của nghiệp vụ. Đề xuất một hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu như hình 2.5.4.2 dưới đây: Web-based Interfaces (Client) Web/Application Server Active Directory Data mart #1 Data mart #2 Cube #1 Cube#2 Hình 2.5.4.2. Hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu Các cấu phần trong hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu trên hình 2.5.4.2: Tầng giao diện: Người sử dụng truy cập qua web để khai thác, phân tích báo cáo. Tầng ứng dụng: Cung cấp các ứng dụng, dịch vụ khi thực thi các yêu cầu từ tầng giao diện, phân trang dữ liệu khi truy vấn dữ liệu lớn. Active Directory là hệ thống phân quyền đang được ngân hàng sử dụng để đăng nhập vào hệ điều hành. Hệ thống tập trung sẽ sử dụng và xác thực vào Active Directory để khai thác, phân tích và phân phối kho dữ liệu.  Cung cấp một tài khoản duy nhất để khai thác kho dữ liệu. Tầng dữ liệu: Các kho dữ liệu chuyên đề, dữ liệu đa chiều trong hệ thống kho dữ liệu. Chức năng của hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu: - Hệ thống báo cáo tập trung - Khai thác nhiều nguồn dữ liệu - Đặc tả dữ liệu - Tạo báo cáo động - Phân phối báo cáo theo nhiều định dạng: html, pdf, excel… - Tích hợp, tương thích với nhiều hệ thống user: NTLM, Active Directory, Thử nghiệm mô hình mới giữa [ET][L] và [E][T][L] Test 1 (Single table): Trích xuất 1 bảng 4 triệu bản ghi, tương ứng dữ liệu khoảng 600MB Test 2 (Multi tables): Trích xuất đồng thời 3 bảng, số bản ghi mỗi bảng tương ứng là 4 triệu, 3 triệu và 4 triệu bản ghi. Tổng dung lượng dữ liệu khoảng 5.9 GB Test 3 (Join tables): Trích xuất 3 triệu bản ghi, tổng hợp từ liên kết “join” 2 bảng 4 triệu và 3 triệu bản ghi. Test 4 (Calculate Join tables): Trích xuất 3 triệu bản ghi được tổng hợp từ liên kết và tính toán giữa 2 bảng 4 triệu và 3 triệu bản ghi. Kết quả sau 4 lần test thể hiện trong hình 2.5.5.1 và 2.5.5.2: Hình 2.5.5.1. Kết quả sau 4 lần kiểm thử về thời gian trích xuất Hình 2.5.5.2. Kết quả sau 4 lần kiểm thử về % CPU sử dụng trên core-banking Kết quả thực nghiệm cho thấy tốc độ xử lý khi thiết kế mô hình [E][T][L] dựa trên Datastage vượt trội hơn khi thiết kế [ET][L] trên DTS khi trích xuất đồng thời nhiều bảng dữ liệu cùng một lúc. Đối với trích lọc dữ liệu cần các xử lý liên kết bảng và tính toán, mô hình [E][T][L] dựa nhiều vào hiệu năng máy chủ ETL, trong trường hợp này mô hình [ET][L] có phần nhỉnh hơn do hiệu năng core-banking mạnh hơn. Tuy nhiên mô hình [ET][L] làm core-banking phải chịu tải rất lớn, mô hình [E][T][L] lại không gây tải hệ thống core-banking. Chương 3: ÁP DỤNG HỆ THỐNG CẢI TIẾN CHO BÁO CÁO TIỀN GỬI Mô hình hệ thống kho dữ liệu thử nghiệm cho chương trình báo cáo sản phẩm tiền gửi: Mô hình logic: Hệ thống tập trung Khai thác & Phân phối AS/400 STAGING AREA ENTERPRISE DATA MODEL SOURCE DATA DD CD LN GL ATM STAGING DATABASE EDM DTS [E][T][L] DTS SPTG (ROLAP) Mô hình vật lý: Report Viewer Report Viewer COGNOS SERVER AS/400 EDM SPTG SERVER CLIENT DATASTAGE SERVER Luồng thiết kế: Thiết kế kho dữ liệu chuyên đề (CSDL SPTG) Thiết kế dữ liệu đa chiều Thiết kế Job trích xuất dữ liệu từ EDM vào CSDL SPTG Phân phối báo cáo KẾT LUẬN Luận văn này bước đầu chứng tỏ được tính hiệu quả của hệ thống mới do tác giả đề xuất so với hệ thống hiện có. Nếu được triển khai áp dụng sẽ cải tiến và tối ưu được hệ thống kho dữ liệu hiện tại, giảm tải hệ thống core-banking, mở ra một hướng mới trong phát triển bài toán phân tích và phân phối dữ liệu tại Ngân hàng BIDV, cung cấp công cụ chuyên nghiệp cho người lập trình tại Trung tâm CNTT cũng như người sử dụng cuối ở các bộ phận nghiệp vụ. Các kết quả của luận văn có thể được tóm tắt: 1. Nghiên cứu hệ thống kho dữ liệu ngân hàng hiện có, từ đó phân tích, đánh giá và đưa ra các mặt hạn chế của hệ thống cũ. 2. Đề xuất hệ thống kho dữ liệu mới nhằm cải tiến các mặt hạn chế của mô hình cũ, trong đó: - Thay đổi cơ chế trích lọc dữ liệu từ thiết kế dưới dạng [ET][L] và [EL][T] sang dạng [E][T][L]. - Chuyển đổi kho dữ liệu từ mô hình MOLAP sang mô hình ROLAP. 3. Xây dựng thêm hệ thống tập trung khai thác, phân tích và phân phối kho dữ liệu đến người dùng cuối, người sử dụng chỉ cần duy nhất một tài khoản đăng nhập hệ thống. 4. Thiết kế các thử nghiệm trên mô hình. Xây dựng được hệ thống kho dữ liệu thử nghiệm theo mô hình cho chương trình báo cáo sản phẩm tiền gửi. Trong tương lai, nếu các kho dữ liệu chuyên đề hoặc chương trình báo cáo phục vụ công tác quản trị điều hành được phát triển trên hệ thống này, hiệu quả kinh tế sẽ được phát huy rõ rệt. Người sử dụng có thể chủ động sử dụng công cụ này để tự khai thác và xây dựng các báo cáo nghiệp vụ. References. TÀI LIỆU THAM KHẢO Tiếng Việt 1. Đỗ Trung Tuấn (1998), Cơ sở dữ liệu quan hệ, NXB Giáo dục. 2. Jeffrey D. Ullman (1999), Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức, Biên dịch : Trần Đức Quang tập 1, tập 2, NXB Thống kê. 3. Trang tin điện tử Ngân hàng Nhà nước Việt Nam, http://sbv.gov.vn/wps/portal/ Tiếng Anh 4. Bach Pedersen, Torben, S. Jensen, Christian (2001), Multidimensional Database Technology, Distributed Systems Online (IEEE). 5. Elmasri, Ramez (2011), Fundamentals of database systems, Boston, Addison-Wesley. 6. IBM Data warehousing, http://www- 142.ibm.com/software/products/us/en/category/SWM00?lnk=msoST-dwar-usen 7. Jiawei Han, Micheline Kamber (2009), Data Mining: Concepts and Techniques. 8. Microsoft TechNet, TechNet Library, http://technet.microsoft.com/en-us/library/ 9. Oracle Data Warehousing, http://www.oracle.com/us/products/database/datawarehousing/overview/index.html 10. R. Kimball, The Data Warehouse Toolkit, Wiley Computer Publishing, New York, 1996. 11. SilverLake (2004), Technical Document Data Warehouse. 12. Thomsen, E., OLAP Solutions: Building Multidimensional Information Systems, Wiley, New York. . 1: HỆ THỐNG KHO DỮ LIỆU Tổng quan kho dữ liệu Giới thiệu khái niệm, cấu trúc cơ bản của một hệ thống kho dữ liệu. Hệ thống kho dữ liệu trong ngân hàng Nghiên cứu, tìm hiểu hệ thống kho dữ liệu. và phân phối kho dữ liệu.  Cung cấp một tài kho n duy nhất để khai thác kho dữ liệu. Tầng dữ liệu: Các kho dữ liệu chuyên đề, dữ liệu đa chiều trong hệ thống kho dữ liệu. Chức năng của hệ. Keywords. Công nghệ phần mềm; Công nghệ thông tin; Cơ sở dữ liệu; Ngân hàng; Tin học Content. Luận văn tìm hiểu và cải tiến hệ thống kho dữ liệu trong ngân hàng gồm 3 chương, 36 hình vẽ và 10 bảng.

Ngày đăng: 25/08/2015, 11:34

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan