Đang tải... (xem toàn văn)
ÁP DỤNG KỸ THUẬT OLAP VÀ KHO DỮ LIỆU TRONG DỰ BÁO TÀI CHÍNH
2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Ngọc Anh ÁP DỤNG KỸ THUẬT OLAP VÀ KHO DỮ LIỆU TRONG DỰ BÁO TÀI CHÍNH KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Các hệ thống thông tin HÀ NỘI - 2010 3 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Ngọc Anh ÁP DỤNG KỸ THUẬT OLAP VÀ KHO DỮ LIỆU TRONG DỰ BÁO TÀI CHÍNH KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Các hệ thống thông tin Cán bộ hướng dẫn: TS. Nguyễn Hà Nam Cán bộ đồng hướng dẫn: Ths. Nguyễn Thu Trang HÀ NỘI - 2010 4 Lời cảm ơn Trước tiên tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới TS.Nguyễn Hà Nam và Ths.Nguyễn Thu Trang đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn các thầy, các cô đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu tại trường Đại Học Công Nghệ. Tôi xin cảm ơn các bạn trong nhóm làm “Data Warehouse và OLAP” đã cùng thả o luận và trao đổi và giúp tôi rất nhiều trong quá trình thu thập tài liệu. Tôi xin gửi lời cảm ơn vô hạn tới gia đình, bạn bè, những người thân yêu đã luôn bên cạnh động viên tôi trong suốt quá trình thực hiện khóa luận. Tôi xin chân thành cảm ơn! Sinh viên Vũ Ngọc Anh 1 Mục lục Mục lục 1 Danh sách các hình 3 Bảng từ viết tắt 5 Lời mở đầu 6 Chương 1. Giới thiệu kho dữ liệu và dữ liệu tài chính 7 1.1. Dữ liệu trong lĩnh vực tài chính 7 1.2. Kho dữ liệu (Data warehouse) 8 1.2.1. Kho dữ liệu 8 1.2.2. Mục đích của kho dữ liệu 9 1.2.3. Lợi ích của kho dữ liệu 9 1.2.4. Thành phần của kho dữ liệu 10 1.2.5. Cấu trúc của kho dữ liệu 11 1.2.6. Mô hình thực thể trong kho dữ liệu 12 1.2.7. Các lĩnh vực ứng dụng của kho dữ liệu 15 Chương 2. Kỹ thuật phân tích OLAP 16 2.1. Giới thiệu OLAP 16 2.2. Mô hình dữ liệu đa chiều 16 2.3. Kiến trúc khối (Cube) của OLAP 18 2.4. So sánh OLAP và OLTP 19 2.5. Các thành phần của OLAP 20 2.6. Chuyển đổi dữ liệu từ OLTP tới OLAP 21 2.7. Các mô hình lưu trữ hỗ trợ OLAP 22 2.7.1. Mô hình Multidimentional OLAP (MOLAP) 22 2.7.2. Mô hình Relational OLAP (ROLAP) 23 2.7.3. Mô hình Hybird OLAP (HOLAP) 24 2.7.4. So sánh các mô hình 25 Chương 3. Bộ công cụ Pentaho 26 3.1 Tổng quan 26 3.2 Các khả năng BI của pentaho 26 2 3.3 Những đặc tính và lợi ích 29 Chương 4. Giới thiệu bài toán triển khai trên Pentaho và kết quả đạt được 33 4.1. Giới thiệu bài toán 33 4.2. Thu thập,xử lý dữ liệu 33 4.3. Tạo data warehouse 36 4.4. Xử lý dữ liệu bằng kỹ thuật OLAP 42 4.4.1. Tạo cube 42 4.4.2. Analysis View 43 Kết luận 52 Tài liệu tham khảo 53 3 Danh sách các hình Hình 1. Các thành phần của kho dữ liệu 11 Hình 2. Mô hình sao 13 Hình 3. Mô hình bông tuyết 14 Hình 4. Mô hình chòm sao 15 Hình 5. Mô phỏng các chiều trong kinh doanh 17 Hình 6. Mô hình dữ liệu MOLAP 22 Hình 7. Mô hình dữ liệu ROLAP 23 Hình 8. Mô hình dữ liệu HOLAP 24 Hình 9. Cấu trúc Pentaho 26 Hình 10. Dữ liệu tỷ giá 33 Hình 11. Dữ liệu giá vàng 34 Hình 12. Dữ liệu giá dầu 35 Hình 13. Dữ liệu chỉ số VnIndex 35 Hình 14. Dữ liệu tổng hợp 36 Hình 15. Mô hình kho dữ liệu 37 Hình 16. Spoon workspace 37 Hình 17. Spoon nhập dữ liệu 38 Hình 18. Combination Lookup/Update 38 Hình 19. Thay đổi thuộc tính 39 Hình 20. Kết nối cơ sở dữ liệu 39 Hình 21. Tạo bảng Dim_time 40 Hình 22. Tạo bảng dim_factor 40 Hình 23. Tạo Table Output 41 4 Hình 24. Tạo bảng fact_price 41 Hình 25. Nhập dữ liệu 42 Hình 26. Kết nối cơ sở dữ liệu 42 Hình 27. Kiến trúc Cube 43 Hình 28. Repository Login 43 Hình 29. Kết nối cơ sở dữ liệu 44 Hình 30. Khung làm việc Pentaho 45 Hình 31. Chọn schema và cube 45 Hình 32. Dữ liệu schema và cube 45 Hình 33. Nội dung phân tích 46 Hình 34. Chọn Measures 46 Hình 35. Chọn factor 46 Hình 36. Chọn năm phân tích 47 Hình 37. Chọn chi tiết ngày tháng 47 Hình 38. Chọn loại biểu đồ 48 Hình 39. Biểu đồ tỷ giá USD/VND 48 Hình 40. Biểu đồ giá vàng 49 Hình 41. Biểu đồ giá dầu 49 Hình 42. Biểu đồ chỉ số VnIndex 50 Hình 43. Biểu đồ giá vàng và giá dầu 50 Hình 44. Biểu đồ tỷ giá và giá vàng 51 Hình 45. Biểu đồ giá vàng và VNIndex 51 5 Bảng từ viết tắt OLAP Online Analysis Processing MOLAP Multidimensional Online Analysis Processing ROLAP Relational Online Analysis Processing HOLAP Hybird Online Analysis Processing BI Business Intelligence OLTP OnLine Transaction Processing 6 Lời mở đầu Cùng với việc áp dụng rộng rãi công nghệ thông tin vào trong hầu hết các lĩnh vực trong đời sống, kinh tế, xã hội đó là việc dữ liệu thu nhận được qua thời gian ngày càng nhiều.Vì vậy, yêu cầu thiết yếu đặt ra đối với các doanh nghiệp đó là việc khai thác các dữ liệu này một các hiệu quả để phục vụ cho việc kinh doanh ngày càng tốt hơn. Khóa luận này với đề tài “Áp dụng kỹ thuật OLAP và kho dữ liệu trong báo cáo tài chính” giới thiệu về kho dữ liệu, phương pháp OLAP và ứng dụng trong phân tích biên động giá dầu, giá vàng và chỉ số VNIndex bằng công cụ Pentaho. Khóa luận gồm bốn chương: Chương 1. Giới thiệu kho dữ liệu và dữ liệu tài chính giới thiệu về đặc điểm của dữ liệu tài chính, giới thiệu tổng quan về kho dữ liệu, cấu trúc kho dữ liệu, các thành phần của kho dữ liêu, cách thiết kế kho dữ liệu và ứng dụng của kho dữ liệu. Chương 2. Giới thiệu tổng quan về OLAP giới thiệu tổng quan về kỹ thuật OLAP, các mô hình lưu trữ hỗ trợ kỹ thuật OLAP, ưu điểm và nhược điểm của các mô hình. Các bước để chuyển dữ liệu từ OLTP sang OLAP. Chương 3. Giới thiệu bộ công cụ Pentaho giới thiệu tổng quan bộ công cụ Pentaho, kiến trúc, công nghệ, và các tiện ích của Pentaho. Chương 4. Giới thiệu bài toán triển khai trên Pentaho và kết quả đạt được triển khai Pentaho trên một bài toán thực, áp dụng kỹ thuật kho dữ liệu và kỹ thuật OLAP để thực hiện Phần kết luận tổng kết và tóm lược những kết quả, đóng góp chính của khóa luận. 7 Chương 1. Giới thiệu kho dữ liệu và dữ liệu tài chính 1.1. Dữ liệu trong lĩnh vực tài chính Với đặc điểm tính toán chính xác, nhanh chóng, khách quan nên công nghệ thông tin được áp dụng khá rộng rãi trong lĩnh vực tài chính từ rất sớm. Dữ liệu trong lĩnh vực tài chính có đặc điểm sau: - Luôn luôn biến đổi - Dữ liệu phân tán - Giao dịch chồng chéo - Số lượng giao dịch lớn Do đó, cần có một chiến lược lưu trữ dữ liệu một cách hiệu quả.Những hệ thống đáp ứng được các đặc điểm trên thuộc nhóm hệ thống xử lý giao dịch trực tuyến OLTP (OnLine Transaction Processing)[4]. Các ứng dụng xử lý giao dịch trực tuyến – OLTP (OnLine Transaction Processing) là những ứng dụng giúp người dùng truy cập trực tiếp thông tin theo hình thức ứng dụng Client/Server. OLTP bao gồm một dãy lệnh: thu nhận (gathering) dữ liệu đầu vào, xử lý (processing) dữ liệu, và cập nhật (updating) dữ liệu cũ với dữ liệu mới được nhập và xử lý. OLTP là phương thức hiệu quả khi người dùng muốn: - Xử lý các dữ liệu đơn với số lượng và tần số không thể ước lượng. - Truy cập tức thì vào dữ liệu đã được cập nhật, phản ánh các giao dịch trước đó. - Thay đổi dữ liệu tức thì để phản ánh giao dịch vừa xử lý. Các chức năng cơ bản của OLTP[4]: cùng với khả năng truy cập và cập nhật các dữ liệu chia sẻ, các hệ thống OLTP còn hỗ trợ các user khả năng truy cập trực tuyến (online), khả năng truy cập tức thời (availability), khả năng phản hồi nhanh chóng (response), và tiết kiệm chi phí đối với từng transaction (low cost). Để trả lời các câu hỏi đơn giản trong quá trình kinh doanh như doanh thu của tháng [...]... giỳp ngi dựng to ra cỏc chc nng ca riờng h [15] 2.7.3 Mụ hỡnh Hybird OLAP (HOLAP) Mụ hỡnh OLAP lai (HOLAP) l s kt hp gia MOLAP v ROLAP Hỡnh 8 Mụ hỡnh d liu HOLAP Lu tr cỏc khi (cube) trong cu trỳc HOLAP l tt nht cho cỏc truy vn tng hp d liu thng xuyờn da trờn mt lng ln d liu c s Vớ d, chỳng ta s lu tr d liu bỏn hng theo hng quý, hng nm trong cu trong MOLAP v d liu hng thỏng, hng tun v hng ngy trong cu... cha trong chớnh nú [15] - Yờu cu u t thờm: Cụng ngh to khi thng c c quyn v khụng tn ti trong t chc no Vỡ vy, s dng cụng ngh MOLAP cn phi u t b sung thờm vn v nhõn lc [15] 2.7.2 Mụ hỡnh Relational OLAP (ROLAP) Mụ hỡnh OLAP quan h (ROLAP) lu tr d liu c s v thụng tin tng hp trong cỏc bng quan h Cỏc bng ny c lu tr trong cựng c s d liu nh l cỏc bng ca data mart hoc kho d liu Hỡnh 7 Mụ hỡnh d liu ROLAP... dng kho d liu D liu phi nht l d liu hp thi nht, y nht, chớnh xỏc nht, v cú s thớch nghi v cu trỳc nht trong kho d liu D liu phi nht thng úng nht i vi ngun ghi nhn trong mụi trng sn xut Trong nhng trng hp khỏc, mt h thng bn ghi cú th l mt ni dựng cha d liu tng hp 1.2.5 Cu trỳc ca kho d liu Mt kho d liu cú th cú mt vi phn ca cu trỳc sau: 11 Kho d liu mc vt lý C s d liu mc vt lý trong tt c d liu ca kho. .. trong cỏc cu trỳc a chiu gi l cỏc khi (cube) Cỏc cu trỳc ny c lu bờn ngoi c s d liu data mart hoc kho d liu D liu trong mụi trng OLAP Mysql Oracle MOLAP data Other Hỡnh 6 Mụ hỡnh d liu MOLAP Lu tr cỏc khi (cube) trong cu trỳc MOLAP l tt nht cho cỏc truy vn tng hp d liu thng xuyờn m cn thi gian hi ỏp nhanh Vớ d, tng sn phm bỏn c ca tt c cỏc vựng theo quý u im ca mụ hỡnh MOLAP: - Thc thi nhanh: khi trong. .. MOLAP v d liu hng thỏng, hng tun v hng ngy trong cu trỳc ROLAP[15] Li ớch ca vic lu tr trong cu trỳc HOLAP l: - Ly d liu trong khi (cube) nhanh hn bng cỏch s dng x lý truy vn tc cao ca MOLAP - Tiờu th ớt khụng gian lu tr hn MOLAP - Trỏnh trựng lp d liu 24 2.7.4 So sỏnh cỏc mụ hỡnh Bng sau so sỏnh tng hp ba mụ hỡnh lu tr h tr OLAP: MOLAP ROLAP HOLAP Lu tr d liu c s Khi Bng quan h Bng quan h Lu tr thụng... thnh phn thụng tin v c ct vo kho Ngi s dng kho d liu a ra nhng yờu cu v c cung cp sn phm c to ra t cỏc thnh phn v cỏc phõn on c lu trong kho Mt kho d liu c xỏc nh ỳng hng, hot ng hiu qu cú th tr thnh mt cụng c cnh tranh cú giỏ tr cao trong kinh doanh 1.2.2 Mc ớch ca kho d liu Mc tiờu chớnh ca kho d liu l t nhng mc tiờu sau: - Phi cú kh nng ỏp ng mi thụng tin yờu cu ca ngi dựng - H tr nhõn viờn ca t chc... cho kho d liu Nguyờn nhõn chớnh cho s phỏt trin mt kho d liu l hot ng tớch hp d liu t nhin ngun khỏc nhau vo mt kho d liu n l v dy c m kho ny cung cp cho vic phõn tớch v ra quyt nh trong cụng vic kinh doanh i vi mt s cụng vic kinh doanh thụng tin l ngun ti nguyờn cú giỏ tr rt ln thỡ mt kho d liu tng i ging nh mt nh kho cha hng H iu hnh to 8 ra nhng phn d liu v np chỳng vo kho Mt s phn c túm tt trong. .. cha cỏc d liu cú th chuyn i thnh d liu OLAP trong kho lu tr - Kho trung gian: l ni lu tr v x lý d liu c tp hp, sau ú c sp xp, sng lc, chuyn i thnh d liu OLAP hu ớch - Mỏy ch lu tr: Cỏc mỏy tớnh chy c s d liu liờn kt cha cỏc kho d liu cho kho lu tr, v cỏc mỏy ch qun lý d liu OLAP (warehouse server) - ng dng thụng minh: Cỏc b cụng c v ng dng thc hin truy vn d liu OLAP v cung cp cỏc bỏo cỏo v thụng tin... hiu mt cỏch tt nht nhng thụng tin trong kho lu tr T ú cho phộp ngi s dng nhn bit c giỏ tr ca d liu 2.7 Cỏc mụ hỡnh lu tr h tr OLAP Dch v OLAP h tr nhiu mụ hỡnh lu tr d liu khỏc nhau, mi mụ hỡnh cú cỏc u v khuyt im riờng, chỳng c s dng tu theo mc ớch khai thỏc 2.7.1 Mụ hỡnh Multidimentional OLAP (MOLAP) Mụ hỡnh OLAP a chiu (MOLAP) lu tr d liu c s (l d liu t cỏc bng ca kho d liu hoc data mart) v thụng... cỏc khi trong cu trỳc ROLAP l tt nht cho cỏc truy vn d liu khụng thng xuyờn Vớ d nh nu 80% ngi dựng truy vn ch d liu trong vũng mt nm tr li õy, cỏc d liu c hn mt nm s c a vo mt cu trỳc ROLAP gim khụng gian a b chim dng, hn na cũn loi tr d liu trựng lp u im ca mụ hỡnh ROLAP: - Cú th x lý lng d liu ln: Kớch thc gii hn ca ROLAP ph thuc vo kớch thc ca c s d liu ngn Núi cỏch khỏc, bn thõn cụng ngh ROLAP . Giới thiệu kho dữ liệu và dữ liệu tài chính 7 1.1. Dữ liệu trong lĩnh vực tài chính 7 1.2. Kho dữ liệu (Data warehouse) 8 1.2.1. Kho dữ liệu 8 1.2.2 Giới thiệu kho dữ liệu và dữ liệu tài chính giới thiệu về đặc điểm của dữ liệu tài chính, giới thiệu tổng quan về kho dữ liệu, cấu trúc kho dữ liệu, các