Xây dựng kho dữ liệu phục vụ quản lý và khai thác thông tin

92 249 0
Xây dựng kho dữ liệu phục vụ quản lý và khai thác thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THANH TÙNG XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ QUẢN KHAI THÁC THÔNG TIN Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS Trần Đình Khang Hà Nội – Năm 2015 LỜI CẢM ƠN Trước hết, tác giả xin chân thành cảm ơn thầy PGS.TS Trần Đình Khang hết lòng giúp đỡ, hướng dẫn dạy tận tình trình tác giả thực luận văn tốt nghiệp Tác giả xin gửi lời cảm ơn chân thành tới thầy cô giáo trường Đại học Bách khoa Hà nội nói chung thầy cô Viện Công nghệ Thông tin Truyền thông nói riêng tận tình giảng dạy, truyền đạt cho tác giả kiến thức kinh nghiệm quý báu suốt năm học tập rèn luyện Cuối cùng, tác giả xin gửi lời cảm ơn tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ tác giả trình học tập, nghiên cứu hoàn thành luận văn tốt nghiệp Hà Nội, ngày tháng năm 2015 Học viên thực Nguyễn Thanh Tùng MỤC LỤC MỞ ĐẦU CHƯƠNG I: KHO DỮ LIỆU 10 1.1 TỔNG QUAN VỀ KHO DỮ LIỆU 10 1.1.1 Những vấn đề 10 1.1.2 Các kiểu liệu 11 1.1.3 Kiến trúc kho liệu 12 1.2 XÂY DỰNG KHO DỮ LIỆU 17 1.2.1 Lập kế hoạch 17 1.2.2 Xác định yêu cầu hệ thống 18 1.2.3 Các thành phần kho liệu 20 1.2.4 Mô hình liệu 20 1.2.5 Tạo lập kho liệu 23 1.3 XỬ KHAI THÁC DỮ LIỆU 25 1.3.1 Truy cập khai thác liệu 25 1.3.2 Xử phân tích trực tuyến OLAP 29 CHƯƠNG II: PHẦN MỀM HẠ TẦNG CỒNG THÔNG TIN LIFERAY 36 2.1 GIỚI THIỆU TỔNG QUAN 36 2.1.1 Định nghĩa 36 2.1.2 Các tính 36 2.1.3 Đặc trưng công nghệ 37 2.2 CÀI ĐẶT PORTAL LIFERAY TRÊN MÔI TRƯỜNG WINDOWS 38 2.2.1 Cài đặt JDK 38 2.2.2 Cài trình biên dịch ANT 39 2.2.3 Cài đặt PostgreSQL 39 2.2.4 Cài đặt Liferay 40 CHƯƠNG III: XÂY DỰNG KHO DỮ LIỆU ĐẠI HỌC SƯ PHẠM KỸ THUẬT HƯNG YÊN (UTEHY) 41 3.1 TỔNG QUAN CHUNG 41 3.2 DỮ LIỆU TRONG KHO DỮ LIỆU 42 3.2.1 Dữ liệu nghiệp vụ 42 3.2.2 Siêu liệu 42 3.3 XÂY DỰNG KHO DỮ LIỆU 42 3.3.1 Lập kế hoạch 43 3.3.2 Yêu cầu hệ thống 43 3.3.3 Mô hình liệu 43 3.3.4 Các nguồn liệu 45 3.3.5 Tạo lập kho liệu 46 3.3.6 Các bước cài đặt vật cho kho liệu 54 3.4 ỨNG DỤNG CỔNG THÔNG TIN LIFERAY UTEHY PORTAL 57 3.4.1 Mục tiêu ứng dụng 57 3.4.2 Yêu cầu chức 57 3.4.3 Yêu cầu tính kỹ thuật 63 3.4.4 Phân tích hệ thống 66 3.4.6 Xây dựng ứng dụng 74 3.4.7 Kết 86 CHƯƠNG IV: KẾT LUẬN HƯỚNG PHÁT TRIỂN 91 TÀI LIỆU THAM KHẢO 92 DANH MỤC HÌNH Hình 1 Kiến trúc liệu ba tầng 13 Hình Kiến trúc liệu Metadata 13 Hình Kiến trúc ba tầng DW 14 Hình Toàn kiến trúc logic chức DW 16 Hình Tổng quan kiến trúc kho liệu 17 Hình Lược đồ tuyết 21 Hình Mô hình liệu đa chiều 22 Hình Quá trình tạo lập liệu DW 24 Hình Các công cụ hỗ trợ khai thác kho liệu 26 Hình 10 Một số lĩnh vực ứng dụng DW qui trình khai thác thông tin 27 Hình 11 Các bước thực để sử dụng liệu kho 28 Hình 12 OLAP kiến trúc kho liệu 31 Hình File kết nối Liferay với hệ quản trị sở liệu PostgreSQL 40 Hình Thông tin kết học tập sinh viên 46 Hình Mô hình quan hệ hệ quản trị sở liệu PostgreSQL 50 Hình 3 Bảng _Dim_SinhVien 51 Hình Bảng _Dim_MonHoc 52 Hình Bảng _Dim_Lop 53 Hình Sơ đồ USECASE tổng quát cúa UTEHY Portal 71 Hình Sơ đồ Quản người dùng UTEHY Portal 72 Hình Sơ đồ Quản chuyên mục UTEHY Portal 73 Hình Cấu trúc trang UTEHY Portal 74 Hình 10 Trang Lời giới thiệu 75 Hình 11 Trang Đội ngũ cán 76 Hình 12 Trang Lịch sử phát triển 76 Hình 13 Trang Tầm nhìn sứ mạng 77 Hình 14 Trang Chiến lược phát triển 77 Hình 15 Trang Ban giám hiệu 78 Hình 16 Trang Cơ cấu tổ chức 78 Hình 17 Trang Công khai 79 Hình 18 Trang Quy mô đào tạo 79 Hình 19 Trang Đào tạo Sau đại học 80 Hình 20 Trang Đào tạo Đại học - Cao đẳng 80 Hình 21 Trang Hợp tác đào tạo 81 Hình 22 Trang Tuyển sinh 81 Hình 23 Trang Cơ hội việc làm 82 Hình 24 Trang Tin trường 82 Hình 25 Trang Tin trường 83 Hình 26 Trang Phòng ban chức 83 Hình 27 Trang Khoa môn 84 Hình 28 Trang Cơ sở 84 Hình 29 Trang Thư viện tài liệu 85 Hình 30 Trang Lịch công tác 85 Hình 31 Trang Các văn 86 Hình 32 Trang Liên hệ 86 Hình 33 Báo cáo lực học sinh viên thuộc khóa học dạng cột 88 Hình 34 Báo cáo thống kê số lượng giới tính dạng 89 Hình 35 Theo dõi điểm toán sinh viên khóa 89 Hình 36 Theo dõi điểm tổng kết sinh viên khóa 89 Hình 37 Học lực sinh viên theo kỳ học 90 DANH MỤC BẢNG Bảng Bảng sở liệu 49 Bảng Các chức cần có cổng thông tin điện tử 62 Bảng 3 Các chức nên có cổng thông tin điện tử 63 Bảng Các tính kỹ thuật cần có cổng thông tin điện tử 66 Bảng Các tính kỹ thuật nên có cổng thông tin điện tử 66 MỞ ĐẦU I chọn đề tài Trong bối cảnh toàn cầu hóa ngày nay, công nghệ thông tin (CNTT) truyền thông dần trở thành nguồn lực quan trọng phát triển kinh tế, xã hội Các hệ thống thông tin xây dựng thực đem lại hiệu lợi ích cho quan, tổ chức, đơn vị nhà nước, doanh nghiệp cộng đồng người sử dụng Chính thế, việc ứng dụng CNTT vào hoạt động quản chủ trương lớn nhà nước Trường Đại học sư phạm kỹ thuật Hưng Yên trường đại học công lập thuộc Bộ Giáo dục & Đào tạo, đào tạo nhiều ngành nghề với nhiều hình thức nhiều hệ đào tạo khác Các thông tin liên quan đến HSSV sở để Nhà trường đánh giá chất lượng giảng dạy học tập, lập báo cáo định hướng kế hoạch tuyển sinh, hướng đào tạo cho HSSV khóa Trong năm gần Nhà trường đưa vào sử dụng khai thác nhiều phần mềm hỗ trợ cho công tác đào tạo phần mềm Edusoft: lập thời khóa biểu, quản hồ sơ học sinh sinh viên, Bên cạnh số phần mềm tiện ích khác như: Quản vật tư, quản học phí, bước đầu thống quy trình, biểu mẫu Tuy nhiên, sở liệu bị hạn chế kích thước, hạn chế hỗ trợ tính sinh báo cáo, định, dự đoán xu hướng cách nhanh Xuất phát từ vấn đề trên, học viên thực đề tài luận văn "Xây dựng kho liệu phục vụ quản khai thác thông tin", đề xuất xây dựng kho liệu thông tin sinh viên với mong muốn góp phần trợ giúp cho công tác quản đào tạo trường Đại học Sư phạm Kỹ thuật Hưng Yên II Mục đích nhiệm vụ nghiên cứu Mục đích Xây dựng kho liệu hỗ trợ cho việc quản khai thác thông tin trường Đại học Sư phạm kỹ thuật Hưng Yên Nhiệm vụ - Nghiên cứu tổng quan kho liệu: Định nghĩa, đặc điểm liệu, kiểu liệu, kiến trúc kho liệu,… - Nghiên cứu cách thức xây dựng kho liệu: Lập kế hoạch, xác định yêu cầu, phân tích thành phần kho liệu, mô hình liệu, tạo lập kho liệu - Nghiên cứu việc truy cập khai thác liệu kho liệu - Nghiên cứu tính năng, đặc trưng công nghệ phần mềm hạ tầng cổng thông tin dùng mã nguồn mở Liferay - Cài đặt Liferay Portal môi trường Windows - Xây dựng Kho liệu trường Đại học Sư phạm kỹ thuật Hưng Yên Đối tượng nghiên cứu - Phần mềm hạ tầng cổng thông tin Liferay - Hệ quản trị sở liệu PostgresQL Phương pháp nghiên cứu Các phương pháp nghiên cứu chính: - Phương pháp phân tích tổng hợp thuyết - Phương pháp nghiên cứu thực nghiệm III Tóm tắt cô đọng luận điểm đóng góp tác giả - Tác giả tập trung nghiên cứu kho liệu, vấn đề liên quan đến kho liệu: đặc điểm liệu, kiểu liệu, kiến trúc kho liệu, xây dựng kho liệu - Nghiên cứu, tìm hiểu hệ quản trị sở liệu PostgreSQL, xây dựng kho liệu thông tin sinh viên PostgreSQL - Tích hợp, lưu trữ liệu cồng thông tin Liferay vào kho liệu xây dựng PostgreSQL CHƯƠNG I: KHO DỮ LIỆU 1.1 TỔNG QUAN VỀ KHO DỮ LIỆU 1.1.1 Những vấn đề a Định nghĩa Kho liệu (Data Warehouse - DW) tập hợp CSDL tích hợp, hướng chủ đề, thiết kế để hỗ trợ cho chức tạo định, mà đơn vị liệu liên quan tới khoảng thời gian cụ thể Kho liệu thường lớn, xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu liệu khác cho kết hợp ứng dụng công nghệ đại kế thừa từ hệ thống có sẵn từ trước b Mục đích yêu cầu Mục đích kho liệu nhằm đáp ứng yêu cầu thông tin NSD Hỗ trợ để nhân viên tổ chức thực tốt, hiệu công việc Giúp cho tổ chức, xác định, quản điều hành dự án, nghiệp vụ cách hiệu xác Tích hợp liệu siêu liệu từ nhiều nguồn khác Yêu cầu kho liệu: Nâng cao chất lượng liệu phương pháp làm tinh lọc liệu theo hướng chủ đề định Tổng hợp kết nối liệu Đồng hoá nguồn liệu với DW Phân định đồng hệ quản trị sở liệu tác nghiệp công cụ chuẩn để phục vụ cho DW Quản lí siêu liệu, cung cấp thông tin tích hợp, tóm tắt liên kết, tổ chức theo chủ đề Dùng hệ thống hỗ trợ định, hệ thống thông tin tác nghiệp hỗ trợ cho truy vấn đặc biệt c Đặc điểm liệu kho liệu - Tính tích hợp (Integration): Kho liệu thường xây dựng cách tổng hợp liệu từ nhiều nguồn khác nhau, ví dụ sở liệu, ghi giao tác trực tuyến chí từ file liệu độc lập Những liệu 10 Hình 15 Trang Ban giám hiệu Hình 16 Trang Cơ cấu tổ chức 78 Hình 17 Trang Công khai b Nhóm trang Đào tạo Hình 18 Trang Quy mô đào tạo 79 Hình 19 Trang Đào tạo Sau đại học Hình 20 Trang Đào tạo Đại học - Cao đẳng 80 Hình 21 Trang Hợp tác đào tạo Hình 22 Trang Tuyển sinh 81 Hình 23 Trang Cơ hội việc làm c Nhóm trang Tin tức Hình 24 Trang Tin trường 82 Hình 25 Trang Tin trường d Nhóm trang Các đơn vị Hình 26 Trang Phòng ban chức 83 Hình 27 Trang Khoa môn Hình 28 Trang Cơ sở 84 Hình 29 Trang Thư viện tài liệu Hình 30 Trang Lịch công tác 85 Hình 31 Trang Các văn Hình 32 Trang Liên hệ 3.4.7 Kết a Các chức UTEHY 86 TT Tên chức Mô tả chi tiết Người sử dụng có khả thay đổi màu sắc, giao Cá nhân hóa tùy diện nền, phông chữ chọn mẫu hiển thị biến có sẵn Việc tùy biến phụ thuộc hoàn toàn phía người sử dụng Đăng nhập, xác thực phân quyền Người sử dụng đăng nhập lần sau truy cập sử dụng dịch vụ cổng thông tin cách thống Cung cấp khả quản nhiều cổng trang Quản cổng thông thông tin hoạt động hệ thống: Quản trị cổng, tin trang thông tin kênh thông tin, trang, module chức năng,… Cung cấp khả khai báo điều chỉnh Quản cấu hình module nghiệp vụ hỗ trợ hoạt động bên cổng thông tin Tích hợp nhiều kênh thông tin từ nguồn Tích hợp kênh thông tin khác lên cổng thông tin sử dụng chế tương tác định chuẩn Chức tìm kiếm Tìm kiếm thông tin phần toàn thông tin cổng thông tin Chức tìm kiếm, Cung cấp chức hỗ trợ người dùng khai xem thông tin thác cac thông tin có sẵn kho liệu thông liên quan đến học tin học sinh sinh viên UTEHY sinh sinh viên Quản trị người sử dụng Cho phép đăng ký tài khoản, cấp tài khoản cho người sử dụng, lưu trữ thông tin người sử dụng 87 b Các ví dụ xử với liệu kho liệu * Ví dụ: Báo cáo thống kê học lực sinh viên qua khóa học Hình 33 Báo cáo lực học sinh viên thuộc khóa học dạng cột Nhìn vào biểu đồ học lực sinh viên qua khóa học hình 3.33 Ta nhận thấy: Ở khóa đầu số lượng sinh viên có học lực tương đối cao Sau đó, khóa tiếp theo, số lượng sinh viên có học lực có xu hướng giảm Điều đó, cho ta nhận định lực học sinh viên xuống Dữ liệu đầu vào kỹ thuật thiết kế báo báo đặt vào nguồn ổn định, liệu làm vào chuẩn hóa - kho liệu Bản chất liệu kho nằm bảng kiện, liệu trực tiếp lấy xử lý, giúp loại bỏ nhiều lỗi sinh phải thu thập biểu diễn thông tin từ nhiều nguồn khác đồng thời giảm bớt chậm trễ phải lấy liệu từ phân đoạn khác nhau, tránh cho người dùng phải viết truy vấn SQL phức tạp Chẳng hạn, thiết kế báo báo hình 3.34, dùng nguồn CSDL thông thường, truy vấn phải thực công đoạn: Gom nhóm tính toán cho nhóm, chuyển đổi liệu dòng thành cột, việc viết truy vấn dạng đòi hỏi hiểu biết sâu ngôn ngữ SQL Báo cáo lấy nguồn từ CSDL thông thường, truy vấn thực chạy phải tính toán lại kết trung gian tốc độ thực báo cáo có nguồn kho liệu nhanh so với CSDL thông thường Để tạo lập báo cáo phức tạp phục vụ cho mục đích định doanh nghiệp, tab Design thêm vào báo cáo cần thiết chart, gause, image,… thiết lập tham số, trường liệu cho mục * Ví dụ: Theo dõi tỉ lệ giới tính sinh viên theo khóa học 88 Hình 34 Báo cáo thống kê số lượng giới tính dạng Hình 3.34 cho biết thông tin chi tiết tỉ lệ nam, nữ qua khóa học ngành, ta nhận xét: Số lượng sinh viên ngành có xu hướng nữ nhiều nam * Ví dụ: Theo dõi phụ thuộc điểm tổng kết sinh viên với điểm môn toán sinh viên Hình 35 Theo dõi điểm toán sinh viên khóa Hình 36 Theo dõi điểm tổng kết sinh viên khóa Hình 3.35 hình 3.3.6, cho ta dự đoán rằng, đại đa số sinh viên 89 có điểm toán cao (học giỏi toán) điểm tổng kết cao Tuy nhiêu, điểm tổng kết sinh viên phụ thuộc vào nhiều yếu tố khác * Ví dụ: Báo cáo học lực sinh viên theo kỳ Hình 37 Học lực sinh viên theo kỳ học Đây kết toàn khóa học sinh viên, nhìn vào hình 3.37 người xem nhận kết sinh viên qua kì học, đại đa số kì cuối kết cao kì đầu Nguyên nhân gây vấn đề tâm lý, môi trường thay đổi, ngành học…Điều đó, giúp tân sinh viên khóa xác định tâm từ đầu bước vào giảng đường đại học Thông qua báo cáo thiết kế ví dụ trên, người lãnh đạo lợi dụng kết để điều chỉnh chương trình học đào tạo phù hợp, điều chỉnh môn học cho phù hợp với kỳ học, hệ đào tạo khác nhau, định dự kiến điểm đầu vào để thu hút nhân tài nâng cao chất lượng đào tạo 90 CHƯƠNG IV: KẾT LUẬN HƯỚNG PHÁT TRIỂN Như nội dung luận văn thực phần lớn nhiệm vụ đặt Xây dựng kho liệu phục vụ quản khai thác thông tin cụ thể là: - Nghiên cứu nội dung liên quan đến kho liệu: tổng quan kho liệu, xay dựng kho liệu, xử khai thác liệu - Nghiên cứu cách thức truy cập khai thác liệu kho liệu - Nghiên cứu hệ quản trị sở liệu PostgreSQL - Xây dựng kho liệu thông tin sinh viên trường Đại học Sư phạm Kỹ thuật Hưng Yên hệ quản trị sở liệu PostgreSQL - Nghiên cứu tính năng, đặc trưng công nghệ phần mềm hạ tầng cổng thông tin dùng mã nguồn mở Liferay - Cài đặt Liferay Portal môi trường Windows - Cài đặt chạy thử nghiệm cổng thông tin trường Đại học SPKT Hưng Yên dựa Liferay Portal Hướng phát triển đề tài - Xây dựng kho liệu trường Đại học Sư phạm Kỹ thuật Hưng Yên hoàn chỉnh phù hợp với yêu cầu cụ thể thực tế - Tiếp tục hoàn thiện cổng thông tin trường Đại học Sư phạm Kỹ thuật Hưng Yên với đầy đủ chức để truy cập khai thác kho liệu xây dựng 91 TÀI LIỆU THAM KHẢO Claudia Imhoff, Nicholas Galemmo, Jonathan G GeigerWiley (2003), Mastering Data Warehouse Design - Relational And Dimensional Techniques , Wiley Publishing Paulraj Ponniah (2001), Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals, John Wiley and Sons Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite, The Data Warehouse Lifecycle Toolkit - Expert Methods for Designing, Developing, and Deploying Data Warehouses The PostgreSQL Global Development Group (2014), PostgreSQL 9.0.18 Documentation Lê Trung Nghĩa (2014), Tài liệu PostgreSQL 9.0.13 http://www.liferay.com/fr/ http://www.postgresql.org/ http://ant.apache.org/ http://forums.bsdinsight.com/forums/cognos-bi.10/ 92 ... nghiên cứu kho liệu, vấn đề liên quan đến kho liệu: đặc điểm liệu, kiểu liệu, kiến trúc kho liệu, xây dựng kho liệu - Nghiên cứu, tìm hiểu hệ quản trị sở liệu PostgreSQL, xây dựng kho liệu thông tin.. . dụng kho liệu Siêu liệu phần quan trọng kho liệu 1.1.3 Kiến trúc kho liệu a Kiến trúc liệu nghiệp vụ Dữ liệu nghiệp vụ bao gồm tập tất liệu sử dụng trình thực thi quản lý công việc, thường gọi liệu. .. thành phần kho liệu 20 1.2.4 Mô hình liệu 20 1.2.5 Tạo lập kho liệu 23 1.3 XỬ LÝ VÀ KHAI THÁC DỮ LIỆU 25 1.3.1 Truy cập khai thác liệu 25 1.3.2 Xử lý phân

Ngày đăng: 26/07/2017, 21:07

Từ khóa liên quan

Mục lục

  • Trang bia

  • Muc luc

  • Danh muc hinh

  • Danh muc bang

  • Mo dau

  • Chuong 1

  • Chuong 2

  • Chuong 3

  • Chuong 4

Tài liệu cùng người dùng

Tài liệu liên quan