LUẬN VĂN:NGHIÊN CỨU ỨNG DỤNG BỘ CÔNG CỤ BUSINESS INTELLIGENCE TRONG VIỆC XỬ LÝ SỐ LIỆU CỦA HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL potx

50 723 1
LUẬN VĂN:NGHIÊN CỨU ỨNG DỤNG BỘ CÔNG CỤ BUSINESS INTELLIGENCE TRONG VIỆC XỬ LÝ SỐ LIỆU CỦA HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trƣơng Vĩnh Long NGHIÊN CỨU ỨNG DỤNG BỘ CÔNG CỤ BUSINESS INTELLIGENCE TRONG VIỆC XỬ SỐ LIỆU CỦA HỆ QUẢN TRỊ SỞ DỮ LIỆU MYSQL KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trƣơng Vĩnh Long NGHIÊN CỨU ỨNG DỤNG BỘ CÔNG CỤ BUSINESS INTELLIGENCE TRONG VIỆC XỬ SỐ LIỆU CỦA HỆ QUẢN TRỊ SỞ DỮ LIỆU MYSQL KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hƣớng dẫn: TS. Nguyễn Hà Nam Cán bộ đồng hƣớng dẫn: ThS. Nguyễn Thu Trang HÀ NỘI - 2010 LỜI CẢM ƠN Trước tiên em xin gửi lời cảm ơn sâu sắc tới TS. Nguyễn Hà Nam và ThS. Nguyễn Thu Trang đã tận tình chỉ bảo, giúp đỡ em hoàn thành luận văn này. Em xin chân thành cảm ơn các thầy trong bộ môn Các hệ thống thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà nội đã tạo điều kiện cho em thực hiện đề tài. Đồng thời, em xin cảm ơn các thầy giáo trường Đại học Công nghệ đã dạy bảo, giúp đỡ em trong 4 năm học vừa qua. Cuối cùng em xin cảm ơn những người thân trong gia đình và bạn bè đã động viên, giúp đỡ em trong quá trình học tập và thực hiện hoàn luận văn. Xin chân thành cảm ơn! Sinh viên Trương Vĩnh Long. TÓM TẮT Ngày nay, việc lưu trữ, xử dữ liệu để tổng hợp thông tin, hỗ trợ ra quyết định đã trở nên phổ biến đối với nhiều tổ chức sản xuất, kinh doanh. nhiều phương pháp để đáp ứng yêu cầu này, trong đó Business Intelligence(BI- giải pháp quản trị doanh nghiệp thông minh) là một giải pháp tiêu biểu, được nhiều tổ chức lựa chọn. Khóa luận này giới thiệu một vài nét tổng quan về kho dữ liệu, hệ thống xử phân tích trực tuyến và bộ công cụ Business Intelligence. Tiếp đó là việc triển khai cài đặt, ứng dụng Business Intelligence, cụ thể là sử dụng bộ công cụ Pentaho trong việc xây dựng báo cáo và khai phá dữ liệu dựa trên hệ quản trị sở dữ liệu MySQL kết hợp phần mềm Weka. Danh sách các hình Hình 1 – Cấu trúc hệ thống kho dữ liệu 3 Hình 2 – Dòng dữ liệu trong kho dữ liệu . 4 Hình 3 - Ứng dụng kho dữ liệu trong Business Intelligence 5 Hình 4 – Ví dụ về cây quyết định . 9 Hình 5 – Thành phần của hệ Business Intelligence 12 Hình 6 – Cấu trúc của Pentaho Business Intelligence 19 Hình 7 – sở dữ liệu về các thành phố 23 Hình 8 – Thiết lập Data Source 24 Hình 9 – Thiết lập Constraint 25 Hình 10 – Mô tả báo cáo thu được sử dụng Pentaho 26 Hình 11 – Mô tả bảng dữ liệu về khách hàng trong ngân hàng. 27 Hình 12 - Tải dữ liệu lên Weka từ MySQL 28 Hình 13 – Chọn bộ lọc MathExpression . 29 Hình 14 – Thay đổi thông số cho bộ lọc MathExpression 30 Hình 15 – Sử dụng MathExpression để gán lại giá trị cho trường THU NHAP 30 Hình 16 – Chọn bộ lọc NumericToNominal 31 Hình 17 – Chọn bộ lọc AddValues 32 Hình 18 – Thiết lập thông số cho bộ lọc AddValues 32 Hình 19 – Sử dụng chức năng Replace Value trong phần Edit . 33 Hình 20 – Lựa chọn giá trị cần thay thế 34 Hình 21 – Lựa chọn giá trị thay thế 34 Hình 22 – Lựa chọn xây dựng cây quyết định theo J48 35 Hình 23 - Cây quyết định thu được khi dùng Classifier J48 36 Hình 24 – Lựa chọn xây dựng luật kết hợp theo thuật toán Apriori 37 Hình 25 – Kết quả thu được khi tạo luật kết hợp sử dụng thuật toán Apriori 38 Bảng từ khóa OLAP Online Analysis Processing MOLAP Multidimensional Online Analysis Processing ROLAP Relational Online Analysis Processing HOLAP Hybird Online Analysis Processing BI Business Intelligence Mục lục Chƣơng 1 : KHO DỮ LIỆUHỆ QUẢN TRỊ SỞ DỮ LIỆU MYSQL 1 1.1. Kho dữ liệu 1 1.1.1. Khái niệm kho dữ liệu 1 1.1.2. Các đặc tính của kho dữ liệu 1 1.1.3. Cấu trúc hệ thống kho dữ liệu 2 1.1.4. Dòng dữ liệu trong kho dữ liệu 3 1.1.5. Ứng dụng của kho dữ liệu 4 1.2. Hệ quản trị sở dữ liệu MySQL 6 1.2.1. Giới thiệu MySQL 6 1.2.2. Ưu điểm và nhược điểm của MySQL 6 Chƣơng 2 : PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 7 2.1. Khái niệm khai phá dữ liệu 7 2.2. Các thành phần của giải thuật khai phá dữ liệu 7 2.3. Cây quyết định 8 2.4. Phát hiện các luật kết hợp 10 Chƣơng 3 : BỘ CÔNG CỤ BUSINESS INTELLIGENCE 12 3.1. Business Intelligence 12 3.1.1. Khái niệm Business Intelligence 12 3.1.2. Các thành phần chính của hệ Business Intelligence 12 3.1.3. Lợi ích của Business Intelligence đối với doanh nghiệp 13 3.1.4. Các công cụ Business Intelligence 15 3.1.5. Kết hợp Business IntelligenceMySQL 15 3.2. Kỹ thuật OLAP 16 3.2.1. Khái niệm OLAP 16 3.2.2. Các thành phần trong hệ thống OLAP 17 3.3. Pentaho – Business Intelligence Server 18 3.3.1. Tổng quan về Pentaho 18 3.3.2. Khả năng và lợi ích của Pentaho 19 3.4. Mondrian – OLAP Server 20 3.4.1. Mondrian 20 3.4.2. Schema Workbench 20 3.5. Weka – Khai phá dữ liệu 21 Chƣơng 4 : ỨNG DỤNG BUSINESS INTELLIGENCE 22 4.1. Tạo báo cáo sử dụng công cụ BI 22 4.1.1. Giới thiệu sở dữ liệu 22 4.1.2. Bài toán 23 4.1.3. Giải quyết bài toán 23 4.2. Khai phá dữ liệu 26 4.2.1. Giới thiệu sở dữ liệu 26 4.2.2. Bài toán 27 4.2.3. Tiền xử 27 4.2.4. Thực hiện thuật toán phân lớp 35 4.2.5. Xây dựng luật kết hợp 36 4.2.6. Nhận xét kết quả 38 KẾT LUẬN 40 Chương 1 – Kho dữ liệuhệ quản trị sở dữ liệu MySQL 1 Chƣơng 1 : KHO DỮ LIỆUHỆ QUẢN TRỊ SỞ DỮ LIỆU MYSQL 1.1. Kho dữ liệu 1.1.1. Khái niệm kho dữ liệu Theo William Inmon [12], kho dữ liệu là một bộ dữ liệu các đặc tính : hướng chủ đề, tính tích hợp, ổn định, dữ liệu gắn với thời gian, thường được sử dụng trong các hệ thống hỗ trợ quyết định. Kho dữ liệu thường bao gồm : - Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác nhau. - sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập các bảng dữ liệu. Một kho dữ liệu thể được coi là một hệ thống thông tin với những thuộc tính sau: • Là một sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau. • Hỗ trợ cho một số người dùng liên quan, sử dụng tới các thông tin liên quan. • Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông tin. • Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu hướng thông tin. • Chứa các bảng dữ liệu kích thước lớn. • Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các liên kết nhiều bảng. 1.1.2. Các đặc tính của kho dữ liệu Hƣớng chủ đề : Kho dữ liệu thể chứa lượng dữ liệu lên tới hàng trăm Gigabyte, được tổ chức theo những chủ đề chính. Kho dữ liệu không chú trọng vào giao tác và việc xử giao tác. Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu [...]... công cụ Business Intelligence được thể hiện qua 3 bài toán nhỏ : tạo báo cáo, phân tích OLAP, khai phá dữ liệu Môi trường thực nghiệm là hệ điều hành Ubuntu 9.04 4.1 Tạo báo cáo sử dụng công cụ BI 4.1.1 Giới thiệu sở dữ liệu sở dữ liệu của bài toán là một trong số các sở dữ liệu mẫu của hệ quản trị sở dữ liệu MySQL, được cung cấp từ địa chỉ http://downloads .mysql. com/docs/world.sql.zip sở. .. model), thường áp dụng cho các khối dữ liệu (data cube) Khối dữ liệu là trung tâm của vấn đề cần phân tích, bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ nhiều chiều (dimension) dữ kiện khác nhau 3 Chương 1 – Kho dữ liệuhệ quản trị sở dữ liệu MySQL Hình 2 – Dòng dữ liệu trong kho dữ liệu [5] 1.1.5 Ứng dụng của kho dữ liệu Kho dữ liệu được đưa vào ba mảng ứng dụng chính Theo... thực hiện việc truy vấn, khai phá thông tin 2 Chương 1 – Kho dữ liệuhệ quản trị sở dữ liệu MySQL Hình 1 – Cấu trúc hệ thống kho dữ liệu [6] 1.1.4 Dòng dữ liệu trong kho dữ liệu Do kho dữ liệu chứa lượng dữ liệu lớn, đồng thời hạn chế thao tác sửa đổi nên rất thích hợp cho việc phân tích dài hạn và báo cáo Các thao tác với dữ liệu của kho dữ liệu chủ yếu dựa trên sở là Mô hình dữ liệu đa chiều... Chương 3 – Bộ công cụ Business Intelligence 3.1.4 Các công cụ Business Intelligence Các công cụ Business Intelligence là các phần mềm ứng dụng được thiết kế để báo cáo, phân tích và trình bày dữ liệu Các công cụ này sẽ đọc dữ liệu đã được lưu trữ từ trước trong các kho dữ liệu hoặc chợ dữ liệu Các công cụ Business Intelligence rất đa dạng và mặt trên hầu hết các hệ điều hành Nhờ tính tiện dụng và khả... điểm của MySQL Hệ quản trị sở dữ liệu MySQL những ƣu điểm nổi bật : + MySQLhệ quản trị sở dữ liệu tốc độ nhanh, đáng tin cậy, thể hoạt động trên nhiều hệ thống + MySQLhệ quản trị sở dữ liệu mã nguồn mở miễn phí, kích thước nhỏ + Nhờ đội ngũ phát triển năng động, tích cực, các phiên bản MySQL ngày càng hoản thiện, bổ sung nhiều chức năng mới Tuy nhiên, MySQL vẫn còn một số hạn... sẵn trong hệ quản trị sở dữ liệu quan hệ (RDBMS) Nó không yêu cầu phải một cube thực sự nào, chỉ cần mô hình dữ liệu được khởi tạo Schema Workbench cung cấp các chức năng sau : - Biên tập giản đồ kết hợp với các nguồn dữ liệu - Kiểm tra các truy vấn MDX thông qua giản đồ và sở dữ liệu - Kiểm tra cấu trúc của sở dữ liệu 20 Chương 3 – Bộ công cụ Business Intelligence 3.5 Weka – Khai phá dữ liệu. .. Tận dụng lợi thế của MySQL, hệ quản trị sở dữ liệu mà nguồn mở miễn phí, một số nhà sản xuất đã cho ra đời các bộ sản phẩm BI trong đó sử dụng hệ quản trị sở dữ liệu MySQL Đây là giải pháp tốt cho những doanh nghiệp vừa vả nhỏ Với kinh phí yêu cầu thấp, hệ thống BI kết hợp MySQL vẫn thực hiện gần như đầy đủ các chức năng : xây dựng báo cáo, khai phá dữ liệu, phân tích trực tuyến ….đáp ứng cho việc. .. hóa dữ liệu) - Môi trường để so sánh các giải thuật học Weka lấy dữ liệu từ các file định dạng arff, cvs , hoặc từ một bảng trong sở dữ liệu. Tập dữ liệu thể được tiền xử lý, cho vào trong một đồ, phân chia các lớp kết quả và thực hiện nó mà không cần viết bất cứ một chương trình nào 21 Chương 4 - Ứng dụng Business Intelligence Chƣơng 4 : ỨNG DỤNG BUSINESS INTELLIGENCE Việc ứng dụng bộ công. .. dữ liệu là một bước trong quá trình Phát hiện tri thức trong sở dữ liệu, thi hành một thuật toán khai phá dữ liệu để tìm ra các mẫu từ dữ liệu theo khuôn dạng thích hợp Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình tính chính quy trong tập dữ liệu 2.2 Các thành phần của giải thuật khai phá dữ liệu Giải thuật khai phá dữ liệu. .. MySQL 1.2 Hệ quản trị sở dữ liệu MySQL 1.2.1 Giới thiệu MySQL MySQLhệ quản trị sở dữ liệu mã nguồn mở phổ biến nhất thế giới và được các nhà phát triển ứng dụng rất ưa chuộng MySQL tốc độ cao, ổn định và dễ sử dụng, tính khả chuyển, hoạt động trên nhiều hệ điều hành, cung cấp một hệ thống lớn các hàm tiện ích mạnh.Với tốc độ và tính bảo mật cao, MySQL rất thích hợp cho các ứng dụng . HỌC CÔNG NGHỆ Trƣơng Vĩnh Long NGHIÊN CỨU ỨNG DỤNG BỘ CÔNG CỤ BUSINESS INTELLIGENCE TRONG VIỆC XỬ LÝ SỐ LIỆU CỦA HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH. 38 KẾT LUẬN 40 Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL 1 Chƣơng 1 : KHO DỮ LIỆU VÀ HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL 1.1. Kho dữ liệu 1.1.1. Khái niệm kho dữ liệu Theo. [5]. Chương 1 – Kho dữ liệu và hệ quản trị cơ sở dữ liệu MySQL 6 1.2. Hệ quản trị cơ sở dữ liệu MySQL 1.2.1. Giới thiệu MySQL MySQL là hệ quản trị cơ sở dữ liệu mã nguồn mở phổ biến nhất

Ngày đăng: 27/06/2014, 22:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan