Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định

86 610 1
Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ PHẠM MINH QUÝ Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2003 1 MỤC LỤC MỤC LỤC 1 CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT 4 PHẦN MỞ ĐẦU 5 1. Đặt vấn đề 5 2. Mục tiêu của đề tài 5 3. Bố cục của luận văn 6 CHƢƠNG I – KHO DỮ LIỆU 7 1. Khái niệm kho dữ liệu 7 1.1 Định nghĩa kho dữ liệu 7 1.2 Đặc điểm dữ liệu của kho dữ liệu 7 1.2.1 Dữ liệu hƣớng chuyên đề 7 1.2.2 Dữ liệu có tính tích hợp 8 1.2.3 Dữ liệu chỉ đọc, không biến động 8 1.2.4 Dữ liệu gắn với thời gian và có tính lịch sử 8 1.2.5 Dữ liệu tổng hợp và chi tiết 9 1.3 Kho dữ liệu và hệ xử lý giao dịch trực tuyến 9 1.3.1 Đặc điểm của hệ thống OLPT 9 1.3.2 Sự khác nhau giữa kho dữ liệu và OLTP 10 2. Kiến trúc và các thành phần cấu thành kho dữ liệu 11 2.1 Kiến trúc kho dữ liệu 11 2.1.1 Kiến trúc kho dữ liệu cơ bản 11 2.1.2 Kiến trúc kho dữ liệu với vùng tạm 11 2.1.3 Kiến trúc kho dữ liệu với vùng tạm và dữ liệu chuyên đề 12 2.2 Các thành phần cấu thành kho dữ liệu 13 2.2.1 Các dữ liệu nguồn 13 2.2.2 Công cụ thu thập, làm sạch và chuyển đổi dữ liệu nguồn 13 2.2.3 Kho dữ liệu 15 2.2.4 Kho dữ liệu chuyên đề 15 2.2.5 Phân tích và truy cập của ngƣời sử dụng cuối 16 2.2.6 Siêu dữ liệu 17 3. Sử dụng kho dữ liệu 18 4. Thiết kế và xây dựng kho dữ liệu 19 4.1 Thiết kế logic cho kho dữ liệu 20 4.1.1 Lƣợc đồ hình sao 21 4.1.2 Lƣợc đồ hình tuyết rơi 23 4.1.3 Lƣợc đồ kết hợp 24 4.2 Thiết kế vật lý kho dữ liệu 24 2 4.2.1 Phân hoạch dữ liệu và cơ chế song song 24 4.2.2 Thiết kế khung nhìn và chỉ số cho kho dữ liệu vật lý 25 CHƢƠNG II – MÔ HÌNH DỮ LIỆU CHO XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 35 1. Mô hình dữ liệu đa chiều 35 1.1 Các khái niệm về chiều 36 1.2 Độ đo 38 1.3 Khối dữ liệu 39 1.4 Các phép toán trong mô hình đa chiều 40 2. Các dạng chuẩn của CSDL đa chiều 41 2.1 Xây dựng lại theo logic của thiết kế lƣợc đồ đa chiều 41 2.1.1 Phân lớp 41 2.1.2 Mô tả tiềm năng và dị biệt 42 2.1.3 Dạng chuẩn logic 43 2.2 Khuôn mẫu cho mô hình hoá đa chiều 43 2.3 Dạng chuẩn đa chiều giới hạn 44 2.3.1 Các chiều 44 2.3.2 Sử dụng phụ thuộc hàm cho phân cấp 44 2.3.3 Loại bỏ các phụ thuộc hàm yếu cho tổng hợp 45 2.3.4 Dạng chuẩn chiều 45 2.3.5 Dạng chuẩn đa chiều 45 2.4 Dạng chuẩn đa chiều tổng quát 46 2.4.1 Phân biệt các thuộc tính chiều 46 2.4.2 Ngữ cảnh hợp lệ 47 2.4.3 Dạng chuẩn đa chiều tổng quát (GMNF) 48 CHƢƠNG III – CÔNG NGHỆ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN TRONG VIỆC TRỢ GIÚP QUYẾT ĐỊNH 49 1. Công nghệ xử lý phân tích trực tuyến 49 1.1 Định nghĩa OLAP 50 1.2 Đặc điểm cơ bản của OLAP 51 1.3 Kiến trúc của OLAP 53 2. Công nghệ lƣu trữ dữ liệu cho OLAP 54 2.1 Kho dữ liệu đa chiều 54 2.2 Kho dữ liệu quan hệ (ROLAP) 55 2.3 Kho dữ liệu lai 57 3. Lựa chọn chỉ số cho OLAP 57 3.1 Khối dữ liệu con 58 3.2 Truy vấn 58 3.3 Chỉ số 58 3.4 Quan hệ tính toán và phụ thuộc 59 3.5 Mô hình chi phí 60 3.6 Thuật toán chọn khung nhìn với các chỉ số 62 3 4. Ứng dụng công nghệ OLAP trong hỗ trợ quyết định 66 4.1 Lợi ích của OLAP 66 4.2 Các mô hình ứng dụng OLAP 66 4.2.1 Tạo báo cáo và truy vấn đặc biệt 66 4.2.2 Các hệ thống thông tin điều hành - EIS 67 4.2.3 Phân tích đa chiều 67 4.2.4 Phân tích theo kịch bản (chuỗi sự kiện) 68 4.2.5 Khai phá dữ liệu 68 CHƢƠNG IV – ỨNG DỤNG CÔNG NGHỆ OLAP TRONG TRỢ GIÚP QUYẾT ĐỊNH 69 1. Giới thiệu hệ thống ứng dụng 69 1.1 Mục tiêu xây dựng hệ thống 69 1.2 Giới thiệu bài toán 69 1.3 Giới thiệu công cụ khai thác kho dữ liệu của Oracle 71 2. Một số minh họa 72 KẾT LUẬN 82 1. Những kết quả đạt đƣợc 82 2. Những hạn chế 82 3. Hƣớng phát triển 83 DANH MỤC TÀI LIỆU THAM KHẢO 84 4 CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Phần này nhằm mục đích mô tả các từ viết tắt và các thuật ngữ đƣợc sử dụng trong luận văn. Một số thuật ngữ tiếng Anh phổ biến, quen thuộc có chỗ tác giả vẫn giữ nguyên, một số thuật ngữ đƣợc dịch sang tiếng viết và có mở ngoặc chú thích khi sử dụng lần đầu. Viết tắt, thuật ngữ Nội dung, ý nghĩa CSDL Cơ sở dữ liệu Ad hoc Đặc biệt Dimention table Bảng chiều Fact table Bảng sự kiện Meterilized view Khung nhìn đƣợc cụ thể hoá để lƣu dữ liệu Index Chỉ số (một số chỗ giữ nguyên từ tiếng Anh) View Khung nhìn (một số chỗ giữ nguyên từ tiếng Anh) DW - Data Warehouse Kho dữ liệu DM – DataMart Kho dữ liệu chuyên đề MOLAP - Multidimention OLAP OLAP đa chiều ROLAP - Relational OLAP OLAP quan hệ HOLAP – Hybrid OLAP OLAP lai tạp giữa OLAP đa chiều và quan hệ OLTP - Online Transaction Processing Các hệ thống xử lý giao dịch trực tuyến Data mining Khai phá dữ liệu Query Truy vấn Select Chọn (một số chỗ giữ nguyên từ tiếng Anh) Join Kết nối (một số chỗ giữ nguyên từ tiếng Anh) Update Sửa dữ liệu (một số chỗ giữ nguyên từ tiếng Anh) Delete Xóa dữ liệu (một số chỗ giữ nguyên từ tiếng Anh) Insert Thêm dữ liệu (một số chỗ giữ nguyên từ tiếng Anh) Thuật toán Heuristic Thuật toán may rủi 5 PHẦN MỞ ĐẦU 1. Đặt vấn đề Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, dữ liệu ngày càng đƣợc tập trung trong những cơ sở dữ liệu (CSDL) khổng lồ, nhu cầu truy nhập vào tất cả các dữ liệu để lấy ra thông tin là cần thiết. Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu truy nhập tìm ra thông tin cần thiết là kho dữ liệu. Ở nƣớc ta ngày càng có nhiều kho dữ liệu đƣợc xây dựng và lƣợng dữ liệu ngày một lớn. Nhƣng việc khai thác hiện nay chƣa có hiệu quả, vì trong kho dữ liệu lớn, đa chiều thƣờng chứa nhiều thông tin (tri thức) ẩn kín mà các công cụ truyền thống nhƣ kỹ thuật truy vấn SQL rất khó và nhiều khi không phát hiện đƣợc. Hơn thế nữa, do yêu cầu của ngƣời sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải theo thứ tự khác nhau. Yêu cầu làm thể nào có thể khai thác thông tin có hiệu quả, thoả mãn nhu cầu khai thác mức cao của ngƣời dùng, đòi hỏi phải có công nghệ khai thác thích hợp, hiện nay xử lý phân tích trực tuyến (OLAP) là một trong các phƣơng pháp khai thác có hiệu quả trên những tập dữ liệu lớn và hỗn hợp. Trƣớc đây công nghệ này ít đƣợc áp dụng vì nó đắt tiền, khó cài đặt, không mềm dẻo trong khai thác. Nhƣng đến nay trên thế giới công nghệ OLAP thực sự đã và đang đƣợc nghiên cứu, phát triển mạnh mẽ và ngày càng đuợc sử dụng rộng rãi trong khai thác dữ liệu, hỗ trợ ra quyết định. Ở nƣớc ta việc áp dụng công nghệ này đến nay vẫn chƣa đƣợc phát triển. Xuất phát từ nhu cầu thực tiễn tôi chọn hƣớng đề tài nghiên cứu: “Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định” nhằm tìm hiểu về kho dữ liệu và công nghệ OLAP sử dụng để khai thác trên các kho dữ liệu, hƣớng tới xây dựng các hệ thống có khả năng ứng dụng công nghệ phân tích trực tuyến vào khai thác dữ liệu phục vụ cho công tác quản lý, hỗ trợ ra quyết định. 2. Mục tiêu của đề tài Đề tài đề cập đến việc nghiên cứu nhằm hƣớng đến xây dựng các hệ thống trợ giúp quyết định sử dụng phƣơng pháp luận OLAP. Luận văn sẽ tập trung vào các công việc chính là nghiên cứu vấn đề tổ chức, xây dựng kho dữ liệu, nhấn mạnh vào nghiên cứu mô hình CSDL đa chiều và phân tích dữ liệu trực tuyến để trợ giúp ra quyết định. 6 Hệ trợ giúp quyết định theo tiếp cận này, có thể giúp cho nhà quản lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức CSDL đa chiều, và giúp cho họ dễ dàng trong hoạt động phân tích, tìm kiếm thông tin theo những khía cạnh khác nhau của dữ liệu, nhằm thu thập đƣợc tối đa những gì họ cần hiểu rõ, để từ đó có thể ra đƣợc những quyết định tốt nhất một cách nhanh chóng. Không giống với các hệ trợ giúp quyết định truyền thống thƣờng đƣợc xây dựng với mục đích đƣa ra giải pháp tối ƣu cho một bài toán cụ thể, trong một phạm vi ứng dụng hẹp, công nghệ OLAP hƣớng đến việc giúp ngƣời sử dụng có thể khai thác đƣợc tối đa khả năng tiềm ẩn của một khối lƣợng dữ liệu lớn, nhằm thu đƣợc những thông tin tổng hợp ở đủ các khía cạnh khác nhau của dữ liệu, để từ đó có thể ra các quyết định một cách nhanh chóng. Do đặc điểm này, phạm vi ứng dụng của hệ trợ giúp quyết định sử dụng công nghệ OLAP dựa vào dữ liệu là rộng rãi cho các bài toán khác nhau, trong nhiều lĩnh vực khác nhau. 3. Bố cục của luận văn Nội dung của luận văn đƣợc chia thành bốn chƣơng: Chương 1: Nội dung chủ yếu giới thiệu lý thuyết chung về kho dữ liệu - phƣơng pháp tổ chức, thiết kế CSDL và xây dựng kho dữ liệu. Nhấn mạnh trong việc thiết kế CSDL vật lý của kho dữ liệu bằng việc sử dụng thuật toán A* và các luật của Thumb để chọn khung nhìn và chỉ số tối ƣu việc bảo trì kho dữ liệu. Chương 2: Trình bày về mô hình dữ liệu đa chiều và các dạng chuẩn dữ liệu đa chiều trong mô hình CSDL đa chiều sử dụng trong OLAP. Chương 3: Trình bày những lý thuyết cơ bản về công nghệ OLAP trong việc hỗ trợ ra quyết định, cách tổ chức lƣu trữ dữ liệu, việc chỉ số hóa khung nhìn để tối ƣu tốc độ truy vấn. Chương 4: Xây dựng một ứng dụng sử dụng các công cụ và công nghệ của Oracle nhằm mô tả cho việc ứng dụng công nghệ OLAP trong việc hỗ trợ ra quyết định. 7 CHƢƠNG I – KHO DỮ LIỆU Các doanh nghiệp, tổ chức kinh tế - xã hội đều đang phải đối đầu với sự thay đổi của thị trƣờng, sự thay đổi hoàn thiện của các chính sách kinh tế xã hội. Để có thể đƣa ra một quyết định đúng đắn, trƣớc hết phải có khả năng nhanh chóng truy nhập đƣợc tới các thông tin mà doanh nghiệp, tổ chức có sẵn. Đối với một doanh nghiệp, tổ chức, muốn có một quyết định đúng đắn, cần nghiên cứu cả những dữ liệu trong quá khứ và hiện tại, nhằm phân tích và xác định ra các xu hƣớng có thể ở hiện tại và tƣơng lai. Để phục vụ phân tích dữ liệu cần đƣợc tập trung lại và do đó sẽ tạo ra những CSDL khổng lồ. Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu truy nhập thông tin hỗ trợ ra quyết định là tổ chức thành các kho dữ liệu. 1. Khái niệm kho dữ liệu 1.1 Định nghĩa kho dữ liệu Kho dữ liệu (Data warehouse-DW) là một tập hợp các CSDL tích hợp, hướng chuyên đề, được thiết kế cho việc truy vấn và phân tích hơn là xử lý giao dịch để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể [2]. Kích thƣớc của kho dữ liệu thƣờng rất lớn, đƣợc tổ chức, lƣu trữ và phân tích phục vụ cho việc cung cấp các thông tin liên quan đến nghiệp vụ của tổ chức. Kho dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập, xử lý dữ liệu loại này còn gọi là hệ xử lý phân tích trực tuyến - OLAP. Một kho lƣu trữ dữ liệu thƣờng đƣợc sử dụng nhƣ là các thông tin cơ sở cho một hệ thống hỗ trợ quyết định. Nó đƣợc thiết kế để khắc phục những vấn đề vấp phải khi một doanh nghiệp hay tổ chức cố gắng thực hiện chiến lƣợc phân tích có sử dụng cùng CSDL mà đƣợc sử dụng cho xử lý giao dịch trực tuyến - OLTP 1.2 Đặc điểm dữ liệu của kho dữ liệu 1.2.1 Dữ liệu hướng chuyên đề Kho dữ liệu đƣợc thiết kế để giúp cho việc phân tích dữ liệu. Ví dụ để biết nhiều hơn về dữ liệu bán hàng của tổ chức, doanh nghiệp có thể xây dựng một kho dữ liệu tập trung vào chuyên đề bán hàng. Sử dụng kho dữ liệu này có thể trả lời đƣợc các 8 câu hỏi có liên quan đến bán hàng nhƣ: “Khu vực nào tiêu thụ sản phẩm là Video nhiều nhất trong quí I năm 2003”. Đây là khả năng cho phép định nghĩa kho dữ liệu theo các chuyên đề, tạo ra kho dữ liệu hƣớng chuyên đề. 1.2.2 Dữ liệu có tính tích hợp Tính tích hợp thể hiện ở chỗ: dữ liệu tập hợp trong kho dữ liệu đƣợc thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất. Một kho dữ liệu là một khung nhìn thông tin mức toàn tổ chức, doanh nghiệp, thống nhất các khung nhìn khác nhau thành một khung nhìn của một vùng chuyên đề. Ví dụ, hệ thống OLTP truyền thống đƣợc xây dựng trên một vùng nghiệp vụ. Một hệ thống bán hàng và một hệ thống tiếp thị có thể có chung một dạng thông tin về khách hàng, nhƣng các vấn đề về tài chính cần một khung nhìn khác cho thông tin về khách hàng. Một kho dữ liệu sẽ có một khung nhìn toàn thể về một khách hàng. Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ tài chính và tiếp thị. 1.2.3 Dữ liệu chỉ đọc, không biến động Dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc và chỉ có thể đƣợc kiểm tra, không đƣợc sửa đổi bởi ngƣời sử dụng cuối. Thông tin trong kho dữ liệu đƣợc tải vào sau khi dữ liệu trong hệ thống điều hành đƣợc cho là quá cũ. Không biến động thể hiện ở chỗ: dữ liệu đƣợc lƣu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhƣng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, thống kê, dự báo. 1.2.4 Dữ liệu gắn với thời gian và có tính lịch sử Một kho chứa dữ liệu bao hàm một khối lƣợng lớn dữ liệu lịch sử. Dữ liệu đƣợc lƣu trữ thành một loạt các bản sao, mỗi bản ghi phản ánh những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một khung nhìn của một vùng chuyên đề trong một giai đoạn. Do vậy cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò nhƣ một phần của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trƣng về thời gian cho dữ liệu. 9 1.2.5 Dữ liệu tổng hợp và chi tiết Dữ liệu chi tiết là thông tin mức thấp nhất đƣợc lƣu trữ trong kho dữ liệu. Dữ liệu tác nghiệp là thông tin mức thấp nhất của tổ chức, doanh nghiệp. Dữ liệu tác nghiệp thuần tuý không đƣợc lƣu trữ trong kho dữ liệu. Dữ liệu tổng hợp là dữ liệu đƣợc gộp lại qua nhiều giai đoạn khác nhau. Các dữ liệu tổng hợp mang thông tin tổng hợp ở mức cao. 1.3 Kho dữ liệu và hệ xử lý giao dịch trực tuyến Dữ liệu phát sinh từ các hoạt động hàng ngày đƣợc thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thƣờng đƣợc gọi là dữ liệu tác nghiệp và hoạt động thu thập xử lý loại dữ liệu này đƣợc gọi là xử lý giao dịch trực tuyến (Online Transaction Processing - OLTP). 1.3.1 Đặc điểm của hệ thống OLPT Các hệ thống OLTP có các đặc điểm sau: - Trợ giúp nhiều ngƣời sử dụng đồng thời trong việc thêm và sửa đổi dữ liệu. - Diễn tả trạng thái thay đổi bắt buộc của tổ chức nhƣng không lƣu lại lịch sử. - Chứa đựng những số lƣợng lớn các dữ liệu, bao gồm dữ liệu tổng quát để kiểm soát sự thực hiện. - Đƣợc điều chỉnh để đáp ứng nhanh tới sự thực hiện tích cực. - Cung cấp cơ sở hạ tầng công nghệ để trợ giúp các thao tác thƣờng ngày của một tổ chức. Chính từ những đặc điểm này, nếu chúng ta sử dụng CSDL xử lý giao dịch trực tuyến cho phân tích trực tuyến thì thƣờng gặp những khó khăn sau: - Các yêu cầu phân tích, tổng kết những khối lƣợng lớn dữ liệu, ảnh hƣởng tới khả năng của hệ thống. - Sự thực hiện của hệ thống khi đáp ứng những yêu cầu phân tích phức tạp có thể chậm hoặc không ổn định, cung cấp sự hỗ trợ không đầy đủ cho những ngƣời sử dụng trong phân tích trực tuyến. - Sự thay đổi dữ liệu thƣờng xuyên gây trở ngại cho tính tin cậy của thông tin phân tích. - An ninh trở nên phức tạp hơn khi sự phân tích trực tuyến đƣợc kết hợp với xử lý giao dịch trực tuyến [...]... mt thuc tớnh R.A m liờn quan trong mt iu kin kt ni R.A = S.B trong khung nhỡn chớnh khi (1) S l khụng liờn quan trong V, (2) s thờm vo ti cỏc quan h c s khụng liờn quan trong V nhng liờn quan trong khung nhỡn chớnh khụng vt quỏ kớch thc trong V, (3) v s thờm vo v xúa ti V khụng vt quỏ kớch thc trongV Lut 6: Khụng xõy dng ch s trờn quan h c s R cho thuc tớnh R.A liờn quan trong iu kin chn C tr khi (1)... 4.2 Thit k vt lý kho d liu Thit k vt lý l tp hp cỏc d liu trong sut giai on thit k logic vo mt mụ t ca cu trỳc CSDL vt lý Thit k vt lý c nh hng bi cỏc mt ti u thc hin truy vn v vic bo trỡ CSDL Do cỏc kho d liu thng cha cỏc bng d liu rt ln (nht l cỏc bng s kin) v cỏc yờu cu k thut ti u tc truy vn v bo trỡ h thng, cho nờn vic thit k phi quan tõm n vic to mt s thnh phn sau trong thit k vt lý kho d liu... dng vi cỏc tp d liu ln trong kho d liu ny Phng phỏp thng kờ tuy ra i ó lõu nhng khụng cú gỡ ci tin phự hp vi s phỏt trin ca d liu õy chớnh l lý do ti sao mt khi lng ln d liu vn cha c khai thỏc v thm chớ c lu ch yu trong cỏc kho d liu khụng trc tuyn iu ny ó to nờn mt l hng ln trong vic h tr phõn tớch v tỡm hiu d liu, to ra khong cỏch gia vic to ra d liu v vic khai thỏc d liu ú Trong khi ú, cng ngy ngi... khai thỏc d liu ú Trong khi ú, cng ngy ngi ta cng nhn thy rng nu c phõn tớch thụng minh thỡ d liu s l mt ngun ti nguyờn quớ giỏ trong cnh tranh trờn thng trng ỏp li nhng thỏch thc trong thc tin cng nh trong nghiờn cu ó a ra mt phng phỏp mi ỏp ng c nhu cu trong khoa hc cng nh trong hot ng thc tin, ú chớnh l cụng ngh khai phỏ d liu 4 Thit k v xõy dng kho d liu Xõy dng kho d liu va l mt tin trỡnh cụng... tt c cỏc d liu vt lý (c cha trong phn mm v cỏc phng tin thụng tin khỏc) v cỏc thụng tin cha dng tri thc bờn trong v bờn ngoi mt t chc, bao gm cỏc thụng tin v d liu vt lý, quỏ trỡnh k thut v nghip v, cỏc lut rng buc v d liu, v cỏc cu trỳc ca d liu c s dng bi mt t chc kinh doanh Khi núi v siờu d liu l núi v s hiu bit v h thng, v nghip v Núi v vựng cha siờu d liu l núi v cỏc bng CSDL vt lý c s dng lu tr... ? RST R S T RSRC SSRC TSRC Nguồn 1 Nguồn 2 Nguồn 3 Hỡnh 6 Kho d liu vi khung nhỡn chớnh Trong ú RSRC, SSRC, TSRC l cỏc quan h ngun R, S, T l cỏc bn sao trong kho hay gi l cỏc quan h trong kho R S T l truy vn ca ngi s dng trong kho Vic thay i d liu ngun RSRC, SSRC, TSRC s gõy nh hng v thay i n d liu (bng quan h) trong kho, gi s thay i ú l thay i delta Kho d liu thng cú khi lng d liu ln, vỡ vy ci thin... cỏch lu kt qu ca khung nhỡn trong kho, cỏc khung nhỡn khụng c c th hoỏ 26 gi l cỏc khung nhỡn o (khụng lu kt qu trong kho) Vic truy vn d liu trờn cỏc khung nhỡn ó c c th hoỏ, nhanh hn rt nhiu cỏc truy vn trờn cỏc khung nhỡn o do khung nhỡn c c th hoỏ ó c tớnh toỏn trc Cỏc d liu trong cỏc khung nhỡn ó c c th hoỏ s tr lờn khụng nht quỏn khi d liu c s trong kho thay i d liu trong cỏc khung nhỡn ó c th... ca quan h c s R c tham chiu trong v, hm tr v chi phớ truyn vic xúa b v sa i t R ti v (m khụng cú m) tr chi phớ truyn vic xúa b v sa i t R ti v (cú m); (2) Nu m l mt ch s trờn mt khung nhỡn v cho mt thuc tớnh kt ni m kt ni v ti mt vi quan h R khụng c tham chiu trong v, hm tng cho mi khung nhỡn v Mu m bao hm R v thờm na cỏc quan h trong v v mi quan h S trong v nhng khụng trong v, chi phớ ca vic quột... khung nhỡn m m l khung nhỡn con Tng cng hm max_benefit cho mi khung nhỡn v Mu m bao gm tt c cỏc quan h trong m v mi quan h S trong v nhng khụng trong m, chi phớ ca vic c th húa m da vo cỏc khung nhỡn v cỏc ch s trong Mc 34 Cỏc lut ca Thumb Cỏc lut ca Thumb cú th tr giỳp, hng dn ngi qun tr kho d liu trong vic la chn mt tp cỏc khung nhỡn v cỏc ch s h tr m khụng cn phi s dng thut toỏn y Lut 1: C th húa... hoc sa Lut 3: Trong vic xột cú c th húa mt khung nhỡn h tr hay khụng, m t l kớch c ca nú vi kớch c vựng m khụng l vn Lut 4: Xõy dng ch s trờn mt khung nhỡn h tr V cho thuc tớnh R.A l khúa ca quan h R cú liờn quan trong V nu (1) cú mt s xúa v sa ti R, (2) s sa v xúa ti tt c cỏc quan h c s cú liờn quan trong V khụng c vt quỏ kớch thc trong V, (3) v s thờm v xúa ti V khụng vt quỏ kớch c trong V Lut 5: . chiều tổng quát (GMNF) 48 CHƢƠNG III – CÔNG NGHỆ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN TRONG VIỆC TRỢ GIÚP QUYẾT ĐỊNH 49 1. Công nghệ xử lý phân tích trực tuyến 49 1.1 Định nghĩa OLAP 50 1.2 Đặc điểm cơ. QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ PHẠM MINH QUÝ Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN . quyết định. Ở nƣớc ta việc áp dụng công nghệ này đến nay vẫn chƣa đƣợc phát triển. Xuất phát từ nhu cầu thực tiễn tôi chọn hƣớng đề tài nghiên cứu: Công nghệ xử lý phân tích trực tuyến trong việc

Ngày đăng: 02/07/2015, 19:59

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

  • PHẦN MỞ ĐẦU

  • CHƯƠNG I – KHO DỮ LIỆU

  • 1. Khái niệm kho dữ liệu

  • 1.1 Định nghĩa kho dữ liệu

  • 1.2 Đặc điểm dữ liệu của kho dữ liệu

  • 1.2.1 Dữ liệu hướng chuyên đề

  • 1.2.2 Dữ liệu có tính tích hợp

  • 1.2.3 Dữ liệu chỉ đọc, không biến động

  • 1.2.4 Dữ liệu gắn với thời gian và có tính lịch sử

  • 1.2.5 Dữ liệu tổng hợp và chi tiết

  • 1.3 Kho dữ liệu và hệ xử lý giao dịch trực tuyến

  • 1.3.1 Đặc điểm của hệ thống OLPT

  • 1.3.2 Sự khác nhau giữa kho dữ liệu và OLTP

  • 2. Kiến trúc và các thành phần cấu thành kho dữ liệu

  • 2.1 Kiến trúc kho dữ liệu

  • 2.1.1 Kiến trúc kho dữ liệu cơ bản

  • 2.2.2 Công cụ thu thập, làm sạch và chuyển đổi dữ liệu nguồn

  • 2.2.3 Kho dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan