TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU

45 491 0
TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU ĐỀ TÀI: TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU Giảng viên : PGS.TS. Đỗ Phúc Học viên thực hiện : Đinh Đức Khoa Mã số : CH1102003 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu HÀ NỘI - 2012 MỤC LỤC CHƯƠNG I: GIỚI THIỆU VỀ KHO DỮ LIỆU 3 1. KHO DỮ LIỆU – DATA WAREHOUSE 3 2. MỤC ĐÍCH CỦA KHO DỮ LIỆU 4 3. ĐẶC TÍNH DỮ LIỆU TRONG KHO DỮ LIỆU 4 4. PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC GHIỆP 6 CHƯƠNG 2: KIẾN TRÚC KHO DỮ LIỆU 9 1. KIẾN TRÚC DỮ LIỆU MỘT TẦNG(Single-layer Architecture) 11 2. KIẾN TRÚC DỮ LIỆU HAI TẦNG (Two-layer Architecture) 12 3. KIẾN TRÚC DỮ LIỆU BA TẦNG (Three-layer Architecture) 13 CHƯƠNG 3: XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU 15 1. PHÂN TÍCH CÁC YÊU CẦU CỦA KHO DỮ LIỆU 15 2. CÁC MÔ HÌNH DỮ LIỆU CỦA DW 16 3. TẠO LẬP CÁC KHO DỮ LIỆU 20 4. TRUY CẬP VÀ KHAI THÁC DỮ LIỆU 22 CHƯƠNG 4: KỸ THUẬT KHAI PHÁ DỮ LIỆU 29 1. VÀI NÉT VỀ KHAI PHÁ DỮ LIỆU 29 2. KỸ THUẬT PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 29 3. KỸ THUẬT PHÂN CỤM 33 4. KỸ THUẬT KHÁM PHÁ LUẬT KẾ HỢP 35 CHƯƠNG 5: XÂY DỰNG CHƯƠNG TRÌNH DEMO 37 1. MÔ TẢ BÀI TOÁN 37 2. CẤU TRÚC DỮ LIỆU 38 3. THUẬT TOÁN 38 4. GIAO DIỆN CHƯƠNG TRÌNH 39 5. TRÌNH TỰ THỰC HIỆN 43 KẾT LUẬN 44 Đinh Đức Khoa – CH1102003 2 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu CHƯƠNG I: GIỚI THIỆU VỀ KHO DỮ LIỆU Dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng. Bên cạnh đó, Internet đã mở ra nhiều khả năng và triển vọng cho các doanh nghiệp, cung cấp cho chúng ta nhiều thông tin phong phú về mọi lĩnh vực của xã hội loài người, từ các công trình nghiên cứu, kết quả học tập, thông tin quảng cáo, du lịch, các loại trò chơi giải trí, thương mại điện tử, v.v. Rất nhiều hoạt động của chúng ta có thể thực hiện được thông qua Internet. Tuy nhiên, một vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó được? Về phía người sử dụng, các khó khăn gặp phải thường là: • Không thể tìm thấy dữ liệu cần thiết • Không thể lấy ra được dữ liệu cần thiết • Không thể hiểu dữ liệu tìm thấy • Không thể sử dụng được dữ liệu tìm thấy Những vấn đề về hệ thống thông tin: • Khối lượng dữ liệu lưu trữ tăng rất nhanh • Quản trị dữ liệu phức tạp • Phát triển các chương trình khác nhau là không đơn giản • Duy trì những chương trình này gặp rất nhiều vấn đề Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một kho chứa dữ liệu (Data Warehouse). 1. KHO DỮ LIỆU – DATA WAREHOUSE Định nghĩa: Kho dữ liệu (Data Warehouse - DW) là tuyển tập các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể. Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các Đinh Đức Khoa – CH1102003 3 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu hoạt động hàng ngày và được thu thập xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp (operational data) và hoạt động thu thập xử lýloại dữ liệu này được gọi là xử lý giao dịch trực tuyến (On_line Transaction Processing - OLPT). Kho dữ liệu trái lại phục vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập xử lýdữ liệu loại này còn gọi là hệ xử lýphân tích trực tuyến (On_Line Analytical Processing - OLAP). 2. MỤC ĐÍCH CỦA KHO DỮ LIỆU • Có khả năng đáp ứng mọi yêu cầu về thông tin của NSD. • Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình, có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, thu được lợi nhuận cao hơn, v.v. • Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. • Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau • Muốn đạt được những yêu cầu trên thì DW phải: • Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định • Tổng hợp và kết nối dữ liệu • Đồng bộ hoá các nguồn dữ liệu với DW • Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW. • Quản lí siêu dữ liệu • Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề • Dùng trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt 3. ĐẶC TÍNH DỮ LIỆU TRONG KHO DỮ LIỆU 1. Tính tích hợp Đinh Đức Khoa – CH1102003 4 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất. 2. Gắn thời gian Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu. Toàn bộ dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định. 3. Có tính lịch sử Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung nhìn của một chủ đề trong một giai đoạn. CSDL tác nghiệp Data Warehouse Thời gian ngắn 30-60 ngày Có thể có yếu tố thời gian hoặc không Dữ liệu có thể cập nhật Thời gian dài Luôn có yếu tố thời gian Khi dữ liệu được chụp lại thì không cập nhật được 4. Chỉ đọc Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thể tra cứu, không được sửa đổi bởi người sử dụng cuối. 5. Không biến động Tính không biến động của kho dữ liệu được hiểu theo nghĩa: dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xóa, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo. Đinh Đức Khoa – CH1102003 5 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu 6. Dữ liệu tổng hợp và chi tiết Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ liệu tác nghiệp chính là thông tin mức thấp nhất. Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau. 4. PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC GHIỆP • Kho dữ liệu phải được xác định theo hướng chủ đề. Nó được thực hiện theo ý đồ của người sử dụng đầu cuối trong khi các hệ CSDL tác nghiệp dùng để phục vụ các mục đích áp dụng chung. • DW quản lí một khối lượng lớn thông tin được lưu trữ trên nhiều phương tiện lưu trữ và xử lýkhác nhau. Những hệ CSDL thông thường không phải quản lí những lượng thông tin lớn mà quản lí những lượng thông tin vừa và nhỏ. Trong khi đó thì DW phải quản lí những lượng thông tin rất lớn và đó cũng chính là đặc thù của kho dữ liệu. • DW có thể ghép nối các version khác nhau của các loại cấu trúc CSDL. DW tổng hợp thông tin để thể hiện chúng dưới những hình thức dễ hiểu đối với người sử dụng. • DW tích hợp và kết nối thông tin từ những nguồn khác nhau trên nhiều loại phương tiện lưu trữ và xử lýthông tin nhằm phục vụ cho những ứng dụng xử lýtác nghiệp trực tuyến. Đinh Đức Khoa – CH1102003 6 Đọc Đọc Thêm Xóa Sửa Hệ tác nghiệp Tải dữ liệu Kho dữ liệu Tính không biến động của DW Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu • DW có thể lưu trữ các thông tin tổng hợp theo một chủ đề nghiệp vụ nào đó sao cho tạo ra các thông tin phục vụ hiệu quả cho việc phân tích của người sử dụng. • DW thông thường chứa các dữ liệu lịch sử kết nối nhiều năm trước của các thông tin tác nghiệp được tổ chức lưu trữ có hiệu quả và có thể hiệu chỉnh lại dễ dàng. Dữ liệu trong CSDL tác nghiệp thường là mới, có tính thời sự trong khoảng thời gian ngắn. • Dữ liệu từ CSDL tác nghiệp được chắt lọc và tổng hợp lại để chuyển sang môi trường DW. Rất nhiều dữ liệu khác không được chuyển về DW, chỉ những dữ liệu cần thiết cho công tác quản lý hay trợ giúp quyết định mới được chuyển sang DW. Nói một cách tổng quát, DW làm nhiệm vụ phân phát dữ liệu cho nhiều đối tượng (khách hàng) xử lý thông tin dưới nhiều dạng như: CSDL, SQL query, Report Một số tiêu chí so sánh 2 hệ thống CSDL tác nghiệp - DW Các tiêu chí so sánh Hệ thống tác nghiệp Kho dữ liệu Cỡ Database Cỡ GigaByte Cỡ GigaByte đến TeraByte Nguồn dữ liệu Nội tại Cả trong lẫn ngoài Truy nhập Đọc và Ghi Chỉ đọc Thời gian tác dụng Hiện tại Từ quá khứ đến tương lai Số lượng giao dịch Lớn Từ nhỏ đến lớn Khối lượng công việc Dự đoán được, định kỳ Không dự đoán được Hoạt động NSD Tập trung, tính toán, báo cáo Thăm dò, phân tích, quản lý và khai phá dữ liệu Các ứng dụng của kho dữ liệu Các kỹ thuật kho dữ liệu và khai phá dữ liệu có thể ứng dụng vào nhiều tình huống thực hiện ra quyết định đa dạng và trong nhiều phạm vi rộng của các hoạt động nghiệp vụ. • Marketing: phân tích các nhu cầu của khách hàng dựa trên các mẫu dữ liệu mua bán hàng, phân loại khách hàng, phân loại các mặt hàng trong thời gian dài để từ đó xác định chiến lược kinh doanh, quảng cáo, xác định các kế hoạch sản xuất và kinh doanh theo các thời kỳ khác nhau. Đinh Đức Khoa – CH1102003 7 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu • Tài chính, ngân hàng, thị trường chứng khoán: phân tích các khả năng vay, trả nợ của khác hàng, đánh tính hiệu quả của các hoạt động kinh doanh tiền tệ của ngân hàng, phân tích thị trường đầu tư chứng khoán, các hợp đồng (khế ước), công trái, phát hiện sự gian lận trong các hoạt động kinh tế, tài chính, v.v. • Sản xuất, chế tạo, công nghệ: thực hiện phân tích dữ liệu về các sản xuất, chế tạo để đề xuất tối ưu hoá về tài nguyên, vật liệu, nhân lực trong các qui trình sản xuất và chế tạo mới, v.v. • Chăm sóc sức khoẻ cộng đồng: phân tích các kết quả phòng chống và điều trị các loại bệnh, công tác chăm sóc và bảo vệ sức khoẻ của cộng đồng, phân tích sự tác hại của ma tuý, những tệ nạn xã hội khác, v.v. Đinh Đức Khoa – CH1102003 8 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu CHƯƠNG 2: KIẾN TRÚC KHO DỮ LIỆU Kiến trúc kho dữ liệu dưới đây mô tả thành phần cơ bản của một kho dữ liệu. Kiến trúc của Kho dữ liệu Giải thích * Lớp quản lý dữ liệu Sao lưu dữ liệu tích hợp từ nguồn dữ liệu đã chọn phục vụ cho việc tinh chế và gia công lại dữ liệu trong kho. Giám sát và đáp ứng các đòi hỏi cho các dữ liệu mới rút từ các nguồn dữ liệu khác nhau. Bảo quản dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại hay cập nhật và làm sạch dữ liệu. * Lớp quản lý siêu dữ liệu Các chức năng chính của lớp này là sao chép, tạo mới, lưu trữ, phục hồi, làm sạch và cập nhật các siêu dữ liệu. * Lớp chuyển tải dữ liệu Thực hiện chuyển tải dữ liệu giữa các khối, lớp này sử dụng các chức năng cập nhật sao chép chuyển tải dữ liệu và các hệ thống mạng, các phần mềm trung gian. Lớp chuyển tải xác định các cầu nối truyền thông cần thiết giữa các trang thiết bị phần cứng và phần mềm của kho dữ liệu. Thực hiện các yêu cầu về an toàn dữ liệu. * Lớp kết cấu hạ tầng Thành phần quản lý các hệ thống: cung cấp khả năng tìm kiếm, quản lý; trợ giúp cho quá trình tích hợp, quản lý các phần mềm chuẩn; phục vụ cho công việc lưu trữ; cung cấp các dịch vụ quản lý và tạo ra môi trường làm việc cho khối các nguồn dữ liệu * Khối các nguồn dữ liệu Đinh Đức Khoa – CH1102003 9 Lớp quản lý dữ liệu Các nguồn dữ liệu Khối tạo DW Khối tạo dựng Datamart Truy nhập và sử dụng Lớp kết cấu hạ tầng Lớp chuyển tải siêu dữ liệu Lớp quản lý siêu dữ liệu Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu Dữ liệu tác nghiệp: các loại dữ liệu được chắt lọc từ các phần mềm ứng dụng và các hệ CSDL tác nghiệp đủ loại: Các hệ thống dữ liệu bên trong. Các hệ thống dữ liệu bên ngoài. Hệ quản lý siêu dữ liệu cho khối này. *Khối tạo dựng kho dữ liệu Khối con tinh chế có các chức năng chính như chuẩn hoá, làm sạch, sàng lọc, tương hợp, phân định thời gian cho các thông tin nguồn, quản lý siêu dữ liệu đối với khối này liên quan đến việc nâng cao chất lượng của dữ liệu. Khối con gia công lại có các chức năng tích hợp, phân loại, tính toán sơ bộ tổng hợp và kết xuất dữ liệu theo yêu cầu của người sử dụng; chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau để có thể kết hợp trong cùng một khuôn dạng. Khối con kho dữ liệu có các chức năng mô hình hoá, tổng hợp và kết nối ở mức độ cao các loại dữ liệu; tăng chất lượng, giá trị của dữ liệu; mô tả loại cơ sở dữ liệu. về cơ bản các dữ liệu xử lý ở đây được lấy trực tiếp từ khối các nguồn dữ liệu. * Khối tạo dựng kho dữ liệu chủ đề Dùng để tạo các chủ đề từ nội dung của kho dữ liệu, các chức năng chính của khối này là tinh chế và gia công lại bằng các phương pháp sàng lọc dữ liệu từ khối DW, tổng hợp dữ liệu và tạo dữ liệu hướng chủ đề cụ thể; cơ chế quản lý siêu dữ liệu cho khối này. * Khối truy nhập và sử dụng Khối con truy nhập có các chức năng truy nhập trực tiếp vào khối tạo dựng kho dữ liệu; truy nhập vào các kho dữ liệu chủ đề; gia công lại và biến đổi dữ liệu thành các loại dữ liệu có cấu trúc phức tạp hơn. Khối con phân tích và tạo báo cáo có các chức năng tạo ra các công cụ chuẩn để tạo báo cáo, phân tích dữ liệu, mô hình hoá tác nghiệp; tạo ra các phần mềm trợ giúp ra quyết định, các phần mềm khai thác dữ liệu. Đinh Đức Khoa – CH1102003 10 [...]... CH1102003 28 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu CHƯƠNG 4: KỸ THUẬT KHAI PHÁ DỮ LIỆU 1 VÀI NÉT VỀ KHAI PHÁ DỮ LIỆU Như trên đã nói, khai phá dữ liệu chính là quá trình tìm ra tri thức từ một lượng lớn các dữ liệu Để ý rằng lượng dữ liệu là rất lớn và có rất nhiều loại dữ liệu khác nhau, nhiệm vụ chính của chúng ta là phải tìm ra các phương pháp phù hợp cho các loại dữ liệu khác nhau đó để.. .Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu Kho dữ liệu Các nguồn dữ liệu Các vùng chủ đề Tích hợp dữ liệu Quy trình tích hợp dữ liệu và truy nhập sử dụng Có ba mô hình kiến trúc dữ liệu: 1 Kiến trúc dữ liệu một tầng, 2 Kiến trúc dữ liệu hai tầng 3 Kiến trúc dữ liệu ba tầng 1 KIẾN TRÚC DỮ LIỆU MỘT TẦNG(Single-layer Architecture) Nguyên lý chính của kiến trúc này là mỗi phần tử dữ liệu một... lượng và tính lượng và tính chất dữ liệu chất dữ liệu Xây dựng Xây dựng cách truy cập cách truy cập vào kho vào kho Truy nhập Truy nhập và tìm kiếm và tìm kiếm thông tin thông tin Phân tích Phân tích và xử lý dữ và xử lý dữ liệu liệu Quyết định Quyết định và thực thi và thực thi công việc công việc Các bước thực hiện để sử dụng dữ liệu trong kho QUẢN LÝ VÀ QUẢN TRỊ KHO DỮ LIỆU DW có độ lớn gấp kho ng... của kho dữ liệu là gì? Đinh Đức Khoa – CH1102003 15 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu • Những lĩnh vực nào đang sử dụng hoặc sẽ phải sử dụng kho dữ liệu? • Những vấn đề cần lập kế hoạch, chủ yếu là những đặc tính, chức năng nào? • Những nguồn dữ liệu nào có thể hoặc cần phải tích hợp để đưa vào kho dữ liệu? • Khi nào thì kho dữ liệu được triển khai ứng dụng? Xác định phạm vi: Căn cứ vào:... nguồn dữ liệu: Các ứng dụng được phát triển với dữ liệu mà các dữ liệu này phù hợp với các nhu cầu khác nhau, với cùng một hệ thống dữ liệu nhưng với tên khác nhau, hoặc với các hệ thống đo lường khác nhau, định nghĩa dữ liệu thậm chí chúng có những yêu cầu về dữ liệu tương tự như nhau Kết quả cuối cùng là các Đinh Đức Khoa – CH1102003 20 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu nguồn dữ liệu. .. kho dữ liệu & Kỹ thuật khai phá dữ liệu CHƯƠNG 3: XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU Hệ thống kho dữ liệu DW cũng giống như các hệ thống phần mềm khác, có chu trình phát triển được cải tiên và hoàn thiện liên tục Để phát triển được kho dữ liệu DW, chúng ta phải thực hiện lần lượt các bước: lập kế hoạch, xác định các yêu cầu, phân tích thành phần, thiết kế, cài đặt , trắc nghiệm và bảo trì hệ thống kho dữ. .. nhau từ cùng một dữ liệu thời gian thực Đinh Đức Khoa – CH1102003 12 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu Nhược điểm: • Dữ liệu có thể bị lặp lại ở mức cao Việc tổ chức dữ liệu lặp dẫn đến yêu cầu lưu trữ tốn kém không gian nhớ và vấn đề quan trọng hơn là vấn đề quản lý, duy trì lại phức tạp hơn nhiều • Không có sự tương quan một-một giữa dữ liệu thời gian thực với dữ liệu dẫn xuất Mặc... Hoà hợp (Reconcile) các dữ liệu từ tập dữ liệu thời gian thực, tầng trung gian 2 Dữ liệu được hoà hợp cung cấp dữ liệu dẫn xuất theo yêu cầu NSD Operational System Informational System Derived Data Reconciled Data Real-time Data Tầng dữ liệu hoà hợp trung gian chính là một cách thực hiện để chuẩn hoá CSDL Đinh Đức Khoa – CH1102003 13 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu Mục đích chính của... cuối lựa chọn các chiều và các sự kiện tham chiếu lẫn nhau Các nguồn dữ liệu cho một ứng dụng OLAP gồm CSDL đa chiều, CSDL quan hệ và các dữ liệu bảng tính Kho dữ liệu và xử lý phân tích trực tuyến Tại sao lại phải xử lý phân tích trực tuyến Ngày nay các nhà quản lý đang phải đối mặt với hai thách thức lớn: Đinh Đức Khoa – CH1102003 26 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu 1 Điều hành công... phục vụ cho việc khai thác dầu chẳng hạn Thông thường, dữ liệu khai thác là rất lớn và việc phân tích dữ liệu đòi hỏi tìm kiếm nhiều mẫu cực kỳ chi tiết Điểm yếu của kiến trúc một tầng: Đinh Đức Khoa – CH1102003 11 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu • Chủ yếu là thường có sự tranh chấp nhau giữa các ứng dụng tác nghiệp với các ứng dụng thông tin, dẫn tới việc các dữ liệu được cung cấp . CẬP VÀ KHAI THÁC DỮ LIỆU 22 CHƯƠNG 4: KỸ THUẬT KHAI PHÁ DỮ LIỆU 29 1. VÀI NÉT VỀ KHAI PHÁ DỮ LIỆU 29 2. KỸ THUẬT PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 29 3. KỸ THUẬT PHÂN CỤM 33 4. KỸ THUẬT KHÁM PHÁ. KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU ĐỀ TÀI: TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU Giảng viên : PGS.TS. Đỗ Phúc Học viên thực hiện : Đinh Đức Khoa Mã số : CH1102003 Tìm hiểu kho. TÍNH DỮ LIỆU TRONG KHO DỮ LIỆU 1. Tính tích hợp Đinh Đức Khoa – CH1102003 4 Tìm hiểu kho dữ liệu & Kỹ thuật khai phá dữ liệu Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ

Ngày đăng: 09/04/2015, 21:33

Từ khóa liên quan

Mục lục

  • Lớp quản lý dữ liệu

  • Lớp quản lý siêu dữ liệu

  • Lớp chuyển tải siêu dữ liệu

  • Lớp kết cấu hạ tầng

  • CHƯƠNG I: GIỚI THIỆU VỀ KHO DỮ LIỆU

    • 1. KHO DỮ LIỆU – DATA WAREHOUSE

    • 2. MỤC ĐÍCH CỦA KHO DỮ LIỆU

    • 3. ĐẶC TÍNH DỮ LIỆU TRONG KHO DỮ LIỆU

    • 4. PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC GHIỆP

    • CHƯƠNG 2: KIẾN TRÚC KHO DỮ LIỆU

      • 1. KIẾN TRÚC DỮ LIỆU MỘT TẦNG(Single-layer Architecture)

      • 2. KIẾN TRÚC DỮ LIỆU HAI TẦNG (Two-layer Architecture)

      • 3. KIẾN TRÚC DỮ LIỆU BA TẦNG (Three-layer Architecture)

      • CHƯƠNG 3: XÂY DỰNG VÀ SỬ DỤNG KHO DỮ LIỆU

        • 1. PHÂN TÍCH CÁC YÊU CẦU CỦA KHO DỮ LIỆU

        • 2. CÁC MÔ HÌNH DỮ LIỆU CỦA DW

        • 3. TẠO LẬP CÁC KHO DỮ LIỆU

        • 4. TRUY CẬP VÀ KHAI THÁC DỮ LIỆU

        • CHƯƠNG 4: KỸ THUẬT KHAI PHÁ DỮ LIỆU

          • 1. VÀI NÉT VỀ KHAI PHÁ DỮ LIỆU

          • 2. KỸ THUẬT PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU

            • a. Định lý Bayesian

            • c. Sự độc lập của giả thuyết

            • d. Mạng Bayesian Tin cậy ( Bayesian belief network )

            • 3. KỸ THUẬT PHÂN CỤM

              • 3.1. Phân nhóm k-Means

Tài liệu cùng người dùng

Tài liệu liên quan