23 12 2015,KHAI PHÁ dư LIÊU HOAN

74 513 2
23 12 2015,KHAI PHÁ dư LIÊU HOAN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt DM Data Mining Khai phá liệu IG Information Gain Độ lợi thông tin KDD Knowledge Discovery in Khai phá tri thức sở Database liệu KNN K-Nearest Neighbors K hàng xóm gần NB Naïve Bayes Bayes đơn giản NN Neural Network Mạng nơ ron SVM Support Vector Machines Máy học vector hỗ trợ MỤC LỤC HÌNH 1.1 – PHÁC THẢO QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 1.2.3 Các phương pháp khai phá liệu 12 CHƯƠNG 15 CÁC GIẢI THUẬT PHÂN LỚP DỮ LIỆU .15 2.1 THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT 15 2.1.1 Thuật toán k láng giềng cho toán phân lớp 15 BẢNG 2.1 – TẬP DỮ LIỆU MINH HỌA THUẬT TOÁN K LÁNG GIỀNG 17 2.2 THUẬT TOÁN NAÏVE BAYES 21 2.2.1 Giới thiệu chung 22 2.2.2 Mơ tả thuật tốn .22 2.2.3 Ví dụ minh họa 23 BẢNG 2.4 – BẢNG CƠ SỞ DỮ LIỆU THỜI TIẾT 24 2.2.4 Cài đặt thuật tốn ngơn ngữ R 25 2.2.5 Kết luận 26 2.3 THUẬT TOÁN HỌC CÂY QUYẾT ĐỊNH 27 2.3.1 Giới thiệu định 27 2.3.2 Thuật toán học định 28 HÌNH 2.1 - CÂY QUYẾT ĐỊNH CHO THUẬT TOÁN ID3 .31 2.2.3 Cài đặt thuật tốn ngơn ngữ R 34 HÌNH 2.2 – CÂY QUYẾT ĐỊNH TẠO RA TỪ THUẬT TOÁN HỌC CÂY QUYẾT ĐỊNH TRONG R 36 HÌNH 2.3 – CÂY QUYẾT ĐỊNH SỬ DỤNG THUẬT TOÁN C4.5 TRONG R 38 CHƯƠNG 39 GIẢI THUẬT GOM CỤM VÀ LUẬT KẾT HỢP 39 3.1 GIẢI THUẬT GOM CỤM KMEAN 40 3.1.1 Bài toán gom nhóm liệu .40 3.1.2 Giải thuật gom cụm kMeans .40 BẢNG 3.1 – BẢNG DỮ LIỆU MINH HỌA THUẬT TOÁN KMEANS .41 3.1.3 Cài đặt thuật tốn với ngơn ngữ R 44 BẢNG 3.2 – FILE DỮ LIỆU MINH HỌA THUẬT TOÁN KMEANS 44 HÌNH 3.1 – ĐỒ THỊ PHÂN CỤM K-MEANS VỚI TẬP DỮ LIỆU CHO TRƯỚC 45 HÌNH 3.2 – HIỂN THỊ TRÊN MA TRẬN SCATTERPLOT CHIỀU KẾT QUẢ GOM CỤM CỦA KMEAN SỬ DỤNG HÀM CCLUST 47 3.1.4 Kết luận 47 3.2 GIẢI THUẬT LUẬT KẾT HỢP 48 3.2.1 Luật kết hợp khai phá liệu 48 3.2.2 Giải thuật luật kết hợp Apriori 49 3.2.3 Minh họa thuật toán 50 BẢNG 3.3 – BẢNG DỮ LIỆU MINH HỌA GIẢI THUẬT LUẬT KẾT HỢP APRIORI 50 3.2.4 Cài đặt thuật tốn với ngơn ngữ R 52 BẢNG 3.4 - BẢNG DỮ LIỆU ĐẦU VÀO CHO GIẢI THUẬT APRIORI 52 3.4 Kết luận 56 PHỤ LỤC 1: 57 GIỚI THIỆU NGÔN NGỮ R 57 1.2 GIỚI THIỆU VỀ NGƠN NGỮ R 57 1.2.1 Tổng quan ngơn ngữ R 57 1.2.2 Cài đặt chạy R .58 HÌNH 1.2 - GIAO DIỆN LẬP TRÌNH CỦA NGÔN NGỮ R .59 1.2.3 Một số phép toán hàm R .59 BẢNG 1.1 – TÓM TẮT CÁC BIẾN SỐ NGẪU NHIÊN VÀ HÀM PHÂN PHỐI 61 1.2.4 Lập trình với ngơn ngữ R 63 1.2.5 Kết luận 65 PHỤ LỤC II 66 GIỚI THIỆU VỀ CÔNG CỤ WEKA 66 2.1 GIỚI THIỆU TỔNG QUAN VỀ CÔNG CỤ WEKA 66 2.3.2Các phân lớp 70 TÀI LIỆU THAM KHẢO 73 TÀI LIỆU THAM KHẢO 73 LỜI MỞ ĐẦU Trong năm gần đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ v.v…) không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Theo đánh giá IBM, phương pháp khai thác thông tin truyền thống thu khoảng 80% thơng tin từ CSDL, phần cịn lại bao gồm thơng tin mang tính khái qt, thơng tin có quy luật cịn tiềm ẩn bên liệu Lượng thông tin nhỏ thông tin cốt lõi cần thiết cho tiến trình định Chính khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực có nhiều công cụ thương mại phi thương mại triển khai nhiệm vụ khai phá liệu Hiện nay, khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực tài ngân hàng, viễn thơng, thương mại, y học, an tồn thơng tin, nghiên cứu khoa học,… Ngơn ngữ R Weka gần công cụ hữu ích khai phá liệu R, Weka ngơn ngữ máy tính đa nên thực nhiều mục đích khác Mục đích mơn học giúp người đọc có hình dung khai phá liệu bước quan trọng trình khám phá tri thức từ liệu; tìm hiểu giải thuật khai mỏ liệu sử dụng nhiều cộng đồng khám phá tri thức bao gồm: luật kết hợp, k láng giềng gần nhất, phân lớp Bayes đơn giản, học định, gom cụm kmeans với bước thuật tốn, ví dụ lời giải cuối chạy thuật toán Nội dung khóa học sau: Nội dung đồ án gồm có chương: Chương 1: Trình bày giới thiệu chung khám phá tri thức khai phá liệu, đề cập đến khái niệm tri thức, liệu, trình khai phá tri thức, chức năng, kỹ thuật ứng dụng khai phá tri thức Chương 2: Trình bày phân lớp/dự báo Chương 3: Trình bày phân cụm, đánh giá giải thuật khai phá liệu vào phần mềm Weka Chương: Trình bày mạng nơ ron cho phân lớp/dự báo, phân cụm, CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá tri thức khai phá liệu Để hiểu rõ khai phá tri thức khai phá liệu trước tiên tìm hiểu thơng tin, tri thức, liệu thơng qua hình 1.1 sau: Hình 1.1 Biểu diễn liệu, thông tin, tri thức[2] 1.1.1 Khái niệm khai phá tri thức khai phá liệu “Khám phá tri thức q trình tìm tri thức, mẫu tiềm ẩn, trước chưa biết thơng tin hữu ích đáng tin cậy” Cịn khai phá liệu bước quan trọng trình khám phá tri thức, sử dụng thuật toán khai phá liệu chuyên dùng với số qui định hiệu tính tốn chấp nhận để chiết xuất mẫu mơ hình có ích liệu Nói cách khác, mục đích khám phá tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu bị che khuất hàng núi liệu Khai phá tri thức sở liệu (KDD: Knowledge Discovery in Database): trình việc xác định giá trị, lạ, tri thức tiềm ẩn hay tri thức cuối khn khổ/mơ hình liệu Có nhiều định nghĩa khai phá liệu (Data Mining) sau: Định nghĩa 1: Khai phá liệu (Data Mining) trình chắt lọc hay khai phá tri thức từ lượng lớn liệu Thuật ngữ Data Mining ám việc tìm kiếm tập hợp nhỏ có giá trị từ số lượng lớn liệu thô Định nghĩa 2: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu Định nghĩa 3: Khai phá liệu trình khám phá tri thức tri thức có ích dạng tiềm nguồn liệu có Tóm lại, khai phá liệu công nghệ tri thức giúp khai thác thơng tin hữu ích từ kho liệu tích trữ q trình hoạt động tổ chức Khai phá liệu gồm bước sau: Làm liệu (Data Cleaning & Preprocessing): Loại bỏ nhiễu liệu không cần thiết Tích hợp liệu: (Data Integration): q trình hợp liệu thành kho liệu (Data Warehouses & Data Marts) sau làm tiền xử lý Trích chọn liệu (Data Selection): trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho q trình khai thác tri thức Quá trình bao gồm việc xử lý với liệu nhiễu (Noisy Data), liệu không đầy đủ (Incomplete Data) v.v… Chuyển đổi liệu: Các liệu chuyển đổi sang dạng phù hợp cho trình xử lý Khai phá liệu (Data Mining): Là bước quan trọng, sử dụng phương pháp thơng minh để chắt lọc mẫu liệu.hữu ích Ước lượng mẫu (Knowledge Evaluation): Quá trình đánh giá kết tìm thơng qua độ đo Biểu diễn tri thức (Knowledge Presentation): Quá trình sử dụng kỹ thuật để biểu diễn thể trực quan cho người dùng Quá trình khai phá liệu phác thảo qua mơ hình sau: Hình 1.1 – Phác thảo trình khai phá liệu 1.1.2 Sự cần thiết khai phá tri thức Có nhiều lý đề giải thích cần thiết việc khai phá tri thức, khai phá liệu, điển hình là: - Có nhiều cách tổ chức tập hợp nhiều liệu Con người lưu trữ liệu họ cho số giá tri hữu ích mã hóa hoàn toàn liệu - Trong kinh doanh Cần thu thập thông tin thị trường, đối tác, khách hàng Trong sản xuất cần thu thập liệu thời điểm hiệu tối ưu phục vụ cho cải tiến quy trình giải cố Người sử dụng cuối nhà thống kê đơn thuần; họ cần biết tri thức từ CSDL mà họ lưu trữ Sự cần thiết nhanh chóng định phản ứng trước đối tác - Chỉ có phần nhỏ liệu (khoảng 5-10% phân tích) Dữ liệu cần tìm kiếm khơng tồn dạng tường minh mà dạng phi cấu trúc, quy luật tiềm ẩn - Sự phát triển mạnh mạng máy tính gia tăng khả truy cập liệu Sự gia tăng liệu cản trở phương pháp phân tích truyền thống SQL Giá trị liệu lớn phương pháp phân tích cổ điển Tóm lại, với phát triển mạnh mẽ công nghệ vi xử lý, công nghệ lưu trữ, công nghệ truyền thống, ứng dụng công nghệ thông tin nhiều lĩnh vực; liệu tăng nhanh, bùng nổ liệu KDD DM thực cần thiết để khai phá tri thức tiềm ẩn kho liệu lớn 1.2 Quá trình KDD Q trình khai phá tri thức mơ tả hình 1.2 sau: Hình 1.2 Hình ảnh biểu diễn q trình KDD [8] Q trình phân tích liệu, khám phá liệu xây dựng mơ hình liệu thường lặp lại bạn tập trung vào nhận thông tin khác để bạn trích Q trình khai phá tri thức bắt đầu việc tìm hiểu lĩnh vực ứng dụng Tiếp theo, mẫu đại diện lấy từ CSDL, tiền xử lý lựa chọn để sau áp dụng phương pháp cơng cụ giai đoạn khai phá liệu với mục tiêu tìm mẫu/mơ hình (tri thức) liệu Tri thức đánh giá chất lượng hữu ích nó, sử dụng để hỗ trợ cho hệ trợ giúp định - Tiền xử lý liệu: Tiền xử lý liệu dựa vào mục tiêu đề ứng dụng Từ nguồn liệu khác chọn liệu cần thiết cho mục tiêu đề mẫu tin, 10 trường liệu Biểu diễn liệu, chuyển đổi kiểu cho phù hợp với giải thuật DM áp dụng bước sau Làm liệu dùng để khắc phục với trường liệu rỗng, dư thừa liệu không hợp lệ nhằm tinh giảm liệu - Khai phá liệu: Các kỹ thuật áp dụng khai phá liệu máy học, trí tuệ nhân tạo, nhận dạng, phân tích thống kê, phương pháp trực quan (hiển thị), xây dựng mơ hình, tạo tri thức liệu Kiểm định mơ hình chưa đạt phải xây dựng mơ hình khác Bước khó nhiều cơng sức - Đánh giá kết quả: Kiểm định dựa vào mục tiêu ban đầu ứng dụng Nghĩa có người sử dụng chuyên gia lĩnh vực có khả đánh giá Kết có đạt cần dễ hiểu, hiển thị, dịch kết Người sử dụng chuyên gia đánh giá hiểu kết sinh 1.2.1 Chức khai phá liệu Data Mining chia nhỏ thành số hướng sau: • Mơ tả khái niệm (Concept Description): thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn Mơ tả theo phương pháp mô tả tri thức: mô tả logic hình thức; mạng ngữ nghĩa chuyển sang dạng ma trận; mô tả luật; mô tả mạng Bayes… • Luật kết hợp (Association Rules): dạng luật biểu diễn tri thức dạng đơn giản Luật kết hợp ứng dụng nhiều lĩnh vực kinh doanh, y học, tin-sinh, tài & thị trường chứng khốn, v.v • Phân lớp dự đốn (Classification & Prediction): xếp đối tượng vào lớp biết trước Hướng tiếp cận thường sử dụng số kỹ thuật machine learning định (Decision Tree), mạng nơ ron nhân tạo (Neural Network) v.v… Người ta cịn gọi phân lớp học có giám sát (học có thầy) • Phân cụm (Clustering): xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước Người ta gọi phân cụm học không giám sát (học không thầy) • Khai phá chuỗi (Sequential/Temporal Patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn có tính dự báo 1.2.2 Các kỹ thuật khai phá liệu Các kỹ thuật khai phá liệu thực chất không nhiều Nó kế thừa, kết hợp mở rộng kỹ thuật nghiên cứu học máy, nhận dạng, thống kê (hồi quy, phân loại, phân nhóm), mơ hình đồ thị, mạng Bayes, tri thức hệ chuyên gia…Tuy nhiên, với kết hợp khai phá liệu, kỹ thuật có ưu 60 • Hàm seq() cho phép tạo dãy số R Cú pháp: seq(số bắt đầu dãy, - - số kết thúc dãy, by=khoảng cách số dãy) • Hàm sum(): tính tổng số dãy • Hàm sample(): dùng để lấy mẫu ngẫu nhiên giá trị tập • Hàm mean(): dùng để tính giá trị trung bình dãy số • Hàm sd(): tính độ lệch chuẩn dãy số • Hàm summary(): tóm tắt kết kết khác • Hàm rnorm(số giá trị): mô số giá trị normal Một số hàm ma trận • Hàm matrix(): dùng để tạo ma trận • Hàm t(): hàm chuyển vị ma trận • Hàm diag(): tạo giá trị cho đường chéo ma trận • Hàm det(): hàm tính định thức ma trận • Hàm eigen(): hàm tính giá trị riêng ma trận Một số hàm dùng tính tốn xác suất • Hàm tính hốn vị: prod() • Hàm tính tổ hợp : choosen(n,k) Các biến số ngẫu nhiên hàm phân phối [9] tóm tắt bảng 1.1: 61 Bảng 1.1 – Tóm tắt biến số ngẫu nhiên hàm phân phối Chú thích: Trong bảng trên, df = degrees of freedome (bậc tự do); prob = probability (xác suất); n = sample; size (số lượng mẫu) Các thông số khác, tham khảo thêm cho luật phân phối Các luật phân phối F, t, Chi-squared có thơng số khác non-centrality parameter (ncp) cho số - Một số hàm dùng vẽ biểu đồ • Hàm barplot(): vẽ biểu đồ cột • Hàm pie(): vẽ biểu đồ trịn • Hàm hist(): vẽ lược đồ • Hàm plot(density): biến đổi biểu đồ thành đồ thị phân phối xác suất Ngồi R cịn hỗ trợ vẽ nhiều loại biểu đồ khác biểu đồ hộp, biểu diễn hồi quy tuyến tính… 62 b Thao tác với liệu R R hỗ trợ nhiều cách nhập liệu khác để xử lí nhập liệu trực tiếp, nhập liệu từ file text, nhập liệu từ file excel  Nhập liệu trực tiếp Để nhập liệu trực tiếp ta sử dụng hàm c() Ví dụ ta muốn nhập vào chiều dài chiều rộng cánh hoa, ta viết sau: height setwd (“đường dẫn đến thư mục chứa file”) >tên_dữ_liệu setwd (“đường dẫn đến thư mục chứa file”) >tên_dữ_liệu

Ngày đăng: 20/06/2018, 09:26

Từ khóa liên quan

Mục lục

  • Hình 1.1 – Phác thảo quá trình khai phá dữ liệu

    • 1.2.3. Các phương pháp khai phá dữ liệu

    • CHƯƠNG 2

    • CÁC GIẢI THUẬT PHÂN LỚP DỮ LIỆU

      • 2.1. Thuật toán k láng giềng gần nhất

        • 2.1.1. Thuật toán k láng giềng cho bài toán phân lớp

        • Bảng 2.1 – Tập dữ liệu minh họa thuật toán k láng giềng

          • 2.2. Thuật toán Naïve Bayes

            • 2.2.1. Giới thiệu chung

            • 2.2.2. Mô tả thuật toán

            • 2.2.3. Ví dụ minh họa

            • Bảng 2.4 – Bảng cơ sở dữ liệu thời tiết

              • 2.2.4. Cài đặt thuật toán trên ngôn ngữ R

              • 2.2.5. Kết luận

              • 2.3. Thuật toán học cây quyết định

                • 2.3.1. Giới thiệu về cây quyết định

                • 2.3.2. Thuật toán học cây quyết định

                • Hình 2.1 - Cây quyết định cho thuật toán ID3

                  • 2.2.3. Cài đặt thuật toán trên ngôn ngữ R

                  • Hình 2.2 – Cây quyết định tạo ra từ thuật toán học cây quyết định trong R

                  • Hình 2.3 – Cây quyết định sử dụng thuật toán C4.5 trong R

                  • CHƯƠNG 3

                  • GIẢI THUẬT GOM CỤM VÀ LUẬT KẾT HỢP

                    • 3.1. Giải thuật gom cụm kMean

                      • 3.1.1. Bài toán gom nhóm dữ liệu

                      • 3.1.2. Giải thuật gom cụm kMeans

                      • Bảng 3.1 – Bảng dữ liệu minh họa thuật toán kMeans

                        • 3.1.3. Cài đặt thuật toán với ngôn ngữ R

                        • Bảng 3.2 – File dữ liệu minh họa thuật toán kMeans

                        • Hình 3.1 – Đồ thị phân cụm k-means với tập dữ liệu cho trước

                        • Hình 3.2 – Hiển thị trên ma trận scatterplot 2 chiều kết quả gom cụm của kMean sử dụng hàm cclust

                          • 3.1.4. Kết luận

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan