Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu về chế độ ăn kiêng Pima Indians Diabetes

24 859 4
Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu về chế độ ăn kiêng Pima Indians Diabetes

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục lục I-Giới thiệu về công cụ Weka 3 II-Mô tả bài toán 5 III-Áp dụng thuật toán phân lớp cho bài toán 6 1. Mở Weka chọn cơ sở dữ liệu Pima Indians Diabetes : 7 2.Phân lớp sử dụng cây quyết định với J48 7 2.1 Sử dụng tất cả các training cho cây 7 2.2 .Tiến hành thử nghiệm nhiều lần cây trên số lượng dữ liệu khác nhau 13 2. Kết quả chạy thuật toán theo mô hình MultilayerPerceptron của mạng Neuron (Neural network) 20 III-Đánh gía các thuật toán phân lớp 24 I-Giới thiệu về công cụ Weka • Weka là một công cụ phần mềm viết bằng Java,phục vụ lĩnh vực học máy và khai phá dữ liệu • Các tính năng chính - Một tập hợp các công cụ tiền xử lý dữ liệu,các giải thuật học máy,khai phá dữ liệu,và các phương pháp thí nghiệm đánh giá - Giao diện đồ họa(gồm cả tính năng hiển thị hóa dữ liệu) - Môi trường cho phép so sánh các giải thuật học máy và khai phá dữ liệu. • Môi trường chính là môi trường Explorer: Môi trường cho phép sửdụng tấtcảcác khảnăng của WEKA đểMôi trường cho phép sử dụng tất cả các khả năng của WEKA để khám phá

BÁO CÁO KHAI PHÁ DỮ LIỆU HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CÔNG NGHỆ THÔNG TIN *********** Báo cáo môn hoc Khai phá dữ liệu Đề tài: Sử dụng công cụ Weka khai phá bộ dữ liệu Pima Indians Diabetes với thuật toán phân lớp Giảng viên hướng dẫn: Hồ Nhật Quang Họ và tên sinh viên: Tạ Thị Thu Hương Lớp : Công nghệ phần mềm 6 Tạ Thị Thu Hương_CNPM6 Page 1 BÁO CÁO KHAI PHÁ DỮ LIỆU Mục lục I-Giới thiệu về công cụ Weka 3 II-Mô tả bài toán 4 III-Áp dụng thuật toán phân lớp cho bài toán .6 1. Mở Weka chọn sở dữ liệu Pima Indians Diabetes : 7 2.Phân lớp sử dụng cây quyết định với J48 7 2.1 Sử dụng tất cả các training cho cây .7 2.2 .Tiến hành thử nghiệm nhiều lần cây trên số lượng dữ liệu khác nhau .13 2. Kết quả chạy thuật toán theo mô hình MultilayerPerceptron của mạng Neuron (Neural network) .20 III-Đánh gía các thuật toán phân lớp 24 Tạ Thị Thu Hương_CNPM6 Page 2 BÁO CÁO KHAI PHÁ DỮ LIỆU I-Giới thiệu về công cụ WekaWeka là một công cụ phần mềm viết bằng Java,phục vụ lĩnh vực học máy và khai phá dữ liệu • Các tính năng chính - Một tập hợp các công cụ tiền xử lý dữ liệu,các giải thuật học máy,khai phá dữ liệu,và các phương pháp thí nghiệm đánh giá - Giao diện đồ họa(gồm cả tính năng hiển thị hóa dữ liệu) - Môi trường cho phép so sánh các giải thuật học máy và khai phá dữ liệu. • Môi trường chính là môi trường Explorer: Môi trường cho phép sửdụng tấtcảcác khảnăng của WEKA đểMôi trường cho phép sử dụng tất cả các khả năng của WEKA để khám phá dữ liệu Giao diện: Tạ Thị Thu Hương_CNPM6 Page 3 BÁO CÁO KHAI PHÁ DỮ LIỆU • Khuôn dạng của tập dữ liệu - Weka chỉ làm việc với các tập tin văn bản text khuôn dạng Arff - Dữ liệu thể được nhập vào(imported) từ một tập tin khuôn dang : Arff,Cvs - Dữ liệu cũng thể được dọc vào từ một địa chỉ UML,hoặc từ một CSDL thông qua JDBC - Công cụ tiền xử lý dữ liệu được gọi là Filters • Các bộ phân lớp Các bộphân lớp (Classifiers) của WEKA tương ứng với các mô hình dựđoán các đại lượng kiểu định danhcác mô hình dựđoán các đại lượng kiểu định danh (phân lớp) hoặccác đạilượng kiểusố(hồi quy/dựđoán II-Mô tả bài toán Cho dataset về Pima Indians Diabetes (Bệnh tiểu đường ở người Ấn Độ Pima)bộ dữ liệu gồm : - 8 thuộc tính+1lớp: Attribute Domain Preg [0.0, 17.0] Plas [0.0, 199.0] Pres [0.0, 122.0] Skin [0.0, 99.0] Tạ Thị Thu Hương_CNPM6 Page 4 BÁO CÁO KHAI PHÁ DỮ LIỆU Attribute Domain Insu [0.0, 846.0] Mass [0.0, 67.1] Pedi [0.078, 2.42] Age [21.0, 81.0] Class {tested_negative,tested_positive} Giải thích: + Attribute là:thuộc tính + Domain là : Miền giá trị của thuộc tính đấy Thuộc tính Giải thích Preg Là số lần mang thai của người phụ nữ Plas Nồng độ Plasma glucose là 2 giờ trong một thử nghiệm dung nạp glucose Pres Huyết áp tâm dương(mm Hg) Skin ba đầu da quanh độ dày(mm) Insu 2-giờ huyết thanh Insulin(là hocmon protein sản sinh trong tuyế tụy do các tế bào bê ta của biển đảo langerhans)(mu u / ml) Mass Chỉ số khối thể(Trọng lương kg / (chiều cao m) ^2) Pedi Bệnh tiểu đường phả hệ chức năng Age Tuổi (năm) Class Lớp (0 hoặc 1) Tạ Thị Thu Hương_CNPM6 Page 5 BÁO CÁO KHAI PHÁ DỮ LIỆU - 768 trường hợp • Bài toán đặt ra là phải dự đoán được đấu hiệu của bệnh tiểu đường ở phụ nữ Ấn Độ Pima (những phụ nữ ở đây it nhất là 21 tuổi) • Để giải quyết bài toán trên em lựa chọn thuật toán phân lớp trên bộ dữ liệu http://sci2s.ugr.es/keel/dataset_smja.php?cod=862#sub1 III-Áp dụng thuật toán phân lớp cho bài toán Để phân lớp cho dataset Pima Indians Diabetes em sử dụng + Cây quyết định là : J48 + Mô hình MultilayerPerceptron của mạng Neuron (Neural network) Tạ Thị Thu Hương_CNPM6 Page 6 BÁO CÁO KHAI PHÁ DỮ LIỆU 1. Mở Weka chọn sở dữ liệu Pima Indians Diabetes : 2.Phân lớp sử dụng cây quyết định với J48 2.1 Sử dụng tất cả các training cho cây - Nhấn vào tab Classify chọn thuật toán sử dụng bằng cách nhấn vào nút Choose; khi cây thư mục hiện thư mục Trees/J48: Tạ Thị Thu Hương_CNPM6 Page 7 BÁO CÁO KHAI PHÁ DỮ LIỆU -Sau đó sẽ được giao diện dạng: Tạ Thị Thu Hương_CNPM6 Page 8 BÁO CÁO KHAI PHÁ DỮ LIỆU Để tiến hành trainning trên toàn bộ dữ liệu ta chọn vào tùy chọn Use tranning set rồi nhấn Start Ta thu được kết quả hiển thị ở khung Classifier Output như sau: Tạ Thị Thu Hương_CNPM6 Page 9 BÁO CÁO KHAI PHÁ DỮ LIỆU - Nội dung như sau: - === Run information === - - Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 - Relation: pima - Instances: 768 - Attributes: 9 - Preg - Plas - Pres - Skin - Insu - Mass Tạ Thị Thu Hương_CNPM6 Page 10 . CÁO KHAI PHÁ DỮ LIỆU HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CÔNG NGHỆ THÔNG TIN *********** Báo cáo môn hoc Khai phá dữ liệu Đề tài: Sử dụng công cụ Weka khai phá. Page 2 BÁO CÁO KHAI PHÁ DỮ LIỆU I-Giới thiệu về công cụ Weka • Weka là một công cụ phần mềm viết bằng Java,phục vụ lĩnh vực học máy và khai phá dữ liệu •

Ngày đăng: 16/12/2013, 15:11

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan