Tiểu luận khai phá dữ liệu: Sử dụng weka để phân lớp trên dataset Billionaires92

20 931 0
Tiểu luận khai phá dữ liệu: Sử dụng weka để phân lớp trên dataset Billionaires92

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lý thuyết về phân lớp: Trong lĩnh vực máy học (machine Learning) và nhận dạng (pattern recognition), bài toán phân lớp (classification) đề cập đến các thuật toán (algorithms) nhằm xác định lớp (class) của đối tượng đã cho sẽ thuộc về lớp nào trong các lớp đã cho trước (Given Categories). Một điều cần chú ý là khác với bài toán phân cụm (clustering), dữ liệu dùng để xây dựng mô hình (Training Data) trong bài toán phân lớp phải được xác định lớp trước (pre-Labeled). Một thuật toán thực hiện việc phân lớp được gọi là bộ phân lớp (classifier). Hình sau mô tả qui trình xây dựng mô hình phân lớp các đối tượng. 2. Quy trình Train và Test một classifier: - Dữ liệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải có thuộc tính phân lớp gọi là categorical attribute - Dữ liệu gốc sẽ được chia thành 2 phần là Training Set (để xây dựng model) và Testing Set (để kiểm định Model) - Cuối cùng là tính toán lỗi để đánh giá Model Cross Validation (CV) trong Training and Testing Phase Đây là kỹ thuật chủ yếu được sử dụng trong xây dựng predictive Model. Trong đó dữ liệu gốc sẽ được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và (n-1) phần còn lại dùng để Train.

HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CÔNG NGHỆ THÔNG TIN -----------------------oOo------------------------ MÔN: KHAI PHÁ DỮ LIỆU TIỂU LUẬN: Sử dụng weka để phân lớp trên dataset Billionaires92 SỬ DỤNG WEKA VỚI CSDL SEGMENT TEST ÁP DỤNG THUẬT TOÁN PHÂN CỤM REPTree SV thực hiện: Nguyễn Thị HồngDuy Anh Lớp: CNPM6 Giảng viên HD: Hồ Nhật Quang Sử dụng Weka để phân lớp trên dataset 1. Lý thuyết về phân lớp: Trong lĩnh vực máy học (machine Learning) và nhận dạng (pattern recognition), bài toán phân lớp (classification) đề cập đến các thuật toán (algorithms) nhằm xác định lớp (class) của đối tượng đã cho sẽ thuộc về lớp nào trong các lớp đã cho trước (Given Categories). Một điều cần chú ý là khác với bài toán phân cụm (clustering), dữ liệu dùng để xây dựng mô hình (Training Data) trong bài toán phân lớp phải được xác định lớp trước (pre-Labeled). Một thuật toán thực hiện việc phân lớp được gọi là bộ phân lớp (classifier). Hình sau mô tả qui trình xây dựng mô hình phân lớp các đối tượng. 2. Quy trình Train và Test một classifier : - Dữ liệu để xây dựng mô hình: dữ liệu gốc (original dataset), dữ liệu này phải có thuộc tính phân lớp gọi là categorical attribute - Dữ liệu gốc sẽ được chia thành 2 phần là Training Set (để xây dựng model) và Testing Set (để kiểm định Model) - Cuối cùng là tính toán lỗi để đánh giá Model Cross Validation (CV) trong Training and Testing Phase Đây là kỹ thuật chủ yếu được sử dụng trong xây dựng predictive Model. Trong đó dữ liệu gốc sẽ được chia thành n phần bằng nhau (n-fold), và quá trình Train/Test Model thực hiện lặp lại n lần. Tại mỗi lần Train/Test Model, 1 phần dữ liệu dùng để Test và (n-1) phần còn lại dùng để Train. (Người ta đã chứng minh 10-fold Cross –Validation là tối ưu) Hình dưới đây mô tả CV với 3-fold. 3. Giới thiệu về dataset: Tạp chí Fortune công bố danh sách tỉ phú hàng năm. Danh sách năm 1992 bao gồm 233 cá nhân hoặc gia đình. Có 3 thuộc tính là Sự giàu có (Wealth), Tuổi tác (Age), và Vị trí địa lý của họ (Region of the world)(Asia,Europe, Midle East, United Stated and Other) được báo cáo. Số liệu này thường được sử dụng để kiểm tra và so sánh thực hiện các thuật toán phân loại khác nhau. Các phân tích xác định ảnh hưởng của Giàu có và vị trí địa lý đến Tuổi tác. 4. Thực hành phân lớp trên weka: Mở Weka: 4.1 Preprocess (Tiền xử lý): Bấm OpenFile, chọn dataset Billionaires92 , sau đó mở tab Preprocess _Ở bước tiền xử lý này ta sẽ tiến hành loại bỏ những dữ liệu lỗi hoặc những thuộc tính có quá nhiều giá trị rời rạc hoặc những giá trị bất thường. Weka cung cấp cho ta chức năng filter những giá trị lỗi này: Dữ liệu trong Billionaires92: Dữ liệu không có lỗi nên có thể tiến hành phân lớp luôn. 4.2 Phân lớp bằng cây quyết định j4.8: Weka sẽ xây dựng cây quyết định bằng chương trình C4.5 C4.5 là sự kế thừa của của thuật toán học máy bằng cây quyết định dựa trên nền tảng là kết quả nghiên cứu của HUNT và các cộng sự của ông trong nửa cuối thập kỷ 50 và nửa đầu những năm 60 (Hunt 1962). Phiên bản đầu tiên ra đời là ID3 (Quinlan, 1979)- 1 hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh Pascal, và tiếp theo là C4 (Quinlan 1987). Năm 1993, J. Ross Quinlan đã kế thừa các kết quả đó phát triển thành C4.5 với 9000 dòng lệnh C chứa trong một đĩa mềm. 4.2.1 Thuật toán C4.5: C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định hiệu quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước nhỏ. C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm này làm C4.5 chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại mỗi node trong quá trình phát triển cây quyết định. C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu). Kỹ thuật này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà độ chính xác so với nhánh tương ứng cây quyết định là tương đương. Tư tưởng phát triển cây quyết định của C4.5 là phương pháp HUNT . Chiến lược phát triển theo độ sâu (depth-first strategy) được áp dụng cho C4.5. Giả mã của C4.5: . HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CÔNG NGHỆ THÔNG TIN -- -- - -- - -- - -- - -- - -- - -- - oOo -- - -- - -- - -- - -- - -- - -- - -- - MÔN: KHAI PHÁ DỮ LIỆU TIỂU LUẬN: Sử dụng weka để. SEGMENT TEST ÁP DỤNG THUẬT TOÁN PHÂN CỤM REPTree SV thực hiện: Nguyễn Thị HồngDuy Anh Lớp: CNPM6 Giảng viên HD: Hồ Nhật Quang Sử dụng Weka để phân lớp trên

Ngày đăng: 03/12/2013, 21:31

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan