Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu SO dataset

Thông tin tài liệu

MỤC LỤC I.Mô tả bài toán2 II.Trích chọn đặc tính3 1.Ý nghĩa và các phương pháp trích chọn đặc tính3 2.Thực nghiệm trên WeKa:4 III.Tiền xử lí dữ liệu8 1.Giới thiệu về tiền xử lý dữ liệu (Data Preprocessing)8 2.Tiền xử lí dữ liệu với bài toán đã chọn8 IV.Thuật toán phân lớp11 1.Thực hiện thuật toán11 a.Xây dựng thuật toán cây quyết định bằng J48(chia dữ liệu thành 10 phần)11 b.Xây dựng thuật toán cây quyết định bằng J48(chia dữ liệu thành 66%, 34% )15 c.Lần thứ 3 : Xây dựng thuật toán cây quyết định bằng J48(chia dữ liệu thành 90% , 10%)18 V.Đánh giá & kết luận24

BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU Đề tài: Sử dụng phần mềm weka khai phá bộ dữ liệu SO với thuật toán phân lớp Giảng viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Nguyễn Viết Dực Lớp : HTTT6 MỤC LỤC I. Mô tả bài toán 3 II. Trích chọn đặc tính 3 Ý nghĩa và các phương pháp trích chọn đặc tính 3 Thực nghiệm trên WeKa: 4 III. Tiền xử lí dữ liệu .8 IV. Thuật toán phân lớp 11 1.Thực hiện thuật toán .11 a.Xây dựng thuật toán cây quyết định bằng J48(chia dữ liệu thành 10 phần) .11 b.Xây dựng thuật toán cây quyết định bằng J48(chia dữ liệu thành 66%, 34% ) .16 c.Lần thứ 3 : Xây dựng thuật toán cây quyết định bằng J48(chia dữ liệu thành 90% , 10%) 18 d Lần thứ 4 : Xây dựng thuật toán cây quyết định bằng J48(chia dữ liệu thành 50%, 50%) .25 V. Đánh giá & kết luận .28 I. Mô tả bài toán Cho cơ sở dữ liệu về SO (bộ dữ liệu là bản ghi về sự phát triển của cây đậu tương trong từng giai đoạn :số ngày ,tỷ lệ nảy mầm,sự phụ thuộc thời tiết, giống cây trồng, sự nảy mầm của cây…và cuối cùng đưa ra chi tiết về sự tăng trưởng và phát triển của cây đậu tương )bao gồm 47 bản ghi và 36 thuộc tính II. Trích chọn đặc tính Ý nghĩa và các phương pháp trích chọn đặc tính Trong dataset hiện tại được chọn bao gồm 36 thuộc tính dùng để mô tả về các giai đoạn phát triển của cây, tuy nhiên khi xây dựng một Data mining model nào đó chỉ cần khoảng 50 thuộc tính từ hàng trăm thuộc tính đó. Nếu ta sử dụng tất cả các thuộc tính (hàng trăm) để xây dựng mô hình thì ta cần nhiều CPU, nhiều bộ nhớ trong quá trình Training model, thậm chí các thuộc tính không cần thiết đó làm giảm độ chính xác của mô hình và gây khó khăn trong việc phát hiện tri thức. Các phương pháp trích chọn thuộc tính thường tính trọng số (score) của các thuộc tính và sau đó chỉ chọn các thuộc tính có trọng số tốt nhất để sử dụng cho mô hình. Các phương pháp này cho phép bạn hiệu chỉnh ngưỡng (threshold) để lấy ra các thuộc tính có Score trên ngưỡng cho phép. Quá trình trích chọn thuộc tính luôn được thực hiện trước quá trình Training Model. Một số phương pháp chọn thuộc tính (Feature Selection Methods): Có rất nhiều phương pháp để lựa chọn thuộc tính tùy thuộc vào cấu trúc của dữ liệu dùng cho mô hình và thuật toán được dùng để xây dựng mô hình. Sau đây là một số phương pháp phổ biến dùng trong trích chọn thuộc tính: • interestingness score: Được sử dụng để xếp hạng (rank) các thuộc tính đối với các thuộc tính có kiểu dữ liệu liên tục (continuous). Một thuộc tính được xem là Interesting nếu nó mang một vài thông tin hữu ích (thế nào là thông tin hữu ích tùy thuộc vào vấn đề đang phân tích của bạn). Để đo lường mức độ interestingness, người ta thường dựa vào entropy (một thuộc tính với phân bố ngẫu nhiên có entropy cao hơn và có information gain (độ lợi thông tin) thấp hơn) vì vậy các thuộc tính đó gọi là less interesting). Entropy của một thuộc tính nào đó sẽ được so sánh với entropy của tất cả các thuộc tính còn lại theo công thức sau: • Interestingness(Attribute) = - (m - Entropy(Attribute)) * (m - Entropy(Attribute)) Trong đó m gọi là entropy trung tâm (Central entropy- có nghĩa là entropy của toàn bộ tập thuộc tính) Shannon's Entropy: Được sử dụng đối với các dữ liệu kiểu rời rạc (discretized data). Shannon's entropy đo lường độ bất định (uncertainty) của biến ngẫu nhiên đối với một kết quả cụ thể (particular outcome). Ví dụ, entropy của việc tung một đồng xu có thể biểu diễn bằng một hàm của xác suất của khả năng xuất hiện mặt sấp hay ngửa Shannon's entropy được tính theo công thức sau H(X) = -∑ P(xi) log(P(xi)) Ngoài interestingness score và Shannon's entropy, một số phương pháp khác cũng thường được sử dụng trong lựa chọn thuộc tính như Bayesian with K2 Prior, Bayesian Dirichlet Equivalent with Uniform Prior. Thực nghiệm trên WeKa: Tiền xử lý dữ liệu - Khởi động weka. Chọn cơ sở dữ liệu SO.arff Tiếp sau đó : - Chọn tab “Select attributes”, trong mục “Attribute Evaluaror” chọn WrapperSubsetEval, trong mục Classifier chọn NaiveBayes như hình sau: - Trong mục Search Method chọn GredySteepWise, và làm như sau: - Bấm Start để thực hiện, ta được kết quả như sau: Như vậy, những thuộc tính cần sử dụng trong khai phá dữ liệu chỉ cần 6/36 thuộc tính , ta sẽ sử dụng thuộc tính : - plan-stand - precip - temp - crop-hist - leaveas - stea-cankers III. Tiền xử lí dữ liệu 1. Giới thiệu về tiền xử lý dữ liệu (Data Preprocessing) - Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như: o Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình o Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mô hình o Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù hợp với các mô hình như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal o Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳn hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu. 2. Tiền xử lí dữ liệu với bài toán đã chọn - Ta sẽ giữ lại những thuộc tính đã đc chọn là plan-stand, precip, temp, crop-hist, leaveas, stea-cankers còn loại bỏ những thuộc tính còn lại Rồi sau đó: Sau đó ấn Apply để thực hiện công việc loại bỏ Sau đó ấn Save lại dữ liệu lưu SO2.arff ta sẽ thực hiện thuật toán phân lớp với csdl mới này . phân lớp Giảng viên hướng dẫn: Hồ Nhật Quang Sinh viên thực hiện: Nguyễn Viết Dực Lớp : HTTT6 MỤC LỤC I. Mô tả bài toán 3

Ngày đăng: 16/12/2013, 15:09

Xem thêm: Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu SO dataset, Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu SO dataset

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu SO dataset

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan