... toán xây dựng định: Dữliệu vào: Tập liệu D, tập danh sách thuộc tính, tập nhãn lớpDữliệu ra: Mô hình định Thuật toán: Tạocây(Tập liệu E, tập danh sách thuộc tính F, tập nhãn lớp) Nếu điều_kiện_dừng(E,F) ... kết phân loại phânlóp Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0. 25 0 0 .5 dont_play 0. 75 0.6 0. 75 0.667 0 .5 play Weighted Avg 0 .5 0. 75 0.4 0 .5 0.444 ... ta đến chơi golf Để thực điều đó, anh cần hiểu khách hàng định chơi tìm hiểu xem có cách giải thích cho việc hay không Người ta thu bảng số liệu sau: Chúng ta sửdụng thuật toán c4. 5 để giải do:...
... xác địnhlớp (class) đối tượng cho thuộc lớplớpcho trước (given categories) Khác với toán phân cụm (clustering), liệudùng để xây dựng mô hình (Training Data) toán phânlớp phải xác địnhlớp ... hình phânlớp đối tượng Quy trình thực huấn luyện phânlớp với mẫu liệu Tic Tac Toe.arff Test set Dữliệu xây dựng mô hình Dữliệu để xây dựng mô hình: liệu gốc (original dataset) , liệu phải ... thuộc tính tập liệu có kiểu liệu rời rạc Bài toán phânlớp - Phânlớp theo tình trạng nước cờ, có trạng thái Positive (thuận lợi) Negative( bất lợi) Giải toán sửdụngphânlớp Xử lý liệu đầu vào:...
... Area Class 0.6 25 0. 45 0.7 35 0.6 25 0.676 0 .58 7 Co 0 .55 0.3 75 0.423 0 .55 0.478 0 .58 7 Khong Weighted Avg 0.6 0.4 25 0.631 0.6 0.61 0 .58 7 === Confusion Matrix === a b < classified as 25 15 | a = Co 11 ... chơi , nhà phát hành game kết luận họ có chơi game hay không Thuật toán phânlớp lựa chọn áp dụngliệu II Thực nghiệm WEKA Tiền xử lý liệu: Trong qui trình khaiphá liệu, công việc xử lý liệu trước ... of Instances 151 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0 .58 5 0.667 0 .59 1 0 .58 5 0 .58 8 0. 45 Co 0.333 0.4 15 0.328 0.333 0.33 0. 45 Khong Weighted...
... thiệu tiền xử lý liệu (Data Preprocessing) - Trong qui trình khaiphá liệu, công việc xử lý liệu trước đưa vào mô hình cần thiết, bước làm choliệu có ban đầu qua thu thập liệu (gọi liệu gốc original ... Root relative squared error 0.0696 0. 153 3 14. 659 5 % 31.2338 % Coverage of cases (0. 95 level) 99 .53 92 % Mean rel region size (0. 95 level) 56 .2212 % 97.2 35 % 2.7 65 % Total Number of Instances 217 === ... lập false - ấn Apply ta liệu thuộc tính sex Làm tương tự cho thuộc tính Kết cuối ta thuộc tính sửdụng sau: - Ta lưu lại liệu thực thuật toán liệu IV- Thuật toán phânlớp 1- Thực thuật toán a-...
... Meta Data -90% d liệu ểxâydựng, 10% d liệu test - 85% d liệu ểxâydựng, 15% liệu test 2011 Meta Data -70% d liệu ểxâydựng, 30% d liệu test 2011 Meta Data -50 % d liệu ểxâydựng, 50 % d liệu test 2011 ... absolute error 151 .54 01 Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 764.994 100 % 100 % 52 8 -Cây định - 95% liệu để xây dựng, 5% liệu test 2011 ... {Ac2,Alloc80,BackProp,Bayes,BayesTree ,C4. 5, CART,Cal5,Cascade,Castle,Cn2,Default,Dipol92,D iscrim,ITrule,IndCART,KNN,Kohonen,LVQ,LogDisc,NewId,QuaDisc,RBF,Smart} Norm_error real -Training data 3.TIến hành Weka -Đưa liệu vào Weka...
... Lần 7: lấy 95 % liệu test 52 5 96 621 chiếm chiếm 84 .54 11 % 15. 458 9 % Kết phânlớp sau: + Trường hợp phânlớp xác: + Trường hợp không xác: + Tổng số trường hợp: 55 7 98 655 chiếm chiếm 85. 0382 % 14.9618 ... chuẩn cho vấn đề khaipháliệu như: phân lớp, hồi quy, phân nhóm, phân cụm, luật kết hợp, thuộc tính kết hợp.Cụ thể đề tài em tìm hiểu toán phânlớpweka áp dụng toán phê duyệt tín dụngcho ứng dụng ... duyệt Đọc liệu đầu vào sau áp dụng toán phânlớp dựa vào thuộc tính để phânlớp khả phê duyệt tín dụngcho ứng dụng thẻ tín dụng Tạo định khả phê duyệt ứng dụng thẻ tín dụng để hỗ trợ cho việc...
... Anh- Khaipháliệu - 85% d liệu ểxâydựng, 15% test 13 11/2011 Vũ Tuấn Anh- Khaipháliệu -80% d liệu ểxâydựng, 20% test 14 11/2011 Vũ Tuấn Anh- Khaipháliệu -60% d liệu ểxâydựng, 40% test 15 11/2011 ... Anh- Khaipháliệu a b c d < classified as 28 0 | a = van 19 0 | b = saab 0 26 | c = bus 16 | d = opel -Câyquyếtđịnh: - 95% d liệu ểxâydựng, 5% test 11 11/2011 Vũ Tuấn Anh- Khaipháliệu -90% d liệu ểxâydựng, ... Tuấn Anh- Khaipháliệu Cáclớp -Giải toán :Sử dụng J48 Weka dựa vào thuộc tính để đưa định xem bóng loại xe 2.Xây dựng sở liệu -Dataset sử dụng: STATLOG (Vehicle Silhouettes) -Thông tin dataset: ...
... mô hình khaiphá luật kết hợp không làm việc với kiểu liệu liên tục Quá trình goi rời rạc hóa liệu (Discretization) Nạp liệu (Loading the Data) Thông thường, định dạng chuẩn file liệuWeka la ... Spreadsheet cho phép tổ chức file liệu dạng file csv (comma-separated values) điều thuận lợi Wekacho phép đọc liệu từ file csv Nạp file liệu data-bank.csv: Chọn tab “Preprocess” > Open file Nếu không định ... "(34.333333 -50 .666667]" “ (50 .666667- inf)” Chúng ta thay đổi nhãn mà Weka tự động tạo nhãn dễ hiểu Chẳn hạn ta thay nhãn "(-inf-34.333333]" 0_34, nhãn "(34.33333 350 .666667]" 35_ 51 nhãn “ (50 .666667-...
... navie bayes: 15 Vũ Trung Kiên – Lớp CNPM – Sửdụngweka để phânlớpchodataset Computer Hardware - Với thuật toán J48: 16 Vũ Trung Kiên – Lớp CNPM – Sửdụngweka để phânlớpchodataset Computer ... expression data Wiley) - Tính toán lỗi chophânlớp Vũ Trung Kiên – Lớp CNPM – Sửdụngweka để phânlớpchodataset Computer Hardware - Kết nhận phânlớp - Các phânlớpweka hỗ trợ bao gồm: Bayes: - NavieBayes ... Trung Kiên – Lớp CNPM – Sửdụngweka để phânlớpchodataset Computer Hardware Với thuật toán Navie Bayes Với thuật toán J48 14 Vũ Trung Kiên – Lớp CNPM – Sửdụngweka để phânlớpchodataset Computer...
... > Choose > filters >unsupervised > attribute > Remove Ta thu kết Lưu lại liệu SE2.Ta sửdụngdataset để phânlớp Thuật toán phânlớp 1.Thực thuật toán Đối với datasetsửdụng thuật toán phân lớp: ... lần chạy thử , ta rút kết luận lần chạy thử với liệu: 66% liệudùng để xây dựng cây, 34% để test có tỷ lệ phânlớp xác 98,2326% Nên ta sửdụngđịnh lần thử để sửdụngcho mẫu thử sau Page 30 ... b = negative Với liệu chia theo tỷ lệ 75% , 25% Kết === Run information === Page 13 0.973 KHAIPHÁDỮLIỆU Scheme :weka. classifiers.trees.J48 -C 0. 25 -M Relation: sick-euthyroid -weka. filters.unsupervised.attribute.Remove-R1,2,3,8,10,14, 15, 19,21,22,25...
... Training set : gồm 783 mẫu liệu Testing set : gồm 178080 mẫu dựliệu 12 thuộc tính III Thuật toán phân cụm K Mean Phân cụm kỹ thuật quan trọng khaiphá liệu, thuộc lớp phương pháp Unsupervised Learning ... MÔN HỌC Họ tên : Trần Hoàng Giang Lớp : HTTT6 DataSet : El Nino Link : http://archive.ics.uci.edu/ml/datasets/El+Nino Bài toán thực : KhaipháliệuWeka với toán phân cụm Thuật toán: Simple K-Mean ... Finance: Phân nhóm đối tượng sửdụng bảo hiểm dịch vụ tài chính, dự đoán xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds); • WWW: Phân loại tài liệu (document classification); phân...
... 55 .capital_run_length_average 56 .capital_run_length_longest 57 .capital_run_length_total 58 .class Thực hành phânlớpweka Sau cài đặt xong, mở weka, chọn explorer 2.1 Tiền xử lý liệu 2.1.1 Nạp liệu Thông thường, định ... P(A/Bi)) Phương pháp phân loại Naïve-Bayesian Phân loại Bayesian phương pháp phân loại sửdụng tri thức xác suất qua huấn luyện Phương pháp thích hợp với lớp toán đòi hỏi phải dự đoán xác lớp mẫu cần ... kết thống kê cho thấy có 3890 mẫu phân loại chiếm 84 ,54 68%, 711 mẫu phân loại sai chiếm 15. 453 2% Với J48, 3868 mẫu phân loại chiếm 84,0687% sai chiếm 15, 9313% Trong thời gian phânlớp Naive Bayers...
... Minh Đức – Khaipháliệu -Lấy 75% liệu để xây dựng, 25% liệu để test 13 2011 Phạm Minh Đức – Khaipháliệu -Lấy60% liệu để xây dựng,40% liệu để test 14 2011 Phạm Minh Đức – Khaipháliệu 15 2011 ... -Training data Phạm Minh Đức – Khaipháliệu 3.Tiến hành Weka -Đưa liệu vàoWeka 2011 Phạm Minh Đức – Khaipháliệu -Sử dụng toàn liệu để training 2011 Phạm Minh Đức – Khaipháliệu -Nội dung kết quả: ... liệu để xây dựng ,5% liệu để test 10 2011 Phạm Minh Đức – Khaipháliệu -Lấy 90% liệu để xây dựng,10% liệu để test 11 2011 Phạm Minh Đức – Khaipháliệu -Lấy 80% liệu để xây dựng,20% liệu để test...
... – Khaipháliệu - 95% liệu để xây dựng, 5% liệu test 2011 Phạm Trung Kiên – Khaipháliệu -90% d liệu ểxâydựng, 10% d liệu test 10 2011 Phạm Trung Kiên – Khaipháliệu - 85% d liệu ểxâydựng, 15% ... d liệu ểxâydựng, 15% d liệu test 11 2011 Phạm Trung Kiên – Khaipháliệu -70% d liệu ểxâydựng, 30% d liệu test 12 2011 Phạm Trung Kiên – Khaipháliệu -50 % d liệu ểxâydựng, 50 % d liệu test 13 2011 ... 3.TIến hành Weka -Đưa liệu vào Weka Phạm Trung Kiên – Khaipháliệu -Sử dụng toàn liệu để training 2011 Phạm Trung Kiên – Khaipháliệu -Nội dung kếtquả === Run information === Scheme: weka. classifiers.trees.J48...
... biến ứng dụngkhaiphá sở liệu có kích thước nhỏ C4. 5sửdụng chế lưu trữ liệu thường trú nhớ, đặc điểm làm C4. 5 thích hợp với sở liệu nhỏ, chế xếp lại liệu node trình phát triển định C4. 5 chứa ... tương ứng định tương đương Tư tưởng phát triển định C4. 5 phương pháp HUNT Chiến lược phát triển theo độ sâu (depth-first strategy) áp dụngcho C4. 5 Giả mã C4. 5 Đặc điểm thuật toán C4. 5 • C4. 5dùng ... Pascal, C4 (Quinlan 1987) Năm 1993, J Ross Quinlan kế thừa kết phát triển thành C4. 5 với 9000 dòng lệnh C chứa đĩa mềm 4.2.1Thuật toán C4. 5 Với đặc điểm C4. 5 thuật toán phânlớpliệu dựa định hiệu...
... Class 0 .55 6 0.6 0.6 25 0 .55 6 0 .58 8 0.633 yes 0.4 0.444 0.333 0.4 0.364 0.633 no Weighted Avg 0 .5 0 .54 4 0 .52 1 0 .5 0 .50 8 0.633 === Confusion Matrix === SVTH: Nguyễn Thị Hoa Trang 10 Khaipháliệu GVHD: ... hiệu liệu Qualititive value (ordinal, Binary, nominal).Sau chuẩn hóa liệubảngliệu toàn kiểu Nominal, ta sửdụng thuật toán J48 để đạt hiệu phânlớp cao Sửdụng thuật toán với phầnmềmWeka ... với phầnmềmWeKa SVTH: Nguyễn Thị Hoa Trang Khaipháliệu GVHD: Hồ Nhật Quang Datasetdùng file định dạng chuẩn weka Weather.arff Khởi động Weka > Chọn Explorer > Chọn Open file > Chọn Dataset...
... thành C4. 5 với 9000 dòng lệnh C chứa đĩa mềm 4.2.1 Thuật toán C4. 5: C4. 5 thuật toán phânlớpliệu dựa định hiệu phổ biến ứng dụngkhaiphá sở liệu có kích thước nhỏ C4. 5sửdụng chế lưu trữ liệu ... giá trị lỗi này: Dữliệu Billionaires92: Dữliệu lỗi nên tiến hành phânlớp 4.2 Phânlớpđịnh j4.8: Weka xây dựngđịnh chương trình C4. 5 C4. 5 kế thừa của thuật toán học máy định dựa tảng kết ... “quá vừa” liệu C4. 5 với chế cắt tỉa tạo nên sức mạnh C4. 5 Thêm vào đó, mô hình phânlớp C4. 5 có phần chuyển đổi từ định sang luật dạng if-then, làm tăng độ xác tính dễ hiểu kết phânlớp Đây tiện...
... năm: Lấy 50 % liệu để xây dựng cây, 50 % để test: Khaipháliệu 15 Lần thứ sáu: Lấy 30% liệu để xây dựng cây, 70% để test: Lần thứ bảy: Lấy 91% liệu để xây dựng cây, 9% để test: Khaipháliệu 16 ... cửa số Preprocess WEKA sau: Bạn chỉnh sửa liệu cách click vào liệu xuất để bạn chỉnh sửa Khaipháliệu , lúc bảng Xây dựng định: - Bước ta sửdụng tất liệu để trainning cho cây: + Nhấn vào tab ... theo dấu chấm phẩy Khaipháliệu II XÂY DỰNG CƠ SỞ DỮLIỆU Đề tài sửdụngdataset Pittsburgh Bridges cung cấp giá trị 13 thuộc tính phân loại cho 124 liệu Thông tin chung dataset Pittsburgh Bridges...