Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu Congressional Voting Records

19 1.1K 5
Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu Congressional Voting Records

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

I- Mô tả bài toán - Dữ liệu bao gồm các phiếu bầu cho mỗi Hạ viện Hoa Kỳ. Đại biểu Quốc hội trên 16 phiếu chủ chốt được xác định bởi các CQA. CQA liệt kê chín loại phiếu bầu khác nhau bỏ phiếu và tuyên bố bỏ phiếu chống, và công bố chống lại. Hiện nay bỏ phiếu chọn để tránh mâu thuẫn quyền lợi, và không bỏ phiếu hay nói cách khác là làm cho một vị trí được biết đến. II- Trích chọn đặc tính 1- Ý nghĩa của phương pháp trích chọn đặc tính - Trong dataset hiện tại được chọn bao gồm 26 thuộc tính dùng để mô tả về loại thuốc này, tuy nhiên khi xây dựng một Data mining model nào đó chỉ cần khoảng 50 thuộc tính từ hàng trăm thuộc tính đó. Nếu ta sử dụng tất cả các thuộc tính (hàng trăm) của loại thuốc để xây dựng mô hình thì ta cần nhiều CPU, nhiều bộ nhớ trong quá trình Training model, thậm chí các thuộc tính không cần thiết đó làm giảm độ chính xác của mô hình và gây khó khăn trong việc phát hiện tri thức. - Các phương pháp trích chọn thuộc tính thường tính trọng số (score) của các thuộc tính và sau đó chỉ chọn các thuộc tính có trọng số tốt nhất để sử dụng cho mô hình. Các phương pháp này cho phép bạn hiệu chỉnh ngưỡng (threshold) để lấy ra các thuộc tính có Score trên ngưỡng cho phép. Quá trình trích chọn thuộc tính luôn được thực hiện trước quá trình Training Model. - Một số phương pháp chọn thuộc tính (Feature Selection Methods): Có rất nhiều phương pháp để lựa chọn thuộc tính tùy thuộc vào cấu trúc của dữ liệu dùng cho mô hình và thuật toán được dùng để xây dựng mô hình. Sau đây là một số phương pháp phổ biến dùng trong trích chọn thuộc tính: a. interestingness score: Được sử dụng để xếp hạng (rank) các thuộc tính đối với các thuộc tính có kiểu dữ liệu liên tục (continuous). Một thuộc tính được xem là Interesting nếu nó

BÁO CÁO MÔN HỌC : KHAI PHÁ DỮ LIỆU Họ và tên : Trần Đức Quang Lớp : HTTT6 Dataset : Congressional Voting Records I- Mô tả bài toán - Dữ liệu bao gồm các phiếu bầu cho mỗi Hạ viện Hoa Kỳ. Đại biểu Quốc hội trên 16 phiếu chủ chốt được xác định bởi các CQA. CQA liệt kê chín loại phiếu bầu khác nhau bỏ phiếu và tuyên bố bỏ phiếu chống, và công bố chống lại. Hiện nay bỏ phiếu chọn để tránh mâu thuẫn quyền lợi, và không bỏ phiếu hay nói cách khác là làm cho một vị trí được biết đến. II- Trích chọn đặc tính 1- Ý nghĩa của phương pháp trích chọn đặc tính - Trong dataset hiện tại được chọn bao gồm 26 thuộc tính dùng để mô tả về loại thuốc này, tuy nhiên khi xây dựng một Data mining model nào đó chỉ cần khoảng 50 thuộc tính từ hàng trăm thuộc tính đó. Nếu ta sử dụng tất cả các thuộc tính (hàng trăm) của loại thuốc để xây dựng mô hình thì ta cần nhiều CPU, nhiều bộ nhớ trong quá trình Training model, thậm chí các thuộc tính không cần thiết đó làm giảm độ chính xác của mô hình và gây khó khăn trong việc phát hiện tri thức. - Các phương pháp trích chọn thuộc tính thường tính trọng số (score) của các thuộc tính và sau đó chỉ chọn các thuộc tính có trọng số tốt nhất để sử dụng cho mô hình. Các phương pháp này cho phép bạn hiệu chỉnh ngưỡng (threshold) để lấy ra các thuộc tính có Score trên ngưỡng cho phép. Quá trình trích chọn thuộc tính luôn được thực hiện trước quá trình Training Model. - Một số phương pháp chọn thuộc tính (Feature Selection Methods): Có rất nhiều phương pháp để lựa chọn thuộc tính tùy thuộc vào cấu trúc của dữ liệu dùng cho mô hình và thuật toán được dùng để xây dựng mô hình. Sau đây là một số phương pháp phổ biến dùng trong trích chọn thuộc tính: a. interestingness score: Được sử dụng để xếp hạng (rank) các thuộc tính đối với các thuộc tính có kiểu dữ liệu liên tục (continuous). Một thuộc tính được xem là Interesting nếu nó mang một vài thông tin hữu ích (thế nào là thông tin hữu ích tùy thuộc vào vấn đề đang phân tích của bạn). Để đo lường mức độ interestingness, người ta thường dựa vào entropy (một thuộc tính với phân bố ngẫu nhiên có entropy cao hơn và có information gain (độ lợi thông tin) thấp hơn) vì vậy các thuộc tính đó gọi là less interesting). Entropy của một thuộc tính nào đó sẽ được so sánh với entropy của tất cả các thuộc tính còn lại theo công thức sau: Interestingness(Attribute) = - (m - Entropy(Attribute)) * (m - Entropy(Attribute)) Trong đó m gọi là entropy trung tâm (Central entropy- có nghĩa là entropy của toàn bộ tập thuộc tính) b. Shannon's Entropy: Được sử dụng đối với các dữ liệu kiểu rời rạc (discretized data). Shannon's entropy đo lường độ bất định (uncertainty) của biến ngẫu nhiên đối với một kết quả cụ thể (particular outcome). Ví dụ, entropy của việc tung một đồng xu có thể biểu diễn bằng một hàm của xác suất của khả năng xuất hiện mặt sấp hay ngửa. Shannon's entropy được tính theo công thức sau H(X) = -∑ P(xi) log(P(xi)) c. Ngoài interestingness score và Shannon's entropy, một số phương pháp khác cũng thường được sử dụng trong lựa chọn thuộc tính như Bayesian with K2 Prior, Bayesian Dirichlet Equivalent with Uniform Prior 2- Trích chọn đặc tính trong weka - Trong WEKA, một phương pháp lựa chọn thuộc tính (attribute selection) bao gồm2 phần: a. Attribute Evaluator Để xác định một phương pháp đánh giá mức • Attribute Evaluator. Để xác định một phương pháp đánh giá mức độ phù hợpcủa các thuộc tính b. Search Method. Để xác định mộtphương pháp (thứ tự) xét các thuộc tính - Mở weka chọn CSDL house-votes - 84 ta được như sau : - Chọn tab “Select attributes”, Trong mục Search Method chọn GredySteepWise, và làm như sau: - Bấm Start để thực hiện, ta được kết quả như sau: - Như vậy, những thuộc tính cần sử dụng trong khai phá dữ liệu chỉ cần là 4/17 thuộc tính, ta sẽ sử dụng những thuộc tính này: 1. adoption-of-the-budget-resolution 2. anti-satellite-test-ban 3. aid-to-nicaraguan-contras 4. immigration III- Tiền xử lý dữ liệu 1- Giới thiệu về tiền xử lý dữ liệu (Data Preprocessing) - Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như: • Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình • Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho mô hình • Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù hợp với các mô hình như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal • Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳn hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu. 2- Tiền xử lí dữ liệu với bài toán đã chọn - Trong bài toán của mình, em thấy có những vấn đề sau về tiền xử lí dữ liệu: - Loại bỏ cácthuộc tính : 1. Class Name: 2 (democrat, republican) 2. handicapped-infants: 2 (y,n) 3. water-project-cost-sharing: 2 (y,n) 5. physician-fee-freeze: 2 (y,n) 6. el-salvador-aid: 2 (y,n) 7. religious-groups-in-schools: 2 (y,n) 10. mx-missile: 2 (y,n) 12. synfuels-corporation-cutback: 2 (y,n) 13. education-spending: 2 (y,n) 14. superfund-right-to-sue: 2 (y,n) 15. crime: 2 (y,n) 16. duty-free-exports: 2 (y,n) 17. export-administration-act-south-africa: 2 (y,n) 2. - Trình tự thực hiện loại bỏ các thuộc tính này như sau: Trong panel Filter > Choose > filters >unsupervised > attribute > Remove - Bước tiếp theo là bấm vào textbox ngay bên phải nút “Choose” gõ vào đấy 1,2,3,5,6,7,10,12,13,14,15,16,17 . Chú ý rằng tùy chọn "invertSelection" phải được thiết lập là false. - ấn Apply ta sẽ được bộ dữ liệu mới không có thuộc tính sex nữa. Làm tương tự cho các thuộc tính đã chỉ ra ở trên. Kết quả cuối cùng ta được bộ các thuộc tính sẽ sử dụng như sau: - Ta sẽ lưu lại dữ liệu và thực hiện thuật toán trên dữ liệu mới này. IV- Thuật toán phân lớp 1- Thực hiện thuật toán a- Kết quả khi J48 với các thông số thiết đặt như sau(chia dữ liệu thành 10 phần) === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: house-votes-84 Instances: 435 Attributes: 17 Class Name handicapped-infants water-project-cost-sharing adoption-of-the-budget-resolution physician-fee-freeze el-salvador-aid religious-groups-in-schools anti-satellite-test-ban aid-to-nicaraguan-contras mx-missile immigration synfuels-corporation-cutback education-spending superfund-right-to-sue crime duty-free-exports . làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu . III- Tiền xử lý dữ liệu 1- Giới thiệu về tiền xử lý dữ liệu (Data Preprocessing) - Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa

Ngày đăng: 03/12/2013, 16:07

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan