Tiểu luận khai phá dữ liệu: SỬ DỤNG WEKA KHAI PHÁ DỮ LIỆU CAR EVALUATION VỚI THUẬT TOÁN PHÂN LỚP

23 1.1K 4
Tiểu luận khai phá dữ liệu: SỬ DỤNG WEKA KHAI PHÁ DỮ LIỆU CAR EVALUATION VỚI THUẬT TOÁN PHÂN LỚP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tên Data set : car evaluation CSDL gồm các thuộc tính Tên thuộc tính value Mô tả buying v-high, high, med, low Giá mua maint v-high, high, med, low Giá bảo hành doors 2, 3, 4, 5-more Cửa Persons 2, 4 , more Năng lực người thực hiện Lug_boot Small, med, big Kích thước lug_boot safety Low , med, high Ước tính an toàn của xe acc Acc, unacc, v-good, good Xử lý I : phân tích bài toán - Mục đích : đưa ra quyết định xem có mua xe ô tô hay không dựa trên các yếu tố trên thị trường. - Yêu cầu: đưa ra một trường thông tin bao gồm (buying, maint, doors, persons, lug_boot, safety ) bất kỳ đưa ra là ACC, UNACC, V_GOOD hay là GOOD. II: Thực hành trên weka. 1. Tiền xử lý xử liệu. - Khởi động WEKA chọn EXPLORER. Trong explorer có 6 tab  Preprocess: Tiền xử lý dữ liệu.  Classify: Tạo ra những chương trình để phân loại.  Cluster: Tạo phân cụm cho cơ sở dữ liệu.  Associate: Tạo luật kết hợp cho dữ liệu và đánh giá chúng.  Select attributes: Lựa chọn những thuộc tính liên quan nhất trong tập dữ liệu.  Visualize: ( nhìn thấy sự khác nhau hai chiều của dữ liệu và sự tương tác giữa chúng)View different two-dimensional plots of the data and interact with them. a, Đưa giữ liệu vào: Trong tab Preprocess

HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CÔNG NGHỆ THÔNG TIN ------------ KHO DỮ LIỆUKHAI PHÁ DỮ LIỆU ĐỀ TÀI: DÙNG WEKA KHAI PHÁ DỮ LIỆU CAR EVALUATION VỚI THUẬT TOÁN PHÂN LỚP Giáo viên hướng dẫn : HỒ NHẬT QUANG Sinh viên thực hiện : LÊ VĂN TUẤN Lớp : HTTT6 Hà Nội, 10- 2011 Tên Data set : car evaluation CSDL gồm các thuộc tính Tên thuộc tính value Mô tả buying v-high, high, med, low Giá mua maint v-high, high, med, low Giá bảo hành doors 2, 3, 4, 5-more Cửa Persons 2, 4 , more Năng lực người thực hiện Lug_boot Small, med, big Kích thước lug_boot safety Low , med, high Ước tính an toàn của xe acc Acc, unacc, v-good, good Xử lý I : phân tích bài toán - Mục đích : đưa ra quyết định xem có mua xe ô tô hay không dựa trên các yếu tố trên thị trường. - Yêu cầu: đưa ra một trường thông tin bao gồm (buying, maint, doors, persons, lug_boot, safety ) bất kỳ đưa ra là ACC, UNACC, V_GOOD hay là GOOD. II: Thực hành trên weka. 1. Tiền xử lý xử liệu. - Khởi động WEKA chọn EXPLORER. Trong explorer có 6 tab  Preprocess: Tiền xử lý dữ liệu.  Classify: Tạo ra những chương trình để phân loại.  Cluster: Tạo phân cụm cho cơ sở dữ liệu.  Associate: Tạo luật kết hợp cho dữ liệu và đánh giá chúng.  Select attributes: Lựa chọn những thuộc tính liên quan nhất trong tập dữ liệu.  Visualize: ( nhìn thấy sự khác nhau hai chiều của dữ liệusự tương tác giữa chúng)View different two-dimensional plots of the data and interact with them. a, Đưa giữ liệu vào: Trong tab Preprocess có: − Nút mở các file có sẵn trên máy. − Nút mở file từ máy khác. − Nút đọc dữ liệu từ một cơ sở dữ liệu. − Nút Phần mềm tự tạo ra dữ liệu cho bạn theo những sự lựa chọn của bạn. Sử dụng nút bạn có thể đọc các tập tin ở nhiều định dạng như: định dạng ARFF, định dạng CSV, định dạng C4.5. Trong cửa sổ của Preprocess có 4 vùng  Vùng Filter Cho bạn biết được giải thuật dùng để tiền xử lý dữ liệu đang được sử dụng. Bạn có thể thay đổi giải thuật đó bằng cách click vào button  Vùng Current Relation (Các mối quan hệ hiện tại) • Relation (Quan hệ): Cho biết tên của bảng dữ liệu • Instances (Trường hợp): Số lượng các bản ghi • Attributes.(Những thuộc tính): Số lượng các thuộc tính trong dữ liệu. • Sum of weights: Tổng trọng lượng của mỗi bản ghi.  Vùng Attributes (Những thuộc tính) Ở dưới hộp Current Relation là hộp Attributes. Có bốn nút để thay đổi sự chọn lựa • All: Tất cả đều được chọn. • None: Tất cả các hộp đều không được chọn. • Invert: Những thuộc tính trước đây không được chọn sẽ trở thành được chọn và ngược lại. • Pattern: Cho phép người dùng lựa chọn các thuộc tính bằng cách nhập tên thuộc tính vào.  Vùng Selected Attribute:  Name: Tên thuộc tính.  Type: Kiểu dữ liệu của thuộc tính đó.  Missing: cho biết số lượng và phần trăm tương ứng của số bản ghi có giá trị rỗng trong thuộc tính.  Distinct: Cho biết số lượng các giá trị trong thuộc tính.  Unique: cho biết số lượng và phần trăm tương ứng của các giá trị không bị lặp lại trong thuộc tính. Nếu thuộc tính bạn đang chọn có kiểu dữ liệu là Nominal thì bạn sẽ nhìn thấy trong vùng này một table gồm có các trường số thứ tự (NO.), tên các giá trị (lable), số lượng mỗi giá trị (Count) và trọng lượng của chúng (Weight) như sau: Nếu thuộc tính bạn đang chọn có kiểu dữ liệu là numeric thì table có hai trường là số liệu thống kê (Statistic) và giá trị tương ứng (Value). Ở trường Statistic có các giá trị Minimum (Giá trị nhỏ nhất), Maximum (Giá trị lớn nhất), mean (Giá trị trung bình), Độ lệch chuẩn (StdDev) Sau khi đưa dữ liệu vào, bạn có thể thự hiện các thao tác để xử lý dữ liệu trước khi thực hiện những công việc khác như phân cụm, tạo cây quyết định, luật kết hợp… Để thực hiện xử lý dữ liệu trước hết bạn click vào button , một cây thư mục đổ xuống, trong cây thưc mục đổ xuống như hình dưới đây: Từ cây thư mục này bạn có thể thực hiện các thao tác để tiền xử lý dữ liệu của bạn. Ở đây chúng tôi chỉ trình bày một số mục trong phần Unsupervised/Attribute của cây thư mục. 2. Xây dựng cây quyết định bằng J48. - Bước đầu tiên ta sử dụng tất cả dữ liệu để trainning cho cây: + Nhấn vào tab Classify chọn thuật toán sử dụng bằng cách nhấn vào nút khi cây thư mục hiện thì ta chọn thư mục Trees/J48: Classify có 4 vùng:  Vùng Classifier: Vùng này cho biết tên của thuật toán phân loại đang được chọn, mặc định là zero. Bạn có thể thay đổi thuật toán bằng cách click chuột vào trong vùng này và chọn một thuật toán mà bạn muốn. Để thay đổi các thuộc tính cho thuật toán, click chuột trái (hoặc click chuột phải rồi chọn Show properties…) vào dòng chữ bên phải button  Vùng Test Option Vùng này cho phép bạn lựa chọn các kiểu kiểm tra như: + Use training set: + Supplied test set: + Cross-validation: + Percentage split: Ngoài ra trong vùng này còn có button cho phép bạn thiết lập một số tham số khác  Vùng Result List Vùng này chứa danh sách các kết quả đạt được sau khi thực hiện việc phân lớp. Trong danh sách này bạn có thể chọn một kết quả vào nhấp chuột phải vào kết quả đó sẽ xuất hiện một danh sách cho phép bạn chọn như hình sau: • View in main window: Mở kết quả ở vùng classifies output • View in separate window: Mở kết quả ở một cửa sổ khác • Save result buffer: Lưu kết quả vào bộ nhớ • Delete result buffer: Xóa kết quả • Load model: • Save model: • Re-evaluate model on current test set: • Visualize classifier errors: • Visualize tree: Mở cây quyết định • Visualize margin cuve: • Visualize threshold cuve: • Visualize cost cuve:  Vùng Classifier output - Để tiến hành tranning trên toàn bộ dữ liệu ta chọn use tranning set và bấm start. Nội dung kết quả Phần kết quả gồm có 3 vùng dữ liệu Vùng run information - === Run information === - - Scheme (đề án sử dụng): weka.classifiers.trees.J48 -C 0.25 -M 2 - Relation (cơ sở dữ liệu): car - Instances (số trường): 1728 - Attributes(thuộc tính): 7 - buying - maint - doors - persons - lug_boot - safety - acc - Test mode(chế độ kiểm tra ): evaluate on training data vùng hiển thị kết quả tranning - === Classifier model (full training set) === - - J48 pruned tree - ------------------ - - safety = low: unacc (576.0) - safety = med - | persons = 2.0: unacc (192.0) - | persons = 4.0 - | | buying = vhigh - | | | maint = vhigh: unacc (12.0) - | | | maint = high: unacc (12.0) - | | | maint = med - | | | | lug_boot = small: unacc (4.0) - | | | | lug_boot = med: unacc (4.0/2.0) - | | | | lug_boot = big: acc (4.0) - | | | maint = low - | | | | lug_boot = small: unacc (4.0) - | | | | lug_boot = med: unacc (4.0/2.0) - | | | | lug_boot = big: acc (4.0) - | | buying = high - | | | lug_boot = small: unacc (16.0) - | | | lug_boot = med - | | | | doors = 2.0: unacc (4.0) - | | | | doors = 3.0: unacc (4.0) - | | | | doors = 4.0: acc (4.0/1.0) - | | | | doors = 5more: acc (4.0/1.0) - | | | lug_boot = big - | | | | maint = vhigh: unacc (4.0) - | | | | maint = high: acc (4.0) - | | | | maint = med: acc (4.0) - | | | | maint = low: acc (4.0) - | | buying = med . a, Đưa giữ liệu vào: Trong tab Preprocess có: − Nút mở các file có sẵn trên máy. − Nút mở file từ máy khác. − Nút đọc dữ liệu từ một cơ sở dữ liệu. − Nút. sẽ nhìn thấy trong vùng này một table gồm có các trường số thứ tự (NO.), tên các giá trị (lable), số lượng mỗi giá trị (Count) và

Ngày đăng: 16/12/2013, 15:06

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan