Phân loại đa nhãn, đa lớp dựa vào luật kết hợp

63 371 0
Phân loại đa nhãn, đa lớp dựa vào luật kết hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - PHẠM XUÂN DŨNG PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ Thông tin Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS LÊ HOÀI BẮC TP HỒ CHÍ MINH, tháng năm 2014 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM Cán hướng dẫn khoa học: PGS TS Lê Hoài Bắc (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 09 tháng 11 năm 2014 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng PGS TSKH Nguyễn Xuân Huy Chủ tịch TS Võ Đình Bảy Phản biện TS Lư Nhật Vinh Phản biện TS Vũ Thanh Hiền TS Lê Mạnh Hải Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 27 tháng 09 năm 2014 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Xuân Dũng Giới tính: Nam Ngày, tháng, năm sinh: 22/10/1984 Nơi sinh: Phú Yên Chuyên ngành: Công nghệ thông tin MSHV: 1241860002 I- Tên đề tài: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP II- Nhiệm vụ nội dung: Nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp Thực thuật toán xác định tính hiệu phương pháp này, đồng thời so sánh với thuật toán khác III- Ngày giao nhiệm vụ: 02/04/2014 IV- Ngày hoàn thành nhiệm vụ: 27/09/2014 V- Cán hướng dẫn: (Ghi rõ học hàm, học vị, họ, tên) PGS TS LÊ HOÀI BẮC CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS TS LÊ HOÀI BẮC KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Phạm Xuân Dũng LỜI CẢM ƠN Trước tiên xin chân thành cảm ơn thầy giáo PGS.TS Lê Hoài Bắc tận tình hướng dẫn, bảo thời gian qua Tôi xin bày tỏ lòng biết ơn tới thầy cô giáo khoa Công nghệ Thông tin nói riêng trường Đại học Công nghệ Tp.HCM nói chung dạy bảo, cung cấp kiến thức quý báu cho suốt trình học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới gia đình, bạn bè, người cổ vũ, quan tâm giúp đỡ suốt thời gian học tập làm luận văn Do thời gian kiến thức có hạn nên luận văn không tránh khỏi thiếu sót định Tôi mong nhận góp ý quý báu thầy cô bạn Hồ Chí Minh, 09-2014 Phạm Xuân Dũng TÓM TẮT Sự phát triển công nghệ thông tin kéo theo bùng nổ thông tin Các kho tài liệu ngày lớn chứa nhiều tài liệu thuộc nhiều loại khác Rõ ràng nhiệm vụ phân loại tài liệu theo chuyên mục việc cần thiết Từ mở khả phân loại tài liệu vào phân lớp biết Phân lớp Tìm luật kết hợp hai nhiệm vụ quan trọng khai thác liệu Việc phân lớp nhằm mục đích dự đoán cách xác có phân lớp đối tượng chưa biết Việc phân lớp tìm luật kết hợp tương tự ngoại trừ phân lớp mục tiêu dự đoán thuộc tính phân lớp luật kết hợp có khả suy diễn tập thuộc tính khác Đã có nhiều nghiên cứu giải vấn đề phân lớp phân lớp dựa vào định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân lớp dựa vào thống kê… Hướng tiếp cận sử dụng luật kết hợp việc phân loại liệu lần đưa vào năm 1998 đạt nhiều kết khả quan so với hướng tiếp cận truyền thống sử dụng định Quinlan Đã có số phân lớp dựa vào luật kết hợp xác CBA, CMAR Tuy nhiên, phân lớp gắn thuộc tính phân lớp với luật kết hợp, luật kết hợp thường không thích hợp cho việc phân loại đa lớp Luận văn tập trung vào việc nghiên cứu, phân tích đánh giá thuật toán phân loại đa nhãn, đa lớp dựa vào luật kết hợp (Multi-class Multi-label Associative Classification – MMAC) để giải vấn đề Theo đối tượng không gán nhãn phân lớp với lớp mà có khả gán nhãn với nhiều phân loại khác nhau, nhãn xếp theo thứ tự định Bên cạnh luận văn trình bày đơn vị đo lường độ xác việc phân loại dựa vào luật kết hợp nhằm đánh giá độ xác MMAC so với phân loại có Một cách tiếp cận phân loại đa nhãn, đa lớp đề xuất có nhiều đặc điểm khác biệt so với truyền thống phương pháp phân loại dựa vào luật kết hợp chỗ: (1) MMAC phân loại đa nhãn, đa lớp, theo thể gắn kết với danh sách có thứ tự nhãn phân loại (2) Những hướng tiếp cận phân loại dựa vào luật kết hợp truyền thống thường phải duyệt liệu huấn luyện nhiều lần để tìm tập phổ biến MMAC cần duyệt liệu huấn luyện lần (3) MMAC đưa kỹ thuật thứ tự luật cách chi tiết nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật qui trình thứ tự luật (4) MMAC đưa khái niệm học đệ qui nhằm rút trích nhiều luật giảm tối thiểu vai trò phân lớp mặc định (default class) phân lớp đối tượng kiểm tra Nghiên cứu thực 16 liệu Weka cho thấy phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp có hiệu quả, phù hợp có tỷ lệ phân loại cao phương pháp định (PART), thuật toán CBA RIPPER Định hướng tương lai dự kiến mở rộng phương pháp để xử lý liệu liên tục ABSTRACT The development of information technology leads to the information explosion The increasingly large document repositories, and contains many documents of different types Clearly the task of document classification for each category is an essential work Since then opens the possibility of classifying new documents classified in the know Classification and Finding association rules are two important tasks in data mining The classification for the purpose of accurately predicting possible classification of an unknown object The classification and to find association rules are similar except for the target classification predicts only a subclass properties while association rules are capable of inference for a different set of attributes There have been many studies to solve the problem as subclass classification based on decision trees, classification based on neural networks, classification based on Bayesian probability theory, classification based on rough set theory, classification based on association rules, classification based on statistical The approach uses association rules to classify data was first launched in 1998 and has achieved many positive results compared to the traditional approach using decision trees Quinlan There have been a number of classification based on association rule fairly accurate as CBA, CMAR However, the classification is only an attribute associated with each classification association rules, hence the association rules are usually not suitable for multi-class classification This thesis will focus on research, analysis and evaluation algorithm multiclass multi-label classification based on association rules (Multi-Class, Multi-Label Associative Classification - MMAC) to solve the problem Accordingly, an object not only labeled classification with a single class that is likely to be labeled with many different classification, the labels are arranged in a certain order Besides, the thesis presents three units of measurement accuracy of the classification based on association rules in order to assess the accuracy of the MMAC compared with the existing classification A new approach for multi-class multi-label classification has been proposed many different characteristics compared to traditional classification methods based on association rules in place: (1) MMAC is a multi-classifier multi-layer label, in which each instance is associated with an ordered list of classification labels (2) The approach to classification based on association rules have traditionally approved training data multiple times to find common set while browsing MMAC just once training data (3) MMAC gives a sort of technical detail rules to minimize randomly select two or more law in law ordering process (4) MMAC introduces the concept of recursive learning to extract many more law and minimize the role of the default classification (default class) when classifying test subjects Research carried out on 16 Weka data sets show that multi-class classification method based on multi-label association rules is effective, consistent and high classification rate than the decision tree method (PART), CBA and RIPPER algorithm Orientation future plans to expand the approach to handle continuous data 10 MỤC LỤC 49 Trong đánh giá chéo k-fold, liệu ban đầu phân chia ngẫu nhiên vào k tập riêng biệt ("các fold") S 1,S2, ,Sk, chúng có kích thước xấp xỉ Huấn luyện kiểm tra thực k lần Trong lần lặp thứ i, tập S i đóng vai trò tập kiểm tra tập lại dùng chung để huấn luyện phân loại Tức phân loại lần lặp huấn luyện tập S2,S3, ,Sk kiểm tra S1; phân loại lần lặp thứ huấn luyện tập S1,S3, ,Sk kiểm tra S 2, v.v Độ xác phân loại toàn số lượng phân loại xác từ k lần lặp chia cho tổng số lượng mẫu liệu ban đầu Trong đánh giá chéo phân tầng, fold phân tầng để phân bố lớp mẫu fold xấp xỉ phân bố lớp liệu ban đầu Nhìn chung, phân tầng đánh giá chéo 10-fold đề nghị để đánh giá độ xác phân loại (thậm chí khả tính toán cho phép sử dụng nhiều fold hơn) Sử dụng kỹ thuật để đánh giá độ xác phân loại, làm tăng tổng số lần tính toán, nhiên lại hữu ích cho việc lựa chọn phân loại 3.9.2 Độ xác có đủ để đánh giá phân loại hay không? Thêm vào độ xác, phân loại so phương diện tốc độ tráng kiện chúng (ví dụ, độ xác liệu nhiễu), khả mở rộng khả diễn dịch Khả mở rộng ước lượng cách đánh giá số lượng thao tác I/O cần có cho giải thuật phân loại cho trước tập liệu với kích thước tăng dần Trong toán phân loại, giả sử tất đối tượng phân loại nhất, tức mẫu huấn luyện thuộc lớp Như ta thảo luận trên, giải thuật phân loại sau so sánh theo độ xác chúng Tuy nhiên, tính đa dạng liệu sở liệu lớn, việc giả sử tất đối tượng phân loại hợp lý Hơn 50 nữa, giả định đối tượng thuộc nhiều lớp có khả xảy nhiều Việc trả lại xác suất phân bố lớp hữu ích việc trả lại nhãn lớp Các phép đo độ xác sau sử dụng heuristic dự đoán lần hai nhờ dự đoán lớp đánh giá xác thích hợp với lớp có khả thứ hay thứ hai Mặc dầu điều không nghiên cứu, mức độ phân loại đối tượng không Đây giải pháp đầy đủ 3.10 Kết luận Chương trình bày khái niệm phân loại, luật kết hợp, bước phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp phương pháp đánh giá độ xác phân loại 51 Chương 4: THỬ NGHIỆM, ĐÁNH GIÁ, HƯỚNG PHÁT TRIỂN Chương đưa kết cài đặt thử nghiệm phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp liệu Weka Error: Reference source not found đánh giá kết thực nghiệm 4.1 Thiết kế tổng thể Chương trình gồm khối chức sau: - Khối chức tiền xử lý - Khối chức phân cụm 4.1.1 Khối chức tiền xử lý Nhiệm vụ khối chức đọc liệu, xác định số mẫu, số thuộc tính, số lớp, giá trị thuộc tính mẫu liệu 4.1.2 Khối chức phân loại Khối chức tiến hành phân loại mẫu liệu Dữ liệu học có giám sát theo giải thuật MMAC Cuối kết hợp luật phân loại tạo phân loại đa nhãn Sau tạo phân loại đa nhãn tiến hành xác định độ xác phân loại 4.2 Chuẩn bị liệu Dữ liệu đầu vào chương trình tập tin văn Attribute-Relation File Format (*.arff), gồm phần: ← Phần khai báo (header) 52 ← Phần liệu (data) 4.2.1 Tệp định dạng liệu • Phần khai báo: @relation @attribute @attribute … @attribute • Các kiểu liệu: Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa, versicolor} String Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string Date Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered date 53 Dữ liệu thiếu ký hiệu dấu chấm hỏi “?” • Phần liệu: Mỗi mẫu liệu đặt dòng, giá trị thuộc tính liệt kê theo thứ tự từ trái qua phải ngăn cách dấu phẩy “,” 4.2.2 Nguồn liệu Trong khuôn khổ luận văn, liệu Weka Error: Reference source not found sử dụng để thực nghiệm 4.3 Thiết kế chương trình Với khối chức liệu trên, chương trình thiết kế sau: Các thông tin: - Số lớp, tên lớp - Số thuộc tính, tên thuộc tính, kiểu thuộc tính hay giá trị rời rạc thuộc tính - Số mẫu, giá trị thuộc tính tên lớp mẫu Module GetData Tệp mẫu liệu Module Phân loại Hiển thị kết Kết phân loại Hình 4.6: Thiết kế chương trình 4.4 Kết thực nghiệm đánh giá 4.4.1 Các bước tiến hành thực nghiệm • Phân loại liệu giải thuật MMAC 54 • Kết hợp luật phân loại tạo phân loại đa nhãn, so sánh hiệu phân loại MMAC với kỹ thuật phân loại PART, RIPPER, CBA 4.4.2 Thực nghiệm 4.4.2.1 So sánh MMAC CBA Áp dụng CBA MMAC lên liệu huấn luyện Bảng 4.1 với MinSupp 20% MinConf 40% để chứng minh tính hiệu tập luật rút hai thuật toán Bảng 4.19: Dữ liệu huấn luyện RowIds 10 A1 Z1 Z1 Z1 Z1 Z2 Z2 Z2 Z1 Z2 Z3 A2 W1 W2 W1 W2 W1 W1 W3 W3 W4 W1 Single Class p1 p2 p2 p1 p2 p1 p2 p1 p1 p1 Bảng 4.2 liệt kê phân lớp tạo CBA bao gồm hai luật bao phủ thể huấn luyện (1, 2, 3, 4, 5, 6, 8, 10) Hai thể lại hình thành phân lớp mặc định bao phủ 20% toàn liệu Bảng 4.3 liệt kê phân lớp tạo MMAC liệu huấn luyện tìm nhiều CBA luật Những luật rút trích thứ tự tổng hợp lại thành phân loại đa nhãn, đa lớp Trong ví dụ có hai luật đa nhãn tạo ( A1, Z1) → p1 ∨ p ( A1, Z 2) → p1 ∨ p Bộ phân lớp MMAC bao phủ 10 thể huấn luyện phân lớp mặc định p1 chọn chiếm đa số liệu huấn luyện 55 Bảng 4.20: Bộ phân loại CBA RuleId default Frequent Item Z1 W1 Support 3/10 3/10 Confidence 3/5 3/5 Class Label p1 p1 p2 Bảng 4.21: Bộ phân loại MMAC RuleId 1a 1b default Frequent Item Z1 Z1 Z2 W1 Support 3/10 2/10 2/10 3/10 Confidence 3/5 2/5 2/4 3/5 Class Label p1 p2 p2 p1 p1 Khác với giải thuật CBA rút trích luật đa nhãn, luật MMAC tạo có khả sử dụng để phân loại đa lớp Thêm vào đó, phân lớp mặc định MMAC bao phủ 0% liệu huấn luyện chưa phân lớp, gây ảnh hưởng phân lớp liệu chưa biết có khả tác động đến độ xác phân lớp làm giảm tỉ lệ lỗi nói chung 4.4.2.2 Độ xác phân loại Thử nghiệm MMAC 16 liệu Weka khác so sánh độ xác với kỹ thuật phân loại PART, RIPPER CBA Phương pháp đánh giá chéo với 10-fold sử dụng để đánh giá giải thuật Vì phân loại phân loại đa nhãn nên độ đo Top-Label sử dụng nhằm bảo đảm tính công việc so sánh Tất thử nghiệm thực máy Intel Core i32.13 GHz Giải thuật PART RIPPER thực dựa vào phần mềm mã nguồn mở Weka [14] Hiện thử nghiệm chưa so sánh tốc độ thực thi giải thuật MMAC cài đặt C# Weka Java 56 Bảng 4.4 mô tả tỉ lệ xác phân loại PART, RIPPER, CBA MMAC 16 liệu Weka với MinSupp=3% MinConf=30% cho thấy MMAC có độ xác cao 57 Bảng 4.22: Độ xác phân loại PART, RIPPER, CBA MMAC Dataset PART RIPPER CBA MMAC Autos 61.64 56.09 35.79 67.47 Balance-scale 77.28 71.68 74.58 86.10 Breast-cancer 71.32 70.97 69.66 72.10 Breast-w 93.84 95.42 94.68 97.26 Contact-lenses 83.33 75.00 66.67 79.69 Heart-c 79.86 81.51 78.54 81.51 Hypothyroid 92.28 92.28 92.29 92.23 kr-vs-kp 71.93 70.24 42.95 68.75 Lymph 76.35 77.70 75.07 82.20 Mushroom 99.81 99.90 98.92 99.78 Primary-tumor 39.52 36.28 36.49 43.92 Sick 98.62 98.22 93.88 93.87 tic-tac-toe 94.46 97.80 98.60 99.29 Vote 87.81 87.35 87.39 89.21 Weather 57.14 64.28 85.00 71.66 Zoo 91.08 85.14 83.18 96.15 Các độ đo đánh giá MMAC áp dụng nhằm so sánh độ xác số lượng luật rút trích Hình 4.7: Độ xác trung bình thuật toán PART, RIPPER, CBA MMAC dựa 16 liệu Weka khác 58 Bảng 4.23: Số phân loại thuật toán PART, RIPPER, CBA MMAC Dataset PART RIPPER CBA MMAC Balloon 2 3 Breast-cancer 20 45 71 Contact-lenses Heart-c 11 44 72 Heart-s 22 31 Led7 31 19 50 192 Lymph 38 48 Mushroom 18 11 45 48 Primary-tumor 22 28 Sick 10 17 tic-tac-toe 50 14 25 26 Vote 13 40 84 Hình 4.8: Số lượng trung bình phân loại xác định thuật toán PART, RIPPER, CBA MMAC Hình 4.3 cho thấy MMAC rút trích nhiều luật so với giải thuật PART CBA, MMAC có bước thực học đệ qui liệu huấn luyện chưa phân loại 4.5 Kết luận Như vậy, sau tiến hành thực nghiệm số liệu Weka ta nhận thấy kết phân loại liệu MMAC có độ xác cao so với phân loại PART, RIPPER, CBA số lượng phân loại MMAC cao so với thuật toán so sánh 59 Chương 5: KẾT LUẬN Luận văn tập trung nghiên cứu lý thuyết áp dụng kỹ thuật phân loại đa nhãn, đa lớp dựa vào luật kết hợp liệu Weka Trong khuôn khổ luận văn chưa áp dụng cụ thể vào sở liệu thực tế nào, dừng lại liệu Weka nên kết thực nghiệm chưa mang ý nghĩa thực tế Tuy nhiên có số kết ban đầu phát tri thức từ liệu Những kết mà luận văn thực hiện: o Về lý thuyết, luận văn tập trung vào việc nghiên cứu, phân tích đánh giá thuật toán phân loại đa nhãn, đa lớp dựa vào luật kết hợp o Về thực tiễn, luận văn đưa kết cài đặt thử nghiệm liệu Weka bao gồm kết phân loại Qua trình thực nghiệm nghiên cứu lý thuyết đưa số kết luận sau: 5.1 Ưu điểm • MMAC phân loại đa nhãn, đa lớp, theo thể gắn kết với danh sách có thứ tự nhãn phân loại • Những hướng tiếp cận phân loại dựa vào luật kết hợp truyền thống thường phải duyệt liệu huấn luyện nhiều lần để tìm tập phổ biến MMAC cần duyệt liệu huấn luyện lần • MMAC đưa kỹ thuật thứ tự luật cách chi tiết nhằm giảm tối thiểu việc ngẫu nhiên chọn hai hay nhiều luật qui trình thứ tự luật 60 • MMAC đưa khái niệm học đệ qui nhằm rút trích nhiều luật giảm tối thiểu vai trò phân loại mặc định phân loại đối tượng kiểm tra 5.2 Nhược điểm Giai đoạn học đệ quy thuật toán MMAC đòi hỏi phải quét lặp lặp lại phận tập liệu huấn luyện Mỗi lần học đệ quy MMAC phải thực bước (tìm tập phổ biến, phân rã, xếp loại bỏ luật thừa) dẫn đến công việc xử lý lớn liệu huấn luyện lớn số ứng viên luật phân loại lớn 5.3 Hướng phát triển Trong tương lai, tiếp tục nghiên cứu, so sánh cải thiện phương pháp để áp dụng cho thuộc tính có giá trị liên tục cho kết phân loại có độ xác cao 61 TÀI LIỆU THAM KHẢO [1] B Liu, W Hsu and Y Ma Integrating Classification and association rule mining In KDD ’98, New York, NY, Aug 1998 [2] CBA: http://www.comp.nus.edu.sg/~dm2/p_download.html [3] F Thabtah, P Cowling , and Y Peng MMAC: A New Multi-class, Multi-label Associative Classification Approach Brighton, UK : To be Appear in theProceedings of the Fourth IEEE International Conference on Data Mining (ICDM ‘04), November 2004 [4] J Furnkranz Separate-and-conquer rule learning Technical Report TR96-25, Austrian Research Institute for Artificial Intelligence, Vienna, 1996 [5] Jiawei Han, Micheline Kamber, Jian Pei Data Mining Concepts and Techniques, Third Edition s.l : The Morgan Kaufmann Series in Data Management Systems, Morgan Kaufmann Publishers, July 2011 p 329 [6] J.R Quinlan C4.5: Programs for Machine Learning San Mateo, CA: Morgan Kaufmann, San Francisco, 1993 [7] J.R Quinlan Generating production rules from decision trees In Proceeding of the 10th International Joint Conferences on Artificial Intelligence, Morgan Kaufmann, San Francisco, 1987, pp 304-307 [8] J.R Quinlan Induction of Decision Trees Machine Learning 1, Mar 1986 pp 81-106 [9] Merz, C J and Murphy, P M.UCI Repository of Machine Learning Databases Irvine, CA : University of California, Department of Information and Computer Science, 1996 62 [10] M J Zaki, S Parthasarathy, M Ogihara, and W Li New algorithms for fast discovery of association rules In Proceedings of the 3rd KDD Conference, Aug 1997, pp.283-286 [11] R Duda, P Hart, and D Strok Pattern classification.Wiley, 2001 [12] R Schapire and Y Singer, "BoosTexter:A boosting-based system for text categorization", Machine Learning, vol 39, no 2/3, 2000, pp 135-168 [13] T Joachims Text categorisation with Support Vector Machines: Learning with many relevant features In Proceeding Tenth European Conference on Machine Learning, 1998, pp 137-142 [14] T S Lim, W Y Loh and Y S Shih A comparison of prediction accuracy, complexity and training time of thirtythree old and new classification algorithms Machine Learning, 39, 2000 [15] W Li, J Han and J Pei CMAR: Accurate and efficient classification based on multiple class association rule In ICDM’01, San Jose, CA, Nov 2001, pp 369-376 [16] Weka: Data Mining Software in Java: http://www.cs.waikato.ac.nz/ml/weka [17] William W.Cohen Fast Effective Rule Induction Machine Learning: Proceedings of the Twelfth International Conference, 1995 [18] X Yin and J Han CPAR: Classification based on predictive association rule In SDM 2003, San Francisco, CA, May 2003 [19] Y Yang An evaluation of statistical approaches to text categorisation Technical Report CMU-CS-97-127, Carnegie Mellon University, April 1997 63 [20] Yongqiang Cao, Jianhong Wu Projective ART for clustering data sets in high dimensional spaces Elsevier Science Ltd, Neural Networks 15, 2002 pp 105-120 [21] Zhang, M.-L., Zhou, Z.-H., A k-nearest neighbor based algorithm for multi-label classification Beijing, China: Proceeding of the 1st IEE International Conference on Granular Computing (GrC 2005), 2005 pp 718-721 ... đề phân lớp phân lớp dựa vào định, phân lớp dựa vào mạng nơ ron, phân lớp dựa vào lý thuyết xác suất Bayes, phân lớp dựa vào lý thuyết tập thô, phân lớp dựa vào luật kết hợp, phân lớp dựa vào. .. loại phân loại dựa vào định, phân loại dựa vào mạng nơ ron, phân loại dựa vào lý thuyết xác suất Bayes, phân loại dựa vào lý thuyết tập thô, phân loại dựa vào luật kết hợp, phân loại dựa vào thống... MSHV: 1241860002 I- Tên đề tài: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP II- Nhiệm vụ nội dung: Nghiên cứu phương pháp phân loại đa nhãn đa lớp dựa vào luật kết hợp Thực thuật toán xác định

Ngày đăng: 11/09/2017, 20:39

Mục lục

  • MỘT SỐ TỪ VIẾT TẮT VÀ THUẬT NGỮ THƯỜNG DÙNG

  • 1.2 Mục tiêu nghiên cứu

  • 1.3 Đối tượng nghiên cứu

  • 1.4 Phạm vi nghiên cứu

  • 1.5 Bố cục luận văn

  • Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN

  • Chương 3: PHÂN LOẠI ĐA NHÃN, ĐA LỚP DỰA VÀO LUẬT KẾT HỢP

    • 3.1 Phân loại là gì?

    • 3.2 Các vấn đề quan tâm của phân loại

      • 3.2.1 Chuẩn bị dữ liệu để phân loại

      • 3.2.2 So sánh các phương pháp phân loại

      • 3.3 Phân loại đa nhãn (Multi-label Classification)

      • 3.5 Một số định nghĩa

      • 3.6 Phân loại dựa vào luật kết hợp

      • 3.7 Phương pháp phân loại đa nhãn, đa lớp dựa vào luật kết hợp (MMAC)

        • 3.7.1 Tạo luật kết hợp

          • 3.7.1.1 Tìm tập phổ biến và tạo luật kết hợp

          • 3.7.1.2 Sắp xếp các luật và loại bỏ luật thừa

          • 3.7.3 Phân loại

            • 3.7.3.1 Sắp xếp nhãn phân loại

            • 3.7.4 Ví dụ minh họa

            • 3.9 Độ chính xác phân loại

              • 3.9.1 Đánh giá độ chính xác phân loại

              • 3.9.2 Độ chính xác có đủ để đánh giá một phân loại hay không?

              • Chương 4: THỬ NGHIỆM, ĐÁNH GIÁ, HƯỚNG PHÁT TRIỂN

                • 4.1 Thiết kế tổng thể

                  • 4.1.1 Khối chức năng tiền xử lý

                  • 4.1.2 Khối chức năng phân loại

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan