Các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt luận văn ths công nghệ thông tin 60 48 01 04 pdf

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ NƯƠNG CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỐI QUAN HỆ ĐA NHÃN VÀ ỨNG DỤNG TRONG PHÂN LỚP ĐA NHÃN TIẾNG VIỆT LUẬN VĂN THẠC SỸ HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ NƯƠNG CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỐI QUAN HỆ ĐA NHÃN VÀ ỨNG DỤNG TRONG PHÂN LỚP ĐA NHÃN TIẾNG VIỆT Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ Thống Thông Tin Mã số: 60480104 LUẬN VĂN THẠC SỸ CÁN BỘ HƯỚNG DẪN: TS Nguyễn Cẩm Tú HÀ NỘI - 2015 Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến Cô Nguyễn Cẩm Tú người tận tình bảo suốt trình thực luận văn Em xin chân thành cảm ơn Thầy Cô giáo trường Đại Học Công Nghệ, người tận tình bảo dạy dỗ trang bị cho kiến thức quý báu suốt thời gian học trường Em xin gửi lời cảm ơn tới thầy cô, anh chị, bạn em sinh viên phòng thí nghiệm KT-Sislab giúp em nhiều việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt nghiệp luận văn Tôi muốn gửi lời cảm ơn tới bạn khoa CNTT người đồng hành suốt thời gian học tập Các bạn động viên giúp đỡ nhiều thời gian làm luận văn Cuối cùng, muốn gửi lời cảm ơn vô hạn đến gia đình bạn người bên động viên để hoàn thành tốt luận văn Tôi xin chân thành cảm ơn! Hà Nội, ngày 07 tháng 07 năm 2015 Học viên Đỗ Thị Nương i Lời cam đoan Tôi xin cam đoan giải pháp tích hợp độ gần nhãn vào phương pháp học máy đa nhãn cho toán gán nhãn tiếng Việt trình bày luận văn thực hướng dẫn Tiến sỹ Nguyễn Cẩm Tú Tất tham khảo từ nghiên cứu liên quan đề nêu nguồn gốc rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, việc chép tài liệu, công trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 07 tháng 07 năm 2015 Tác giả Đỗ Thị Nương ii MỤC LỤC MỞ ĐẦU Chương nhãn Giới thiệu chung toán phân lớp đa nhãn mối quan hệ 1.1 Đa nhãn – phân lớp đa nhãn .3 1.1.1 Đa nhãn – phân lớp đa nhãn 1.1.2 Bài toán phân lớp văn 1.1.3 Thách thức toán phân lớp đa nhãn 1.2 Phân lớp đa nhãn mối quan hệ nhãn .7 1.3 Kết luận chương Chương nhãn Các phương pháp phân lớp đa nhãn sử dụng độ gần 10 2.1 Mối quan hệ giữ nhãn (từ) 10 2.2 Xác định độ gần nhãn sử dụng Word2vec 10 2.2.1 Giới thiệu công cụ word2vec 10 2.2.2 Một số kỹ thuật sử dụng Word2Vec 11 2.2.3 Sử dụng word2vec để đo độ gần từ 13 2.3 Các phương pháp phân lớp đa nhãn sử dụng độ gần nhãn .14 2.3.1 Binary Relevance (BR) .14 2.3.2 Classifier Chain (CC) 15 2.3.3 Calibrated Label Ranking (CLR) 18 2.3.4 Collective Multi-Label Classifier (CML) 21 2.4 Phương pháp số độ đo đánh giá mô hình phân lớp đa nhãn 24 2.4.1 Phương pháp đánh giá mô hình phân lớp đa nhãn 24 2.4.2 Một số độ đo để đánh giá mô hình phân lớp đa nhãn 24 2.5 Kết luận chương 27 Chương Mô hình phân lớp đa nhãn cho văn tiếng việt sử dụng mối quan hệ nhãn 28 3.1 Mô tả phương pháp 28 3.2 Mô hình tiếp cận toán .28 3.3 Pha Huấn luyện mô hình 30 3.3.1 Quá trình tiền xử lý văn [3] 30 iii 3.3.2 Biểu diễn văn mô hình vector [3] .30 3.3.3 Học máy đa nhãn 32 3.3.4 Học máy đa nhãn tích hợp độ gần nhãn 32 3.4 Pha Phân lớp sử dụng mô hình 33 3.5 Kết luận chương 34 Chương Thực nghiệm đánh giá 35 4.1 Giới thiệu thực nghiệm 35 4.2 Môi trường công cụ sử dụng thực nghiệm 35 4.2.1 Cấu hình phần cứng 35 4.2.2 Các phần mềm sử dụng .35 4.3 Mô tả tập liệu 36 4.3.1 Tập liệu đầu vào cho học máy đa nhãn 36 4.3.2 Tính khoảng cách nhãn 38 4.4 Thực nghiệm 40 4.5 Kết thực nghiệm 41 Kết luận 43 Tài liệu tham khảo 44 iv DANH SÁCH HÌNH VẼ Hình 1.1: Ví dụ liệu đa nhãn Hình 1.2: Học đơn nhãn Hình 1.3: Học đa nhãn đơn thể Hình 1.4: Mô hình phân lớp Hình 2.1: Mô hình CBOW 11 Hình 2.2: Mô hình Skip-gram liên tục 12 Hình 2.3: Ví dụ xác định độ gần từ sử dụng Word2Vec 13 Hình 2.4: Mã giả phương pháp Binary Relevance 15 Hình 2.5: Mã giả phương pháp CC 17 Hình 2.6: Mã giả phương pháp CLR 20 Hình 2.7: Mã giả phương pháp CML .23 Hình 3.1: Mô hình phân lớp đa nhãn văn tiếng việt .29 Hình 4.1: Dạng tệp liệu ARFF 38 Hình 4.2: Biểu đồ ví dụ kết khoảng cách nhãn từ công cụ word2vec .39 Hình 4.3: Biểu đồ so sánh kết thực nghiệm 42 v DANH SÁCH BẢNG BIỂU Bảng 2.1: Các tệp nguồn Word2Vec 10 Bảng 2.2: Tập liệu ví dụ 14 Bảng 2.3: Minh họa phương pháp k-fold cross validation 24 Bảng 4.1: Cấu hình hệ thống thử ngiệm 35 Bảng 4.2: Một số phần mềm sử dụng 35 Bảng 4.3: Danh sách số nhãn 36 Bảng 4.4: Mô tả tệp liệu đầu vào cho thực nghiệm 39 Bảng 4.5: Kết thực nghiệm 41 vi DANH SÁCH TỪ VIẾT TẮT MLL Multi Label Learning BR Binary Relevance MLkNN Multi – Label k-Nearest Neighbors CC Classifier Chain CLR Calibrated Label Ranking CML Collective Multi Label Classifier RLOSS Rank-Loss HLOSS Hamming-Loss AP Average Precision MAP Mean Average Precision SVN Support Vector Machine CBOW Continuous Bag Of Word vii TỔNG KẾT NHỮNG KÍ PHÁP TOÁN HỌC ĐƯỢC SỬ DỤNG TRONG LUẬN VĂN Kí pháp Thuật ngữ tiếng Anh Ý nghĩa 𝒳 Instance Space Không gian thể d-chiều ℝ𝑑 𝑜𝑟 ℤ𝑑 𝒴 Label space Không gian nhãn với q nhãn {y1, y2, …, yq} 𝑥 Feature vector Vector đặc trưng d chiều thể x (x1, x2, …, xd)T (x ∈ 𝒳) 𝑌 Tagged label set Tập nhãn liên quan tới x (𝑌 ⊆ 𝒴) 𝑌̅ Complementary set Tập bù Y 𝒴 𝒟 Training set Tập huấn luyện đa nhãn {(𝑥𝑖 , 𝑌𝑖 ) | ≤ 𝑖 ≤ 𝑚} 𝑆 Test set Tập kiểm thử đa nhãn {(𝑥𝑖 , 𝑌𝑖 ) | ≤ 𝑖 ≤ 𝑝} Classifier Bộ phân lớp đa nhãn ℎ ∶ 𝒳 → 2𝑦 , h(x) trả tập nhãn phù hợp với x Real-valued function Hàm giá trị thực 𝑓 ∶ 𝒳 × 𝒴 → ℝ; f(x, y) trả độ tin cậy cho nhãn phù hợp x | | Cardinaity of A |𝐴| số phần tử A ⟦ ⟧ Predicate ⟦𝜋⟧ trả vị từ 𝜋 đúng, ngược lại ℎ( ) 𝑓( , ) 𝜙( , ) - 𝒟𝑗 Binary Training DataSet for j-th Label Tập huấn luyện nhị phân {(𝑥𝑖 , 𝜙(𝑌𝑖 , 𝑦𝑗 ))| ≤ 𝑖 ≤ 𝑚} dẫn xuất từ tập 𝒟 𝜓( , , ) - 𝜓(𝑌, 𝑦𝑗 , 𝑦𝑘 ) trả +1 𝑦𝑗 ∈ 𝑌 𝑦𝑘 ∉ 𝑌 -1 𝑦𝑗 ∉ 𝑌 𝑦𝑘 ∈ 𝑌 𝐷𝑗𝑘 Binary Training DataSet for Label Pair (yj, yk) Tập Binary learning algorithm Giải thuật học nhị phân ℬ 𝜙(𝑌, 𝑦) trả x 𝑦 ∈ 𝑌, -1 ngược lại cho nhãn thứ j huấn luyện nhị phân {(𝑥𝑖 , 𝜓(𝑌, 𝑦𝑗 , 𝑦𝑘 ))| 𝜙(𝑌𝑖 , 𝑦𝑗 ) ≠ 𝜙(𝑌𝑖 , 𝑦𝑘 ), ≤ 𝑖 ≤ 𝑚} dẫn xuất từ tập 𝒟 viii Luận văn sử dụng biểu diễn văn dạng vector với số chiều đặc trưng sau lựa chọn Trọng số từ khóa khác Cách đơn giản gán trọng số giá trị nhị phân từ mục có mặt hay mặt văn Khi văn thành vector đặc trưng theo dạng sau: , , … Trong đó:  biểu diễn số nguyên dương, tham chiếu đến tập đặc trưng lựa chọn trình tiền xử lý liệu  biểu diễn độ quan trọng thuộc tính tập liệu học giá trị thuộc tính số nguyên dương (ví dụ giá trị 1) 3.3.2.3 Quá trình lựa chọn đặc trưng Biểu diễn văn theo vector đặc trưng nảy sinh vấn đề như: cần phải lựa chọn từ để biểu diễn cho văn đó? Và làm để lựa chọn từ đó? Các đặc trưng văn biểu diễn dạng vector:  Số chiều không gian đặc trưng thường lớn  Việc kết hợp đặc trưng độc lập thường không mang lại kết  Vector biểu diễn văn có nhiều giá trị đặc trưng văn Khi tập văn có kích thước lớn, ví dụ gần 3000 tài liệu, tập hợp tài liệu có số lượng từ mục khác vô lớn Do đó, lựa chọn đặc trưng quan trọng cho tập văn lớn Lựa chọn đặc trưng chọn từ, cụm từ mang nhiều thông tin loại bỏ từ, cụm từ chứa lượng thông tin thấp Đối với toán phân lớp đa nhãn, số lượng nhãn từ lớn nên việc quản lý chúng trở nên khó khăn, đồng thời làm cho việc xử lý liệu thời gian học phân lớp tăng lên đáng kể Hướng giải lựa chọn đặc trưng: chọn nhãn, chọn từ theo tần suất văn (Document Frequency) Tần suất văn số tài liệu mà từ mục xuất Để lựa chọn từ mục theo phương pháp tần suất văn bản, ta cần phải tính tần suất văn với từ mục tập liệu học Sau đó, ta loại bỏ từ mục có tần suất nhỏ ngưỡng (ví dụ 2000 từ mục) để thu không gian từ mục nhỏ Đây kĩ thuật mà luận văn áp dụng để làm giảm số lượng tập đặc trưng 31 3.3.3 Học máy đa nhãn Luận văn sử dụng phương pháp phân lớp đa nhãn trình chương 2: Binary Relevance, Classifier Chain, Calibrated Label Ranking Collective MultiLabel Classifier Với phương pháp MLL, luận văn sử dụng tảng khác nhau:  Binary relevance: Naïve Bayes  Classifier Chain: J48  Calibrated Label Ranking: SVN  Collective Multi-Label Classifier: Maximun Entropy Phương pháp Naïve Bayes cổ điển sử dụng Maron vào năm 1991 Naïve Bayes dựa vào xác suất p (x|y) x đặc trưng, y nhãn xét Ý tưởng thuật toán sử dụng xác suất có điều kiện từ chủ đề để tính xác suất văn cần phân loại thuộc vào chủ đề Phương pháp giả định xuất tất từ văn độc lập với Như không đánh giá phụ thuộc cụm từ vào chủ đề cụ thể Điều giúp phương pháp tính toán nhanh phương pháp khác với độ phức tập theo số mũ Cây định cấu trúc giống biểu đồ luồng, nút kiểm tra giá trị cho đặc trưng xác định Mỗi nhánh thể kết trình kiểm tra đại diện cho lớp phân bố lớp Nút nút gốc Thuật toán máy vector hỗ trợ (Support Vector Machine – SVM): Corters Vapnik giới thiệu vào năm 1995 SVM hiệu để giải toán với liệu có số chiều lớn (như vector biểu diễn văn bản) Ý tưởng thuật toán cho trước tập huấn luyện biểu diễn không gian vector văn điểm, phương pháp tìm siêu mặt phẳng h định tốt chia điểm không gian thành lớp riêng biệt tương ứng lớp + lớp - Hiệu xác định siêu mặt phẳng định khoảng cách điểm gần mặt phẳng lớp Khoảng cách lớn mặt phẳng định tốt đồng nghĩa với việc phân loại xác ngược lại Mục đích cuối phương pháp tìm khoảng cách biên lớn 3.3.4 Học máy đa nhãn tích hợp độ gần nhãn Sử dụng phương pháp học máy đa nhãn trình bày trên, luận văn đưa vào việc tích hợp độ gần nhãn, từ vào phương pháp trình bày Cụ thể, sau tiền xử lý văn đầu vào, luận văn sử dụng công cụ word2vec để huấn luyện vector biểu diễn từ tập văn đầu vào tính khoảng cách nhãn (mà xác định sau trình lựa trọn đặc trưng) cho 32 việc phân lớp Khoảng cách nhãn sử dụng để tích hợp vào giải thuật học đa nhãn theo phương pháp đề xuất chương Chương tiếp thep trình bày rõ thực nghiệm cho việc tích hợp độ gần nhãn vào phương pháp học máy đa nhãn 3.4 Pha Phân lớp sử dụng mô hình Luận văn sử dụng mô hình phân lớp đa nhãn kết hợp với việc phân lớp đa nhãn có tích hợp độ gần nhãn Từ đó, luận văn đánh giá mô hình số độ đo 33 3.5 Kết luận chương Chương ba, luận văn trình bày tư tưởng phương pháp đề xuất cho toán phân lớp đa nhãn dựa việc tích hợp độ gần nhãn vào học máy đa nhãn Luận văn giới thiệu chi tiết pha bước phương pháp đề xuất Trong chương tiếp theo, luận văn tiến hành thực nghiệm phương pháp xây dựng đánh giá kết đạt phương pháp đề xuất 34 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Giới thiệu thực nghiệm Dựa vào mô hình đề xuất chương theo phương pháp MLL có tích hợp độ gần từ trình bày chương 2, luận văn tiến hành thực nghiệm việc đánh giá phân lớp liệu tiếng Việt với gần 3000 báo http://vn.expresss.net Cụ thể, luận văn thực nghiệm để làm rõ kết mô hình đề xuất cho phương pháp Clasiffier Chain với thực nghiệm sau: Thực nghiệm: Thực phân lớp liệu tiếng Việt với phương pháp Clasiffier Chain phương pháp Clasiffier Chain cập nhật để tích hợp kết độ gần nhãn 4.2 Môi trường công cụ sử dụng thực nghiệm 4.2.1 Cấu hình phần cứng Bảng 4.1: Cấu hình hệ thống thử ngiệm Thành phần CPU RAM OS Bộ nhớ Chỉ số Pentium (R) Dual Core 2GB Windows 210GB 4.2.2 Các phần mềm sử dụng Bảng 4.2: Một số phần mềm sử dụng STT Tên phần mềm Eclipse-SDKKepler-win32 Word2vec Tác giả Chức Nguồn Môi trường pháp http://www.eclipse.org triển /downloads - Mikolov cộng Lấy vector Google năm diễn từ 2013 biểu https://code.google.co m/p/word2vec/ Ngoài công cụ trên, luận văn tiến hành cài đặt chỉnh sửa mô đun xử lý dựa ngôn ngữ Java C, bao gồm package sau: Mô đun l-distance: Được cài đặt sử dụng ngôn ngữ C, mô đun lấy đầu vào vector biểu diễn từ sinh sử dụng công cụ Word2Vec để đưa tệp đầu tệp gồm tập khoảng cách cặp nhãn 35 Mô đun w2vmodel: Được cài đặt sử dụng ngôn ngữ Java, mô đun đọc vào tệp tin khoảng cách cặp nhãn từ mô đun l-distance để xây dựng đối tượng cho việc lấy khoảng cách nhãn dựa số nhãn Mô đun jdocTag: Được cài đặt sử dụng ngôn ngữ Java, mô đun gọi thư viện weka mulan http://mulan.source-forge.net/starting.html) sau có tệp arff để chạy phương pháp phân lớp đa nhãn Classifier chain, phân rã toán thành phân lớp nhị phân, đồng thời tiến hành đánh giá phương pháp số độ đo Mô đun jdocTag_m: Được cài đặt sử dụng ngôn ngữ Java, mô đun gọi thư viện weka sử dụng mã nguồn mulan http://mulan.sourceforge.net/starting.html) để chỉnh sửa hàm xây dựng phân lớp classifier chain theo phương pháp đề xuất Chương Khoảng cách cặp nhãn lấy sử dụng mô đun w2vmodel Sau tiến hành việc phân lớp đa nhãn đánh giá phương pháp mô đun jdocTag 4.3 Mô tả tập liệu 4.3.1 Tập liệu đầu vào cho học máy đa nhãn Luận văn sử dụng tập liệu xử lý [3] Tập liệu báo trang http://vnexpress.net với lĩnh vực Xã-hội, Kinh-doanh, Thế-giới, Khoahọc, Ô-tô-xe-máy, Bạn-đọc Dữ liệu thu thập báo có cấu trúc: dòng đầu nhãn (tags) báo, dòng lại nội dung báo Tập liệu 2694 báo sau loại bỏ báo trùng lặp loại bỏ số nhãn top 100 nhãn có tần số cao Tổng hợp tất nhãn có 2694 báo, sau lấy 100 nhãn có tần số lớn làm nhãn liệu Sau đây, danh sách 100 nhãn ứng với định dạng nhãn (DF) Bảng 4.3: Danh sách số nhãn Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF) mỹ (210) honda (57) điếu (39) động_vật (29) tết (179) tranh_chấp (56) senkaku (39) cháy (29) xe (154) chia_tay (54) ngư (39) đà_nẵng (28) tiên (112) môtô (53) biển (39) yamaha (28) trung_quốc (106) tình_yêu (51) cặp_bồ (38) tập_trận (28) người (101) mô_tô (49) mâu_thuẫn (37) khoa_học (28) gia_đình (100) phú (48) đức (36) hải_quân (28) 36 giao_thông (96) nhà (48) sóc_trăng (36) bắt_giữ (28) nhật_bản (90) chồng (48) giết_người (36) đảo (27) vàng (87) (47) cướp (36) tài_sản (27) tai_nạn (85) xe_hơi (46) quân_sự (35) thử (27) hạnh_phúc (84) việt (46) tỷ (34) (27) hà_nội (80) công_an (46) tỵ (34) nạn_nhân (26) quê_hương (77) ngân_hàng (45) tên_lửa (34) jong (26) ôtô (74) máy_bay (44) thanh_hóa (34) cưỡng_hiếp (26) nga (73) cảnh_sát (44) bình_dương (34) công_nghệ (26) (71) anh (43) tổng_thống (33) đường (25) việt_nam (70) hiếp_dâm (42) tàu (33) scooter (25) ly_hôn (70) tòa_án (41) sjc (33) không (25) xuân (67) thứ_ba (41) hỏa (33) thế_giới (24) triều (66) siêu (41) tử_vong (32) năm_mới (24) ô_tô (63) lừa_đảo (41) quảng_ngãi (32) độ (23) xe_máy (62) hàn_quốc (41) quý (32) xe_buýt (23) giá (62) chứng_khoán (41) quốc (31) vợ (23) hạt_nhân (60) ấn_độ (40) tư_vấn (30) triển_lãm (15) Sau đó, ta xây dựng tệp chứa 100 nhãn có tần số xuất lớn nhất, tiến hành loại bỏ số báo mà nhãn thuộc top 100 nhãn mà ta xét Sau đó, tổng hợp tệp word chứa tất từ báo mà vừa có Theo phương pháp TF, xây dựng tệp word chứa 2000 từ (đặc trưng) có tần số lớn báo Theo mẫu liệu Mulan, Tệp ARFF tệp chứa liệu: định nghĩa đặc trưng nhãn liệu có dạng sau: 37 Hình 4.1: Dạng tệp liệu ARFF Tệp ARFF gồm tên mối tương quan (@relation); danh sách đặc trưng từ 1-> 2000 phương pháp TF danh sách nhãn từ 1-> 100; liệu định nghĩa sau @data dòng báo Sau xây dựng tệp liệu thử nghiệm, ta chia tệp liệu thành tập liệu học liệu kiểm tra theo phương pháp k-fold cross validation 4.3.2 Tính khoảng cách nhãn Từ tập liệu từ tách từ báo, luận văn sử dụng liệu đầu vào công cụ word2vec để sinh vector biểu diễn từ khoảng cách nhãn Sau đó, luận văn tính độ gần nhãn 100 nhãn đầu vào xuất tệp tin txt Tệp tin sử dụng giải thuật phân lớp đa nhãn Classifier 38 Chain để tích hợp độ gần nhãn vào phương pháp Classifier Chain ban đầu Biểu đồ sau trình bày ví dụ khoảng cách nhãn “tết” với nhãn lại tập nhãn với giá trị khoảng cách sinh từ word2vec: Biểu đồ biểu diễn khoảng cách nhãn "tết" với nhãn tập nhãn 0.6 0.5 0.4 0.3 0.2 0.1 tòa_án chồng hải_quân hiếp_dâm trung_quốc tỷ tập_trận công_nghệ hạt_nhân đảo sjc nạn_nhân yamaha vàng năm_mới đà_nẵng việt người không nhà lừa_đảo xe quý_tỵ thanh_hóa -0.2 quê_hương -0.1 xuân -0.3 Hình 4.2: Biểu đồ ví dụ kết khoảng cách nhãn từ công cụ word2vec Luận văn sử dụng tệp liệu đầu vào cho việc chạy thực nghiệm sau: Bảng 4.4: Mô tả tệp liệu đầu vào cho thực nghiệm STT Tên Tệp tin Mô tả tệp tin Tệp chứa 2000 từ (đặc trưng) có docs.txt tần số lớn báo, xây dựng từ phương pháp TF Tệp chứa kết paritition theo partitions.txt phương pháp k-fold cross validation vnexp.arff Tệp liệu ARFF vnexp.xml Tệp xml định nghĩa nhãn 39 Sử dụng Tập từ vựng đầu vào cho word2vec tool để lấy vector biểu diễn từ Tệp partition đầu vào cho việc phân lớp đa nhãn Tệp liệu đầu vào cho việc phân lớp đa nhãn Tệp định nghĩa nhãn đầu vào cho việc phân lớp đa nhãn 4.4 Thực nghiệm Quá trình thực nghiệm gồm bước sau đây: Bước 1: Sinh tệp vectors biểu diễn tất từ sử dụng công cụ word2vec Bước 2: Sinh tệp chứa khoảng cách cặp nhãn Bước 3: Chạy với thực nghiệm mục 4.1 Bước 4: Đánh giá phương pháp MLL đánh giá thực nghiệm mục 4.1 qua số độ đo: thời gian, hloss, oneError, rloss, AP, MAP 40 4.5 Kết thực nghiệm Luận văn thực nghiệm với lần 3-fold-cross-validation cho thực nghiệm, kết ghi lại với thực nghiệm sau: Thực nghiệm: Thực phân lớp liệu tiếng Việt với phương pháp Clasiffier Chain (CC) phương pháp Clasiffier Chain (CC-m) cập nhật để tích hợp kết độ gần nhãn, đánh giá phương pháp MLL với số độ đo: Bảng 4.5: Kết thực nghiệm k Thuật toán Thời gian (s) ↓ hloss ↓ oneError ↓ Coverage rloss ↓ AP ↑ MAP ↑ CC 1974446 0.0231 0.6337 42.5307 0.2717 0.3897 0.2407 CC-m 1910255 0.0228 0.6190 42.5816 0.2716 0.3950 0.2507 CC 2099641 0.0235 0.6203 40.7567 0.2616 0.4060 0.2318 CC-m 1936269 0.0235 0.6136 38.9813 0.2459 0.4156 0.2365 CC 1995075 0.0230 0.6337 40.3275 0.2607 0.3997 0.2391 CC-m 2012868 0.0230 0.6350 40.8877 0.2662 0.3974 0.2450 Sau biểu đồ thể so sánh độ xác trung bình (AP) Độ xác trung bình N xếp hạng (MAP) phương pháp thực nghiệm với lần thử nghiệm đầu k=0 41 Biểu đồ so sánh kết AP MAP hai phương pháp CC CC-m 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 AP ↑ MAP ↑ CC CC-m Hình 4.3: Biểu đồ so sánh kết thực nghiệm Dựa kết thực nghiệm, luận văn đưa nhật xét sau: Độ xác trung bình độ xác trung bình N xếp hạng phương pháp Classifier Chain chỉnh sửa để tích hợp độ gần nhãn vào thuật toán học đa nhãn so với phương pháp Classifier Chain ban đầu từ thư viện mulan cho kết tốt Ngoài ra, dựa vào bảng kết thực nghiệm với phương pháp đánh giá hloss - MAP 3-fold cross validation, so sánh kết CC vs CC-m ta thấy tỉ lệ: tốt hơn/tương đương/kém 12/2/4 Như vậy, thấy rõ CC-m tốt CC 12 lần, lần tương đương thua lần Kết luận chung CC-m tốt CC 42 KẾT LUẬN Qua trình tìm hiểu nghiên cứu, luận văn thấy vai trò quan trọng tính cấp thiết toán phân lớp đa nhãn Luận văn đưa số phương pháp phân lớp đa nhãn áp dụng phương pháp vào liệu tiếng Việt Đồng thời, luận văn trình bày phương pháp xác định độ gần nhãn đưa đề xuất tích hợp độ gần vào phương pháp phân lớp đa nhãn trình bày Từ đó, luận văn đề xuất mô hình giải toán phân lớp đa nhãn Luận văn đạt kết sau: 1) Giới thiệu toán phân lớp đa nhãn làm rõ số phương pháp phân lớp đa nhãn 2) Giới thiệu phương pháp xác định độ gần nhãn đưa đề xuất để tích hợp độ gần nhãn, từ phương pháp phân lớp đa nhãn tìm hiểu 3) Nghiên cứu đánh giá phương pháp phân lớp đa nhãn với phương pháp đề xuất dựa thực nghiệm 4) Áp dụng phương pháp học máy đa nhãn cho toán gán nhãn tiếng Việt Tuy nhiên, hạn chế mặt thời gian nên luận văn số hạn chế như: chưa áp dụng thực nghiệm miền liệu phong phú, chưa cài đặt tiến hành thực nghiệm tất phương pháp đề xuất Trong thời gian tới, tiếp tục mở rộng luận văn cách cài đặt thực nghiệm phương pháp đề xuất vào việc phân lớp đa nhãn Đồng thời, luận văn đưa thêm số độ đo để đánh giá phương pháp phân lớp đa nhãn Bên cạnh kết được, luận văn có nhiều thiếu sót hạn chế, mong đóng góp ý kiến thầy cô bạn bè 43 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] T T L Hương, Nghiên cứu phân lớp tự động văn báo chí tiếng Việt tài nguyên môi trường, Hà Nội: Luận văn thạc sỹ, Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội, 2012 [2] N T T Linh, Phân lớp tài liệu web độc lập ngôn ngữ, Hà Nội: Khóa luận tốt nghiệp, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội, 2006 [3] N T Thảo, Các phương pháp phân lớp đa nhãn văn tiếng Việt, Hà Nội: Khóa luận tốt nghiệp, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội, 2013 [4] H Q Thụy, Bài giảng nhập môn khai phá liệu, Trường Đại học Công Nghệ Đại học Quốc Gia Hà Nội, 2013 Tiếng Anh: [5] N V Cuong, N T T Linh, P X Hieu and H Q Thuy, "A Maximum entropy model for text classification," Proceedings of the 6th International Conference on Internet Information Retrieval (IRC 2006), p 143–149, 2006 [6] N Ghamrawi and A McCallum, "Collective multi-label classification," Computer Science Department Faculty Publication Series, 2005 [7] T Grigorios and V Ioannis, "Random k-Labelsets: An ensemble method for multilabel classification," Lecture Notes in Computer Science, pp 406-417, 2007 [8] R Jesse, P Bernhard, H Geoff and F Eibe, "Classifier chains for multi-label classification," Machine Learning and Knowledge Discovery in Databases, vol 5782, pp 254-269, 2009 [9] F Johannes, H Eyke and L Eneldo, "Multilabel classification via calibrated label ranking," Machine Learning, vol 73, no 2, pp 133-153 [10] R B Matthew , L Jiebo , S Xipeng and M B C.M.Christopher, "Learning multi label scene classification," Pattern Recognition, vol 37, no 9, pp 1757-1771, 2004 [11] Mikolov, T., Chen, K., Corrado, G and Dean, J., "Efficient Estimation of Word Representations," no in Proceedings of Workshop at ICLR, 2013 44 [12] Z Min-Ling and Z Kun, "Multi-label learning by exploiting label dependency," Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 999-1008, 2010 [13] Z Min-Ling and Z Zhi-Hua, "A review on multi-Label learning algorithms," Knowledge and Data Engineering, IEEE Transactions on, vol 26, no 8, pp 819 837, 2014 [14] Z Min-Ling and Z Zhi-Hua, "ML-KNN: A lazy learning approach to multi-label learning," National Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China, pp 2038-2048, 2007 [15] Sorower and S Mohammad, "A literature survey on algorithms for multi-label learning," Corvallis, OR, Oregon State University, 2010 [16] "https://code.google.com/p/word2vec/," [Online] 45 [...]... về đa nhãn và phân lớp đa nhãn văn bản Ngoài ra, luận văn còn trình bày thách thức của phân lớp đa nhãn Từ đó, luận văn nêu ý nghĩa của mối quan hệ giữa các nhãn trong bài toán phân lớp đa nhãn Chương 2: Trình bày về công cụ để xác định độ gần nhau giữa các từ, nhãn, các phương pháp phân lớp đa nhãn mà luận văn sẽ áp dụng và đưa ra một số đề xuất cho việc tích hợp độ gần nhau giữa các từ, nhãn vào các. .. tiếp theo, luận văn sẽ giới thiệu về phương pháp xác định độ gần nhau giữa các nhãn, một số phương pháp phân lớp đa và đề xuất cho việc tích hợp độ gần nhau giữa các nhãn vào các phương pháp phân lớp đa nhãn đã trình bày 9 CHƯƠNG 2 CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN SỬ DỤNG ĐỘ GẦN NHAU GIỮA CÁC NHÃN 2.1 Mối quan hệ giữ các nhãn (từ) Mối quan hệ giữa các nhãn (từ) được xem xét dựa trên ý tưởng các nhãn (từ)... độc lập Nói cách khác, mối quan hệ đa nhãn không được tận dụng trong phân lớp đa nhãn  Kiểu quan hệ bậc hai: Các mối quan hệ theo cặp, ví như: mối quan hệ giữa nhãn phù hợp” và nhãn không phù hợp” trong quá trình xếp hạng nhãn  Kiểu quan hệ bậc cao: Ví như quan hệ toàn bộ theo đó toàn bộ các nhãn đều có ảnh hưởng tới việc phân lớp mỗi nhãn; hoặc quan hệ bộ phận trong đó với một nhãn nhất định, tồn... phương pháp phân lớp đa nhãn MLL cùng với các phương pháp mà có đề xuất tích hợp độ gần nhau của các nhãn Chương 4: Luận văn trình bày thực nghiệm cho mô hình của bài toán phân lớp đa nhãn tiếng Việt trên phương pháp phân lớp đa nhãn ban đầu và phương pháp có tích hợp độ gần nhau của các nhãn Luận văn đánh giá kết quả phân lớp của hai phương pháp phân lớp đa nhãn này cho dữ liệu tiếng Việt trên trang web... khoảng cách (độ gần nhau) các từ bất kỳ cũng như các nhãn với nhau Kết quả này sẽ được luận văn sử dụng để tích hợp vào một số phương pháp phân lớp đa nhãn sẽ được trình bày trong các phần tiếp theo 13 2.3 Các phương pháp phân lớp đa nhãn sử dụng độ gần nhau giữa các nhãn Phần này sẽ trình bày về một số phương thức đa nhãn điển hình cho các cách tiếp cận về mối quan hệ đa nhãn Sau đó, trong một số phương. .. nhóm con trong số toàn bộ các nhãn có ảnh hưởng tới việc phân lớp nhãn được xét 8 1.3 Kết luận chương 1 Trong chương này, luận văn giới thiệu khái quát về một số khái niệm, nội dung của đa nhãn và phân lớp đa nhãn văn bản Ngoài ra, luận văn cũng nêu ra thách thức của bài toán đa nhãn văn bản và mục tiêu của luận văn để giải quyết thách thức về việc tận dụng mối quan hệ các nhãn trong phân lớp đa nhãn. .. các phương pháp phân lớp đa nhãn đã 1 nghiên cứu Tiếp theo, luận văn còn trình bày về phương pháp đánh giá các mô hình phân lớp đa nhãn và đưa ra một số độ đo đánh giá chúng Chương 3: Luận văn trình bày về mô hình phân lớp đa nhãn trong văn bản Luận văn áp dụng phương pháp biểu diễn dữ liệu (TF) vào trích trọn đặc trưng để giảm số chiều đặc trưng văn bản Sau đó được kết hợp với các phương pháp phân lớp. .. Phần kết luận: Tóm lược kết quả đạt được của luận văn và định hướng phát triển tương lai 2 CHƯƠNG 1 GIỚI THIỆU CHUNG BÀI TOÁN PHÂN LỚP ĐA NHÃN VÀ MỐI QUAN HỆ GIỮA CÁC NHÃN 1.1 Đa nhãn – phân lớp đa nhãn 1.1.1 Đa nhãn – phân lớp đa nhãn Trong các nhiệm vụ học giám sát truyền thống của bài toán đơn nhãn, một thể hiện liên tới một nhãn xét theo thuộc tính của thể hiện đó Tuy nhiên, trong nhiều ứng dụng thực... liệu; (3) Mức từ Trong đó, mỗi phần của mô hình được coi như một mô hình trộn hữu hạn trên cơ sở tập các xác suất của chủ đề Luận văn này sẽ trình bày về một số phương pháp để giải quyết thách thức thứ nhất để tận dụng mối quan hệ đa nhãn trong phân lớp đa nhãn văn bản tiếng Việt 1.2 Phân lớp đa nhãn và mối quan hệ giữa các nhãn Học đa nhãn là việc tìm một hàm ánh xạ từ không gian các đặc trưng tới... [6] và phương pháp cơ sở Binary Relevance [10] Ngoài ra, luận văn cũng nghiên cứu về công cụ word2vec [16] xác định độ gần nhau giữa các từ, nhãn và một số đề xuất cho việc tích hợp độ gần nhau giữa các từ, nhãn này vào các phương pháp phân lớp đa nhãn đã nghiên cứu Qua đó, luận văn áp dụng các phương pháp, kỹ thuật đã nghiên cứu vào việc xây dựng mô hình phân lớp cho văn bản tiếng Việt Đóng góp của luận ... CÔNG NGHỆ ĐỖ THỊ NƯƠNG CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỐI QUAN HỆ ĐA NHÃN VÀ ỨNG DỤNG TRONG PHÂN LỚP ĐA NHÃN TIẾNG VIỆT Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ Thống Thông Tin Mã số: 604 8010 4 LUẬN... lớp đa nhãn văn tiếng Việt 27 CHƯƠNG MÔ HÌNH PHÂN LỚP ĐA NHÃN CHO VĂN BẢN TIẾNG VIỆT SỬ DỤNG MỐI QUAN HỆ CÁC NHÃN 3.1 Mô tả phương pháp Luận văn đề xuất giải pháp phân lớp đa nhãn văn tiếng Việt. .. tận dụng mối quan hệ nhãn phân lớp đa nhãn Chương tiếp theo, luận văn giới thiệu phương pháp xác định độ gần nhãn, số phương pháp phân lớp đa đề xuất cho việc tích hợp độ gần nhãn vào phương pháp

Các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt luận văn ths công nghệ thông tin 60 48 01 04 pdf

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan