Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng việt (tt)

27 212 0
Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng việt (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2017 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS TS Võ Trung Hùng PGS TS Đoàn Văn Ban Phản biện 1: …………………………………… Phản biện 2: …………………………………… Phản biện 3: …………………………………… TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Luận án bảo vệ trước Hội đồng chấm luận án cấp ĐHĐN Đại học Đà Nẵng vào ngày 26 tháng năm 2017 Đà Nẵng - 2017 MỞ ĐẦU Lý chọn đề tài Hiện nay, với phát triển chung khoa học kỹ thuật, phát triển công nghệ thông tin đem đến cho người khả tiếp cận với thông tin cách nhanh chóng, thuận lợi cụ thể như: thư viện điện tử, cổng thông tin điện tử, báo mạng, ứng dụng tìm kiếm,… Điều giúp người thuận tiện việc trao đổi, cập nhật, tìm kiếm thông tin toàn cầu thông qua mạng Internet Vì vậy, thực việc phân loại tự động văn băn số vấn đề cấp thiết thu hút nhiều nhà khoa học nghiên cứu Chính vậy, luận án này, tập trung nghiên cứu tìm phương pháp nhằm phân loại văn tiếng Việt hiệu dựa kỹ thuật học bán giám sát Tổng quan tình hình nghiên cứu Trong khoa học máy tính, học bán giám sát lớp kỹ thuật học máy kết hợp việc sử dụng liệu có gắn nhãn nhãn huấn luyện Số lượng liệu có nhãn thường so với số lượng liệu chưa gắn nhãn, việc gắn nhãn cho mục liệu đòi hỏi chi phí thời gian lớn Nhiều nhà nghiên cứu lĩnh vực học máy thấy liệu nhãn, dùng kết hợp với số lượng nhỏ liệu có nhãn, đưa cải tiến đáng kể việc học xác a Tình hình nghiên cứu giới b Tình hình nghiên cứu nước Mục tiêu nghiên cứu Mục tiêu chung đề tài nghiên cứu ứng dụng kỹ thuật học bán giám sát vào phân loại văn tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: - Kỹ thuật học bán giám sát; - Các thuật toán phân loại, phân cụm liệu không gian liệu có cấu trúc bán cấu trúc; - Chỉ tập trung cho phân loại văn tiếng Việt Nội dung nghiên cứu - Xác định hàm phương thức cho phép phân loại hiệu lớp liệu (thường hai lớp); - Đưa dự đoán lớp cho liệu chưa biết nhãn; - Nghiên cứu ảnh hưởng số lượng liệu chưa biết nhãn đến kết thuật toán; - Xây dựng phần mềm thử nghiệm phân loại văn tiếng Việt Phương pháp nghiên cứu - Phương pháp tài liệu - Phương pháp thực nghiệm - Phương pháp chuyên gia Đóng góp luận án Những đóng góp luận án gồm: Đề xuất giải pháp phân loại văn dựa mô hình trắc địa lý thuyết đồ thị Đề xuất giải pháp để rút gọn số chiều véc tơ biểu diễn văn dựa đồ thị Dendrogram Xây dựng kho liệu phục vụ phân loại văn tiếng Việt Bố cục luận án Nội dung luận án trình bày chương: Chương 1: Nghiên cứu tổng quan Chương Xây dựng kho liệu Chương 3: Phân loại văn dựa mô hình đường trắc địa Chương 4: Rút gọn số chiều véc tơ dựa đồ thị Dendrogram Chương NGHIÊN CỨU TỔNG QUAN 1.1 Học máy 1.1.1 Khái niệm 1.1.2 Ứng dụng học máy 1.2 Các phương pháp học máy 1.2.1 Họcgiám sát 1.2.2 Học không giám sát 1.2.3 Học bán giám sát 1.2.4 Học tăng cường 1.2.5 Học sâu 1.3 Tổng quan về học bán giám sát 1.3.1 Một số phương pháp học bán giám sát - Thuật toán cực đại kỳ vọng - Học SVM truyền dẫn Hình 1.1 Siêu phẳng cực đại - Thuật toán Self-training Hình 1.2 Biểu diễn trực quan Thiết lập Self-training - Thuật toán học bán giám sát Co-training Hình 1.3 Sơ đồ biểu diễn trực quan thết lập Co-training 1.3.2 Thuật toán họcgiám sát SVM bán giám sát SVM - Giới thiệu - Thuật toán máy véc tơ hỗ trợ SVM Hình 1.4 Siêu mặt tối ưu biên 1.3.3 Huấn luyện SVM 1.3.4 SVM phân lớp văn 1.3.5 Bán giám sát SVM phân lớp trang Web 1.3.6 Thuật toán phân lớp văn điển hình 1.4 Phân loại văn 1.4.1 Văn 1.4.2 Biểu diễn văn véc tơ Hình 1.5 Véc tơ đặc trưng biểu diễn văn mẫu 1.4.3 Phân loại văn a Mô hình tổng quát Hình 1.6 Mô hình tổng quát hệ thống phân loại văn b Các bước phân loại 1.5 Đề xuất nghiên cứu Mô hình tổng quát để phân loại văn mô tả lại sau: Hình 1.7 Mô hình phân lớp văn Hình 1.8 Mô hình đề xuất phân lớp 1.6 Tiểu kết chương Chương XÂY DỰNG KHO DỮ LIỆU 2.1 Giới thiệu kho liệu phân loại văn tiếng Việt a Giới thiệu b Mục đích kho liệu phục vụ phân loại văn tiếng Việt 2.2 Tổng quan về kho liệu 2.2.1 Khái niệm kho liệu 2.2.2 Đặc điểm kho liệu 2.2.3 Mục đích kho liệu 2.2.4 Kiến trúc kho liệu a Kiến trúc DWH bản: Hình 2.1 Kiến trúc DWH b Kiến trúc DWH với khu vực xử lý: Hình 2.2 Kiến trúc DWH với khu vực xử lý c Kiến trúc DWH với khu vực xử lý liệu chủ đề: Hình 2.3 Kiến trúc DWH với khu vực xử lý liệu chủ đề Các thành phần kho liệu: - Nguồn liệu (Data Sources) - Khu vực xử lý (Staging Area) - Siêu liệu (Metadata) - Kho liệu (Data Warehouse) - Kho liệu chủ đề (Data Marts) 2.3 Phân tích yêu cầu 2.3.1 Xây dựng kho STT Loại tài liệu Bóng đá Giáo dục Pháp luật Quốc tế Xã hội Bảng 2.1 Dữ liệu thô tải về Số lượng tải về Tổng dung lượng 1512 363411 KB 1231 335561 KB 1194 175410 KB 1208 255815 KB 1152 232633 KB 2.3.2 Khai thác kho 2.3.3 Cập nhật kho 2.4 Phân tích đặc tả liệu 2.5 Giải pháp xây dựng kho 2.5.1 Đề xuất mô hình tổng quát Bước Bước Bước Hình 2.4 Mô hình đề xuất tổng quát kho liệu 2.5.2 Quá trình xây dựng kho liệu 2.5.3 Quy trình chương trình phân loại văn Hình 2.5 Quy trình phân loại văn a Tiền xử lý liệu b Biểu diễn văn Mô hình không gian véc tơ Hình 2.6 Mô hình không gian véc tơ chiều 2.5.4 Sử dụng thuật toán Naïve Bayes để phân loại văn Văn Văn Văn Văn Văn Văn Văn Tự tin 44 12 14 35 29 10 Bảng 2.2 Dữ liệu huấn luyện Sáng tạo Khéo léo Nhiệt tình 28 58 31 40 26 24 42 10 47 34 11 64 24 32 2.5.5 Định dạng đầu liệu kho a Định dạng văn mẫu Lớp Bóng đá Xã hội Xã hội Bóng đá Bóng đá Xã hội Bảng 3.1 Thống kê số tập tin kho liệu STT Loại tài liệu Bóng đá Giáo dục Pháp luật Quốc tế Xã hội Gán nhãn 10 10 10 10 10 Huấn luyện Chưa gán nhãn 613 604 577 599 584 Kiểm thử Tổng 400 400 400 400 400 1023 1014 987 1009 994 3.3.3 Triển khai chương trình - Chức huấn luyện - Chức phân loại văn 3.3.4 Kết thực nghiệm a Lần thử nghiệm thứ Bảng 3.2 Kết phân loại lần sử dụng SVM Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Xã hội Nhãn có từ kết phân loại Bóng Giáo Pháp Quốc Xã Đá dục luật Tế hội 58 78 887 225 159 114 516 24 62 37 864 64 16 34 895 108 277 253 356 Tỷ lệ phân loại thành công trung bình Tỷ lệ phân loại 86.7% 51.0% 87.5% 88.7% 35.8% 69.9% Bảng 3.3 Kết phân loại lần sử dụng SVM với mô hình trắc địa Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Xã hội Nhãn có từ kết phân loại Bóng Giáo Pháp Quốc Xã Đá dục Luật Tế hội 105 34 115 769 104 89 821 25 44 47 10 864 17 23 21 16 932 74 67 172 326 356 Tỷ lệ phân loại thành công trung bình Tỷ lệ phân loại 75.2% 81.0% 87.5% 92.4% 35.7% 74.4% Kết trung bình tỷ lệ phân loại thành công tất mục 69.9% sử dụng SVM 74.4% sử dụng phương pháp đề xuất b Lần thử nghiệm thứ 11 Bảng 3.4 Kết phân loại lần sử dụng SVM Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Xã hội Nhãn có từ kết phân loại Bóng Giáo Pháp Quốc Xã Đá dục Luật Tế hội 63 34 58 868 43 83 888 35 68 878 18 122 43 826 45 29 502 29 389 Tỷ lệ phân loại thành công trung bình Tỷ lệ phân loại 84.8% 87.6% 89.0% 81.9% 39.1% 76.5% Bảng 3.5 Kết phân loại lần sử dụng SVM với mô hình trắc địa Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Xã hội Nhãn có từ kết phân loại Bóng Giáo Pháp Quốc Xã Đá dục Luật Tế hội 0 184 31 808 0 279 59 676 0 276 118 593 15 0 95 899 0 54 378 562 Tỷ lệ phân loại thành công trung bình Tỷ lệ phân loại 79.0% 66.7% 60.1% 89.1% 56.5% 70.3% c Lần thử nghiệm thứ Bảng 3.6 Kết phân loại lần sử dụng SVM Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Xã hội Nhãn có từ kết phân loại Bóng Giáo Pháp Quốc Xã Đá dục Luật Tế hội 295 721 0 234 17 763 22 291 674 19 0 990 51 83 557 303 Tỷ lệ phân loại thành công trung bình Tỷ lệ phân loại 70.5% 75.2% 68.3% 98.1% 30.5% 68.5% Bảng 3.7 Kết phân loại lần sử dụng SVM với mô hình trắc địa Nhãn có từ kết phân loại Nhãn Tỷ lệ Bóng Giáo Pháp Quốc Xã thực tế Đá dục Luật Tế hội phân loại Bóng Đá 126 147 73.3% 750 Giáo dục 117 18 86.7% 879 Pháp Luật 81 41 23 85.1% 804 Quốc Tế 33 242 14 71.4% 720 12 Xã hội 74 261 208 Tỷ lệ phân loại thành công trung bình 45.3% 72.4% 451 d Lần thử nghiệm thứ Bảng 3.8 Kết phân loại lần sử dụng SVM Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Xã hội Nhãn có từ kết phân loại Bóng Giáo Pháp Quốc Xã Đá dục Luật Tế hội 25 22 217 759 14 71 179 13 737 48 181 69 689 21 54 68 58 808 83 177 158 573 Tỷ lệ phân loại thành công trung bình Tỷ lệ phân loại 74.2% 72.7% 69.8% 80.1% 57.6% 70.9% Bảng 3.9 Kết phân loại lần sử dụng SVM với mô hình trắc địa Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Xã hội Nhãn có từ kết phân loại Bóng Giáo Pháp Quốc Xã Đá dục Luật Tế hội 25 28 136 834 14 31 179 12 778 50 178 70 689 21 52 54 56 824 83 209 156 543 Tỷ lệ phân loại thành công trung bình Tỷ lệ phân loại 81.5% 76.7% 69.8% 81.7% 54.6% 72.9% e Lần thử nghiệm thứ Bảng 3.10 Kết phân loại lần sử dụng SVM Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Xã hội Nhãn có từ kết phân loại Bóng Giáo Pháp Quốc Xã Đá dục Luật Tế hội 34 19 194 776 14 75 179 21 725 46 184 65 692 12 41 54 97 805 11 83 241 156 503 Tỷ lệ phân loại thành công trung bình Tỷ lệ phân loại 75.9% 71.5% 70.1% 79.8% 50.6% 69.6% Bảng 3.11 Kết phân loại lần sử dụng SVM với mô hình trắc địa Nhãn có từ kết phân loại Nhãn thực tế Bóng Đá Giáo dục Pháp Luật Quốc Tế Bóng Đá 736 26 43 218 13 Xã hội Tỷ lệ phân loại 71.9% Giáo dục Pháp Luật Quốc Tế Xã hội 121 799 17 35 795 27 134 49 51 168 Tỷ lệ phân loại thành công trung bình 42 98 792 153 52 42 56 573 78.8% 80.5% 78.5% 57.6% 73.5% Hình 3.4 Giá trị trung bình độ lệch chuẩn tỷ lệ phân loại Hình biểu diễn giá trị trung bình phương sai tỷ lệ phân loại thành công sử dụng SVM phương pháp đề xuất 3.4 Tiểu kết chương Trong chương này, trình bày kết nghiên cứu phân loại văn dựa đề xuất giải pháp sử dụng mô hình cự ly đường trắc địa kết hợp với máy véc tơ hỗ trợ Mô hình đường trắc địa sử dụng hệ tương quan ngắn (mức độ gần văn bản) để tính khoảng cách hai véc tơ Khoảng cách trắc địa khác với khoảng cách Euclidean giúp cho việc phân loại văn tự động xác cho phép phân thành nhiều loại thay phân hai loại (dựa phân lớp nhị phân) Chương RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ DENDROGRAM Nội dung chương trình bày giải pháp đề xuất rút gọn số chiều véc tơ biểu diễn văn tiếng Việt dựa đồ thị Dendrogram 14 tập văn lấy từ wikipedia Việc rút gọn số chiều véc tơ áp dụng vào trình phân loại văn tiếng Việt thông qua thử nghiệm 4.1 Giới thiệu 4.1.1 Định nghĩa đồ thị Dendrogram - Định nghĩa Hình 4.1 Đồ thị Dendrogram - Định nghĩa - Định nghĩa - Định nghĩa - Định nghĩa 4.1.2 Giải pháp đề xuất Hình 4.2 Ví dụ về đồ thị Dendrogram 4.2 Xây dựng đồ thị Dendrogram từ liệu Wikipedia 4.2.1 Thuật toán xử lý Wikipedia 15 Hình 4.3 Lưu đồ thuật toán xử lý tập tin liệu Wikipedia 4.2.2 Thuật toán xử lý từ điển Hình 4.4 Sơ đồ thuật toán xử lý từ điển 4.2.3 Thuật toán tính toán ma trận P tần số xuất chung 4.2.4 Thuật toán xây dựng đồ thị Dendrogram 4.2.5 Triển khai phân cụm a Xử lý Wikipedia b Từ điển c Tính toán ma trận tần số xuất chung d Tổ chức liệu chương trình 16 4.2.6 Thử nghiệm 4.2.6.1 Cấu trức hệ thống 4.2.6.2 Các chức a Chức phân cụm Hình 4.5 Ví dụ cho việc cắt đồ thị Dendrogram, kết nhận cụm b Chức xây dựng mô hình phân loại c Chức phân loại 4.2.6.3 Kết thực nghiệm Tiến hành phân cụm với từ điển cho kết sau: Hình 4.6 Số lượng cặp từ theo tần số xuất chung 17 14,500 Số lượng nhóm 14,000 13,500 13,000 12,500 12,000 11,500 10% 20% 30% 40% 50% 60% 70% 80% 90% Vị trí phân nhóm so với độ dài tối đa Hình 4.7 Số lượng nhóm phụ thuộc phân cụm đồ thị Dendrogram Tại vị trí cắt 20% so với độ dài tối đa, nghiên cứu tìm nhóm từ có liên quan gần nghĩa thể sau: Hình 4.8 Kết phân cụm với Dendrogram Hình 4.9 Một ví dụ khác thể từ liên quan đến âm nhạc 18 Hình 4.10 Một ví dụ đồ thị Dendrogram cho từ Hình 4.11 Ví dụ đồ thị Dendrogram cho từ thuộc chủ đề y học 4.3 Áp dụng phân cụm từ vào phân loại văn 4.3.1 Dữ liệu đầu vào 4.3.2 Kết thực nghiệm a Mô hình huấn luyện Bảng 4.1 Dữ liệu huấn luyện, kiểm thử STT Loại tài liệu Bóng đá Giáo dục Pháp luật Quốc tế Xã hội Lần 15 15 15 15 15 Lần 20 20 20 20 20 Huấn luyện Lần Lần 40 80 40 80 40 80 40 80 40 80 19 Lần 120 120 120 120 120 Kiểm thử 400 400 400 400 400 Hình 4.12 Dung lượng lưu trữ véc tơ phụ thuộc vào số lượng từ Hình 4.13 Đồ thị thể thời gian gán nhãn lần huấn luyện b Phân loại văn c Độ xác phân loại văn Hình 4.14 Thời gian phân loại văn Hình 4.15 Đồ thị thể độ phân trung bình lần huấn luyện loại lần huấn luyện 20 d Độ xác phân loại văn trung bình Hình 4.16 Đồ thị thể thay đổi kết theo tỷ lệ phân loại Dựa vào hình việc rút gọn từ điển cho phép cải thiện việc phân loại ta chọn tỷ lệ rút gọn từ điển (từ 30% -> 70%) so với không gian véc tơ ban đầu tỷ lệ phân loại văn cao so với chưa phân cụm rút gọn từ 4.4 Tiểu kết chương Kết đạt qua phương pháp đề xuất nhằm nâng cao chất lượng phân loại văn tiếng Việt tự động Phương pháp thứ sử dụng từ điển bách khoa toàn thư Wikipedia đồ thị Dendrogram việc rút gọn số chiều véc tơ biểu diễn văn tiếng Việt Phương pháp thứ hai áp dụng véc tơ rút gọn để phân loại văn Thực nghiệm cho thấy việc áp dụng không gian véc tơ rút gọn dựa đồ thị Dendrogram thư viện Wikipedia giúp tiết kiệm dung lượng lưu trữ thời gian phân loại văn tiếng Việt mà đảm bảo tỷ lệ phân loại đúng, tỷ lệ phân loại văn cao so với chưa phân cụm Hạn chế phương pháp đề xuất thử nghiệm xác suất xuất chung cặp từ trang Wikipedia để phân nhóm từ dẫn tới có khả sai lệch mặt ngữ nghĩa, trang Wikipedia có nhiều thông tin Chẳng hạn 21 trang bao gồm nhiều thông tin Bóng đá, Giáo dục, Pháp luật … Trong nghiên cứu khắc phục hạn chế nêu KẾT LUẬN Kết đạt Luận án trình bày kết nghiên cứu phân loại văn tiếng Việt kết hợp kỹ thuật học máy bán giám sát dựa máy hỗ trợ véc tơ (SVM) Kết đạt là: - Đã xây dựng kho liệu phục vụ cho thực nghiệm phân văn tiếng Việt - Đề xuất thử nghiệm giải pháp phân loại văn dựa cự ly đường trắc địa - Đề xuất thử nghiệm giải pháp rút gọn số chiều véc tơ biểu diễn văn tiếng Việt để tăng tốc độ xử lý đảm bảo độ xác phân loại văn Dựa kết thử nghiệm, luận án so sánh phương pháp đề xuất dựa mô hình cự ly trắc địa với mô hình SVM túy liệu Tỷ lệ phân loại trung bình hai phương pháp không chêch lệch nhiều kết quả, nhiên phương sai phương pháp đề xuất (±2%) nhỏ nhiều so với SVM (±4%) Điều cho thấy phương pháp đề xuất ổn định so với sử dụng SVM túy Thực nghiệm cho thấy việc áp dụng không gian véc tơ rút gọn Dendrogram Wikipedia giúp giảm đáng kể dung lượng lưu trữ thời gian phân loại văn tiếng Việt mà đảm bảo tỷ lệ phân loại Ở mức rút gọn 30%-70% so với không gian véc tơ ban đầu, tỷ lệ phân loại văn cao so với chưa phân cụm 22 Giới hạn luận án Về bản, chương trình phân loại văn thực hoàn thành chức đặt giúp người sử dụng xây dựng mô hình phân loại cho loại văn tiếng Việt Tự động phân loại văn dựa mô hình xây dựng Tuy nhiên việc thu thập liệu ban đầu mức thử nghiệm Điểm hạn chế luận án, chưa sử dụng WORDNET xây dựng đồ thị đồng để xem xét mối tương quan ngữ nghĩa từ trước xây dựng véc tơ đặc trưng cho cụm văn Chính điều làm giảm khả tối ưu gom cụm thông qua giải thuật gom cụm Rút gọn số chiều véc tơ văn thử nghiệm xác suất xuất chung cặp từ trang Wikipedia để phân nhóm từ dẫn tới có khả sai lệch mặt ngữ nghĩa trang Wikipedia có nhiều thông tin Chẳng hạn trang bao gồm thông tin Bóng đá, Giáo dục, Pháp luật, Quốc tế, Xã hội, - Chỉ thực nghiệm máy véc tơ hỗ trợ (VSM) - Chưa so sánh thuật toán Dendrogram khác Trong thời gian tới, bổ sung số tính hoàn thiện chương trình để nâng cao hiệu quả, đồng thời xây dựng kho liệu đủ lớn nhằm mục đích phân loại văn cách xác Đề xuất hướng nghiên cứu Tóm tắt văn hướng nghiên cứu quan tâm nhà khoa học nay, đặc biệt vấn đề ngôn ngữ tiếng Việt nhiều vấn đề cần quan tâm nghiên cứu Chính thế, hướng nghiên cứu tóm tắt văn hướng nghiên cứu mở Trong giới hạn nghiên cứu luận án, xin đề xuất hướng nghiên 23 cứu tương lai đề tài là: - Tiếp tục nghiên cứu WORDNET trợ giúp tra cứu ngữ nghĩa tiếng Anh, từ xây dựng WORDNET cho tra cứu tiếng Việt Hoặc sử dụng đồ thị đồng để tối ưu khả tương tác tạo véc tơ đặc trưng cho cụm văn - Để nâng cao tính hiệu mô hình học bán giám sát có kết hợp tóm tắt nội dung văn bản, tiếp tục nghiên cứu phương pháp xử lý tách từ tiếng Việt, nhằm tăng độ xác phương pháp trích rút ý nội dung văn bản, đồng thời tiến hành thực nghiệm nhiều tỷ lệ nén nội dung khác để tìm tỷ lệ nén nội dung có độ xác cao hơn, nhằm cải thiện thêm độ xác kết phân lớp văn dựa vào mô hình đề xuất - Thử nghiệm với tần số xuất chung đoạn văn, câu - Thử nghiệm với liệu khác Wikipedia, ví dụ báo trang báo mạng Việt Nam - Thử nghiệm với phương pháp học máy khác so sánh thuật toán Dendrogram khác 24 CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ Vo Duy Thanh, Vo Trung Hung, Pham Minh Tuan, Doan Van Ban, “Text classification based on semi-supervised learning”, Proceeding of the SoCPaR 2013, IEEE catalog number CFP1395HART, ISBN 978-1-4799-3400-3/13/$31.00, pp 238-242, 2013 Vo Duy Thanh, Vo Trung Hung, Phạm Minh Tuan and Ho Khac Hung,“Text Classification Based On Manifold Semi-Supervised Support Vector Mahcine”, Proceeding of the ISDA 2014, 14th International Conference on Intelligent Systems Design and Applications, Okinawa, Japan 27-29, November 2014, IEEJ catalog, ISSN: 2150-7996, pp 13-19 Pham Minh Tuan, Nguyen Thi Le Quyen, Vo Duy Thanh, Vo Trung Hung, “Vietnamese Documents Classification Based on Dendrogram and Wikipedia”, Proceedings of Asian Conference on Information Systems 2014, ACIS 2014, December 1-3, 2014, Nha Trang, Viet Nam, © 2014 by ACIS 2014, ISBN: 978-4-88686-089-7, pp 247-253 Vo Duy Thanh, Vo Trung Hung, Ho Khac Hung,Tran Quoc Huy, “Text Classification Based On SVM And Text Summarization”, International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181, Vol 4, Issue 02, February-2015, pp 181186 Võ Trung Hùng, Nguyễn Thị Ngọc Anh, Hồ Phan Hiếu, Nguyễn Ngọc Huyền Trân, Võ Duy Thanh, “So sánh văn dựa mô hình véc tơ”, Tạp chí Khoa học Công nghệ, Đại học Đà Nẵng, ISSN: 1859-1531, số 3(112)-2017, 1, Trang: 105-109 25 ... tài nghiên cứu ứng dụng kỹ thuật học bán giám sát vào phân loại văn tiếng Việt Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: - Kỹ thuật học bán giám sát; - Các thuật toán phân loại, phân. .. khoa học nghiên cứu Chính vậy, luận án này, tập trung nghiên cứu tìm phương pháp nhằm phân loại văn tiếng Việt hiệu dựa kỹ thuật học bán giám sát Tổng quan tình hình nghiên cứu Trong khoa học. .. 1.1.2 Ứng dụng học máy 1.2 Các phương pháp học máy 1.2.1 Học có giám sát 1.2.2 Học không giám sát 1.2.3 Học bán giám sát 1.2.4 Học tăng cường 1.2.5 Học sâu 1.3 Tổng quan về học bán giám sát

Ngày đăng: 28/08/2017, 16:14

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan