Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)

142 11 0
  • Loading ...
1/142 trang
Tải xuống

Thông tin tài liệu

Ngày đăng: 11/05/2018, 23:43

Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ) BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾNKỸ THUẬT Đà Nẵng - 2017 i BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 LUẬN ÁN TIẾNKỸ THUẬT Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng PGS.TS Đoàn Văn Ban Đà Nẵng - 2017 ii LỜI CAM ĐOAN Tôi tên Võ Duy Thanh Tôi xin cam đoan cơng trình nghiên cứu tơi thực Các nội dung kết nghiên cứu trình bày Luận án trung thực chưa công bố tác giả hay cơng trình khoa học khác Tác giả Luận án Võ Duy Thanh i MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii DANH MỤC BẢNG ix MỞ ĐẦU Chương NGHIÊN CỨU TỔNG QUAN 1.1 Học máy 1.1.1 Khái niệm 1.1.2 Ứng dụng học máy 1.1.3 Các dạng liệu học máy 11 1.2 Các phương pháp học máy 13 1.2.1 Họcgiám sát 13 1.2.2 Học không giám sát 15 1.2.3 Học bán giám sát 16 1.2.4 Học tăng cường 16 1.2.5 Học sâu 17 1.3 Tổng quan học bán giám sát 21 1.3.1 Một số phương pháp học bán giám sát 23 1.3.2 Thuật tốn họcgiám sát SVM bán giám sát SVM 34 1.3.3 Huấn luyện SVM 38 1.3.4 SVM phân lớp văn 39 1.3.5 Bán giám sát SVM phân lớp trang Web 40 ii 1.3.6 Thuật tốn phân lớp văn điển hình 41 1.4 Phân loại văn 43 1.4.1 Văn 43 1.4.2 Biểu diễn văn véc tơ 44 1.4.3 Phân loại văn 46 1.5 Đề xuất nghiên cứu 49 1.6 Tiểu kết chương 51 Chương XÂY DỰNG KHO DỮ LIỆU 53 2.1 Giới thiệu kho liệu phân loại văn tiếng Việt 53 2.2 Tổng quan kho liệu 54 2.2.1 Khái niệm kho liệu 54 2.2.2 Đặc điểm kho liệu 55 2.2.3 Mục đích kho liệu 56 2.2.4 Kiến trúc kho liệu 57 2.3 Phân tích yêu cầu 60 2.3.1 Xây dựng kho 60 2.3.2 Khai thác kho 62 2.3.3 Cập nhật kho 63 2.4 Phân tích đặc tả liệu 63 2.5 Giải pháp xây dựng kho 64 2.5.1 Đề xuất mơ hình tổng quát 64 2.5.2 Quá trình xây dựng kho liệu 64 2.5.3 Quy trình chương trình phân loại văn 65 2.5.4 Sử dụng thuật tốn Nạve Bayes để phân loại văn 70 iii 2.5.5 Định dạng đầu liệu kho 73 2.6 Kết kho liệu thử nghiệm đánh giá 76 2.6.1 Kết kho liệu thử nghiệm 76 2.6.2 Đánh giá kho liệu 76 2.7 Tiểu kết chương 76 Chương PHÂN LOẠI VĂN BẢN DỰA TRÊN MƠ HÌNH CỰ LY TRẮC ĐỊA……………………………………………………………………… 78 3.1 Mơ hình cự ly trắc địa máy véc tơ hỗ trợ 78 3.1.1 Mơ hình cự ly trắc địa 78 3.1.2 Kỹ thuật phân cụm đa dạng sử dụng cự ly trắc địa 82 3.1.3 Phương pháp tính tốn cự ly trắc địa 83 3.1.4 Hàm nhân máy véc tơ hỗ trợ sử dụng cự ly trắc địa 85 3.2 Phương pháp phân loại văn dựa mơ hình cự ly trắc địa 86 3.3 Thực nghiệm phân loại văn dựa mơ hình cự ly trắc địa 87 3.3.1 Phát triển chương trình ứng dụng 87 3.3.2 Chuẩn bị liệu 87 3.3.3 Triển khai chương trình 89 3.3.4 Kết thực nghiệm 90 3.4 Tiểu kết chương 95 Chương RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ DENDROGRAM 96 4.1 Giới thiệu 96 4.1.1 Định nghĩa đồ thị Dendrogram 96 4.1.2 Giải pháp đề xuất 97 iv 4.2 Xây dựng đồ thị Dendrogram từ liệu Wikipedia 101 4.2.1 Thuật toán xử lý Wikipedia 101 4.2.2 Thuật toán xử lý từ điển 103 4.2.3 Thuật tốn tính tốn ma trận P tần số xuất chung 104 4.2.4 Thuật toán xây dựng đồ thị Dendrogram 105 4.2.5 Triển khai phân cụm 105 4.2.6 Thử nghiệm 107 4.3 Áp dụng véc tơ rút gọn vào phân loại văn 112 4.3.1 Dữ liệu đầu vào 112 4.3.2 Kết thực nghiệm 112 4.4 Tiểu kết chương 117 KẾT LUẬN 118 CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ 121 TÀI LIỆU THAM KHẢO 122 v DANH MỤC CÁC TỪ VIẾT TẮT ANN Artificial Neural Network (Mạng nơ ron nhân tạo) CRFs Conditional Random Fields DM Data Marts (Kho liệu chủ đề) DWH Data WareHouse (Kho liệu) GD Geodesic Distance (Cự li trắc địa) IDF Inverse Document Frequency (Tần số nghịch đảo văn bản) IID Independently and Identically Distributed (phân phối độc lập phân bố tương tự) ISOMAP Isometric Feature Mapping (Lập đồ đặc trưng Metric) KNN K - Nearest Neighbor (K láng giềng gần nhất) LDA Linear Discriminant Analysis (Phân tích biệt thức tuyến tính) MDP Markov decision process (Quy trình định Markov) MEM Maximum Entropy Markov Model (Mơ hình Markov cực đại hóa entropy) NB Naĩve Bayes NLP Natural Language Proscessing (Xử lý ngôn ngữ tự nhiên) SVM Support vector Machine (Máy véc tơ hỗ trợ) S3VM Semi-Supervised Support Vector Machine (bán giám sát dựa máy véc tơ hỗ trợ) TF Term frequency (tần suất từ) RBF Radial Basis Funcions (Hàm sở Radial) VC Vapnik-Chervonenkis (Khoảng cách VC) vi DANH MỤC HÌNH VẼ Hình 1.1 Siêu phẳng cực đại 26 Hình 1.2 Biểu diễn trực quan thiết lập Self-training 28 Hình 1.3 Sơ đồ biểu diễn trực quan thiết lập Co-training 30 Hình 1.4 Siêu mặt tối ưu biên 36 Hình 1.5 Véc tơ đặc trưng biểu diễn văn mẫu 46 Hình 1.6 Mơ hình tổng qt hệ thống phân loại văn 49 Hình 1.7 Mơ hình phân lớp văn 50 Hình 1.8 Mơ hình đề xuất phân lớp văn sử dụng Self-training 51 Hình 2.1 Kiến trúc DWH 58 Hình 2.2 Kiến trúc DWH với khu vực xử lý 58 Hình 2.3 Kiến trúc DWH với khu vự xử lý kho liệu chủ đề 59 Hình 2.4 Mơ hình đề xuất tổng quát kho liệu 64 Hình 2.5 Quy trình phân loại văn 66 Hình 2.6 Mơ hình khơng gian véc tơ chiều 70 Hình 3.1 Cự ly Euclid cự ly trắc địa 79 Hình 3.2 Mơ hình đề xuất 79 Hình 3.3 Mơ hình đề xuất phân loại văn dựa cự ly trắc địa 87 Hình 3.4 Giá trị trung bình độ lệch chuẩn tỷ lệ phân loại 94 Hình 4.1 Đồ thị Dendrogram 96 Hình 4.2 Ví dụ đồ thị Dendrogram 101 vii Hình 4.3 Lưu đồ thuật tốn xử lý tập tin liệu Wikipedia 103 Hình 4.4 Sơ đồ thuật tốn xử lý từ điển 104 Hình 4.5 Ví dụ cho việc cắt đồ thị Dendrogram, kết nhận cụm 107 Hình 4.6 Số lượng cặp từ theo tần số xuất chung 108 Hình 4.7 Số lượng nhóm phụ thuộc phân cụm đồ thị Dendrogram 109 Hình 4.8 Kết phân cụm với Dendrogram 109 Hình 4.9 Một ví dụ khác thể từ liên quan đến âm nhạc 110 Hình 4.10 Một ví dụ đồ thị Dendrogram cho từ 110 Hình 4.11 Ví dụ đồ thị Dendrogram cho từ thuộc chủ đề y học 111 Hình 4.12 Dung lượng lưu trữ véc tơ phụ thuộc vào số lượng từ 114 Hình 4.13 Đồ thị thể thời gian gán nhãn lần huấn luyện 115 Hình 4.14 Thời gian phân loại văn trung bình lần huấn luyện 115 Hình 4.15 Đồ thị thể độ phân loại lần HL theo tỷ lệ phân cụm 116 Hình 4.16 Đồ thị thể thay đổi kết theo tỷ lệ phân loại 116 viii ... ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KỸ THUẬT... chưa ứng dụng nhiều kỹ thuật học bán giám sát Ở Việt Nam, kỹ thuật học bán giám sát bước đầu nghiên cứu lĩnh vực tin sinh học (phân loại gien, protein) chưa phổ biến rộng rãi Trong lĩnh vực xử... văn có Chúng tơi giới hạn phạm vi nghiên cứu luận án gồm: - Chỉ nghiên cứu số kỹ thuật học bán giám sát dựa SVM, phân loại bán giám sát với trình xử lý hồi quy Gauss, phân loại học bán giám sát
- Xem thêm -

Xem thêm: Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ), Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt (Luận án tiến sĩ)

Gợi ý tài liệu liên quan cho bạn

Nhận lời giải ngay chưa đến 10 phút Đăng bài tập ngay