XÂY DỰNG ỨNG DỤNG hỗ TRỢ PHÂN LOẠI văn bản TIẾNG VIỆT dựa TRÊN PHƯƠNG PHÁP POINTWISE và bộ PHÂN LOẠI SVM

84 945 4
XÂY DỰNG ỨNG DỤNG hỗ TRỢ PHÂN LOẠI văn bản TIẾNG VIỆT dựa TRÊN PHƯƠNG PHÁP POINTWISE và bộ PHÂN LOẠI SVM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ HÀ HẢI ĐĂNG XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP POINTWISE BỘ PHÂN LOẠI SVM Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ KỸ THUẬT Hà Nội - Năm 2014 BỘ GIÁO DỤC ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ HÀ HẢI ĐĂNG XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP POINTWISE BỘ PHÂN LOẠI SVM Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KỸ THUẬT Hà Nội - Năm 2014 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI HỌC VIỆN KỸ THUẬT QUÂN SỰ Cán hướng dẫn chính: TS Lê Đình Sơn Cán chấm phản biện 1: Cán chấm phản biện 2: Luận văn thạc sĩ bảo vệ tại: HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ HỌC VIỆN KỸ THUẬT QUÂN SỰ Ngày….tháng… năm 2014 Tôi xin cam đoan: Những kết nghiên cứu trình bày luận văn hoàn toàn trung thực, tôi, không vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Nếu sai, xin chịu hoàn toàn trách nhiệm trước pháp luật TÁC GIẢ LUẬN VĂN Hà Hải Đăng LỜI CẢM ƠN Em xin chân thành cảm ơn thầy, cô Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân giúp đỡ, bảo em suốt trình học tập trường làm luận văn tốt nghiệp Em xin gửi lời cảm ơn sâu sắc đến Ts Lê Đình Sơn, thầy tận tình giúp đỡ, hướng dẫn truyền đạt kiến thức, kinh nghiệp quý báu suốt trình thực hoàn thành luận văn Cuối cùng, xin gửi lời cảm ơn anh chị, bạn bè đồng nghiệp, đặc biệt người thân gia đình tạo điều kiện, giúp đỡ động viên suốt trình học tập làm luận văn tốt nghiệp! MỤC LỤC Trang phụ bìa Bản cam đoan Mục lục Tóm tắt luận văn Danh mục bảng Danh mục hình vẽ MỞ ĐẦU Chương TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN .3 1.1 Một số định nghĩa văn ngôn ngữ .3 1.1.1 Các cấp độ ngôn ngữ .3 1.1.2 Quan hệ ngôn ngữ 1.2 Phân loại ngôn ngữ .5 1.2.1 Phân loại theo cội nguồn .5 1.2.2 Phân loại theo loại hình 1.2.3 Phân loại theo thứ tự ngôn ngữ .6 1.3 Các đặc điểm tiếng Việt .7 1.3.1 Tiếng – đơn vị cấu tạo nên từ 1.3.2 Cấu tạo từ 10 1.3.3 Nhập nhằng 12 1.4 Mô hình tổng quát toán phân loại văn tiếng Việt 12 1.4.1 Yêu cầu toán phân loại văn 12 1.4.2 Cấu trúc chương trình 13 1.5 Các nghiên cứu toán phân loại văn 17 1.5.1 Các phương pháp phân loại văn tiếng Anh 18 1.5.2 Các nghiên cứu phân loại văn tiếng Việt 20 1.6 Mô tả phương pháp nghiên cứu luận văn 23 Chương 24 PHƯƠNG PHÁP TIỀN XỬ LÝ TRONG PHÂN LOẠI VĂN BẢN .24 2.1 Tầm quan trọng bước tiền xử lý phân loại văn 24 2.1.1 Tách câu 25 2.1.2 Tách từ 27 2.2 Một số phương pháp tách từ tiếng Việt 29 2.2.1 Phương pháp khớp nối tối đa Muximun Matching: forward/backward 29 2.2.2 Phương pháp giải thuật học cải biến (Tranformation based learning) 31 2.2.3 Phương pháp quy hoạch động (Dynamic Programming) 32 2.3 Phương pháp Pointwise 33 2.3.1 Mô hình ngôn ngữ N-Gram 33 2.3.2 Ý tưởng chung phương pháp Pointwise 35 2.4 Những đặc trưng phương pháp pointwise 37 Chương 41 PHÂN LOẠI VĂN BẢN VỚI BỘ PHÂN LOẠI SVM .41 3.1 Giới thiệu SVM 41 3.2 Bộ phân loại vector hỗ trợ (SVM) 45 3.3 Phân loại văn SVM 50 3.4 Thiết kế chương trình thử nghiệm 54 3.4.1 Giới thiệu chương trình 54 3.4.2 Thư viện Dongdu svm.net 55 3.4.3 Nguồn liệu 59 3.5 Kết đạt 60 KẾT LUẬN KIẾN NGHỊ .65 Kết luận 65 Kiến nghị .65 TÀI LIỆU THAM KHẢO 66 Tóm tắt luận văn: Họ tên học viên: Hà Hải Đăng Chuyên ngành: Khoa học máy tính Khóa: 24 Cán hướng dẫn: TS Lê Đình Sơn Tên đề tài: Xây dựng ứng dụng hỗ trợ phân loại văn tiếng Việt dựa phương pháp pointwise phân loại SVM Tóm tắt: Luận văn nghiên cứu toán phân loại văn bản, áp dụng với tiếng Việt Qua việc nghiên cứu với phương pháp tách từ Pointwise phân loại SVM, qua xây dựng chương trình ứng dụng hỗ trợ phân loại văn tiếng Việt DANH MỤC CÁC BẢNG MỞ ĐẦU Chương TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN .3 1.1 Một số định nghĩa văn ngôn ngữ .3 1.1.1 Các cấp độ ngôn ngữ .3 1.1.2 Quan hệ ngôn ngữ 1.2 Phân loại ngôn ngữ .5 1.2.1 Phân loại theo cội nguồn .5 1.2.2 Phân loại theo loại hình 1.2.3 Phân loại theo thứ tự ngôn ngữ .6 1.3 Các đặc điểm tiếng Việt .7 1.3.1 Tiếng – đơn vị cấu tạo nên từ Bảng 1.1 Bảng cấu trúc tiếng tiếng Việt 1.3.2 Cấu tạo từ 10 1.3.3 Nhập nhằng 12 1.4 Mô hình tổng quát toán phân loại văn tiếng Việt 12 1.4.1 Yêu cầu toán phân loại văn 12 1.4.2 Cấu trúc chương trình 13 Hình 1.1 Cấu trúc chương trình 13 1.5 Các nghiên cứu toán phân loại văn 17 1.5.1 Các phương pháp phân loại văn tiếng Anh 18 1.5.2 Các nghiên cứu phân loại văn tiếng Việt 20 1.6 Mô tả phương pháp nghiên cứu luận văn 23 54 máy học (các tham số w, b tối ưu) học cách tự động trình huấn luyện SVM Những phân tích cho thấy SVM có nhiều điểm phù hợp cho việc ứng dụng phân loại văn thực tế, thí nghiệm phân loại văn tiếng Anh SVM đạt độ xác phân loại cao tỏ xuất sắc so với phương pháp phân loại văn khác 3.4 Thiết kế chương trình thử nghiệm 3.4.1 Giới thiệu chương trình Chương trình cài đặt ngôn ngữ visual C# C++ Visual Studio 2013 Chương trình chạy kiểm tra máy tính Asus chạy hệ điều hành windows 7, với cấu hình chip Intel Core i5, Ram 4Gb Bộ từ điển dùng cho việc biểu diễn huấn luyện văn lấy từ dự án từ điển mã nguồn mở Anh – Việt, Việt – Anh tham khảo từ từ điển mã nguồn mở dự án cấp nhà nước xử lý ngôn ngữ tự nhiên tiếng việt VLSP chia sẻ trang http://www.vlsp.vietlp.org Bộ từ điển tương đối lớn với số lượng từ 100.000 từ Ngoài chương trình tham khảo mã nguồn mở khác mã nguồn tách từ tiếng việt DongDu tác Lưu Tuấn Anh Yamamoto Kazuhide, thư viện mã nguồn mở SVM.Net tác giả Matthew Johnson (http://www.matthewajohnson.org/software/svm.html) để xây dựng thành công chương trình hỗ trợ phân loại văn tiếng việt Chương trình xây dựng phân loại cho chủ đề văn Giáo dục, Công nghệ thông tin – viễn thông, Pháp Luật, Quân Sự, Thể Thao Các nguồn văn lấy từ trang báo điện tử http://dantri.com.vn, http://vnexpress.net, http://vietnamnet.vn Thư viện svm.net (được chuyển đổi từ thư viện libsvm hai tác giả Chih-Chung Chang and Chih-Jen Lin) hỗ 55 trợ phân loại đa lớp (multi-label Categorization) Chương trình xây dựng thành modules Module tách từ theo phương pháp pointwise, viết C++ Module tham khảo sử dụng mã nguồn thư viện Dongdu, Module Huấn luyện Văn Module Phân loại văn Mô hình chi tiết toán miêu tả hình đây: Từ điển thô Vector hóa văn Tách câu (sử dụng thư viện sentDetector) Module học máy Dữ liệu học Tách từ (Module Tách từ Pointwise) Dữ liệu kiểm tra Loại bỏ từ dừng Module phân loại văn Thống kê tần suất từ Tiền xử lý văn Từ điển rút gọn + hàm đặc trưng Kết SVM Hình 3.5 Mô hình giải toán 3.4.2 Thư viện Dongdu svm.net Như phần 3.4.1 giới thiệu, chương trình có tham khảo sử dụng mã nguồn Dongdu svm.net để xây dựng chương trình phân loại văn tiếng việt Trong phần này, tác giả trình bày sơ lược hai thư viện mã nguồn mở 56 3.4.2.1 Thư viện Dongdu Dongdu phần mềm tách từ dành cho Tiếng Việt, chương trình tách từ phương pháp pointwise tác giả giới thiệu chương II luận văn này, viết ngôn ngữ C++ hai tác giả Lưu Tuấn Anh Yamamoto Kazuhide Chương trình Dongdu viết chạy Hệ điều hành Linux Dongdu bao gồm hai chương trình predictor dùng để tách từ learner dùng cho học máy Quá trình tách từ : Predictor –i input_file –o output_file Trong đó: + Input_file file đầu vào cần tách từ + Output_file file lưu kết sau tách từ Quá trình học máy: learner -i corpus_link -o model&map_folder_path -w window_length Trong đó: + Corpus_link: file liệu đầu vào cho việc học máy Cấu trúc file trình bày mục 2.4 Những đặc trưng phương pháp pointwise + Model&map_folder_path: đường dẫn thư mục mà file model map lưu sau học máy 57 + Window_length: giá trị tham số cửa số w 3.4.2.2 Thư viện SVM.Net Thư viện SVM.Net phiên chuyển đổi thư viện libsvm (viết ngôn ngữ C++ Java) để chạy Microsoft Đây thư viện đơn giản, dễ sử dụng hiệu phân lớp SVM hồi qui Nó giải phân lớp C-SVM, nu-SVM, hồi qui epsilon-SVM hồi qui nu-SVM Nó cung cấp công cụ lựa chọn mô hình tự động phân lớp C-SVM Định dạng file huấn luyện file kiểm thử : : : Trong đó: + giá trị đích tập huấn luyện Đối với việc phân lớp, số nguyên xác định lớp Đối với hồi qui, số thực + số nguyên 1, vị trí từ từ điển + số thực, tần suất xuất từ văn Thư viện SVM.Net có hai module svm-train dùng để huấn luyện văn svm-predict dùng để phần loại văn Huấn luyện văn bản: svm-train [options] training_set_file [model_file] Trong đó: 58 options: có nhiều tùy chọn có số tùy chọn quan trọng sau: + s svm_type: kiểu SVM (default 0) C-SVC nu-SVC -one-class SVM epsilon-SVR nu-SVR + t kernel_type: kiểu hàm kernel(default 2) linear: u'*v -polynomial: (gamma*u'*v + coef0)^degree radial basis function: exp(-gamma*|u-v|^2) sigmoid: tanh(gamma*u'*v + coef0) + d degree: bậc hàm kernel (default 3) -g gamma : giá trị gamma kernel function (default 1/k) + r coef0: giá trị coef0 kernel function (default 0) + c cost: tham số C C-SVC, epsilon-SVR, and nu-SVR (default 1) + n nu: tham số nu nu-SVC, one-class SVM, and nu-SVR (default 0.5) + p epsilon: giá trị epsilon hàm loss epsilon-SVR (default 0.1) + m cachesize: kích thước cache nhớ tính theo MB (default 40) + e epsilon: dung sai (tolerance) tiêu chuẩn thoát (termination criterion) (default 0.001) Phân loại văn bản: svm-predict [options] test_file model_file output_file Trong đó: + model_file file mô hình sinh svm-train 59 + Test_file file liệu test mà ta muốn đánh giá svm-predict đưa file output_file 3.4.3 Nguồn liệu Toàn liệu dùng để huấn luyện kiểm thử chương trình lấy từ nguồn trang báo điện tử http://dantri.com.vn, http://vnexpress.net, http://vietnamnet.vn Vì mục đích chương trình thử nghiệm thuật toán svm, tác giả giả sử việc phân loại trang báo xác để dễ dàng kiểm tra kết sau thực học máy phân loại văn chương trình Toàn nguồn liệu dùng để huấn luyện kiểm thử xử lý thô tay Toàn liệu bóc tách nội dụng trang web lưu lại định dạng txt để làm đầu vào cho chương trình Dữ liệu lưu trữ dạng font unicode Bảng 3.1 Bảng liệu huấn luyện liệu kiểm tra Chủ đề Dữ liệu huấn luyện Dữ liệu kiểm tra CNTT 60 20 Giáo Dục 60 20 Pháp Luật 60 20 Quân Sự 60 20 Thể Thao 60 20 Toàn 300 100 Mỗi chủ đề chuẩn bị 80 file liệu, 60 file dùng để huấn luyện, 20 file dùng để phân loại Như liệu dùng để kiểm thử chương trình 400 file liệu, có 300 file dùng để huấn luyện 60 100 file dùng để kiểm tra tính đắn chương trình Toàn liệu huấn luyện kiểm thử đính kèm mã nguồn chương trình Trong đó, liệu dùng để huấn luyện lưu thư mục TrainingData, liệu dùng để kiểm thử lưu thư mục TestData 3.5 Kết đạt Với liệu huấn luyện chưa thật lớn chương trình chạy cho kết tương đối xác Trong 100 file dùng để kiểm thử liệu huấn luyện chương trình, có 94 file cho kết phân loại xác đạt tỉ lệ 94% Đây kết chấp nhận chương trình hỗ trợ phân loại văn tiếng việt Kết chi tiết thống kê bảng đây: Bảng 3.2 Kết phân loại chương trình Chủ đề Số phân loại Số phân loại sai Tỉ lệ CNTT 16 80% Giáo Dục 18 02 90% Pháp Luật 20 100% Quân Sự 20 100% Thể Thao 20 100% Toàn 94 94% Một số hình ảnh chương trình 61 Hình 3.6 Huấn luyện cho thuật toán tách từ pointwise Hình 3.7 Lựa chọn cấu hình cho việc phân loại văn 62 Hình 3.8 Huấn luyện văn với bước tiền xử lý Hình 3.9 Huấn luyện văn 63 Hình 3.10 Phân loại văn Hình 3.11 Biểu diễn vector văn 64 Hình 3.12 Mô hình huấn luyện văn chủ đề Hình 3.13 Kết phân loại văn tập kiểm tra 65 KẾT LUẬN KIẾN NGHỊ Kết luận Sau thời gian nghiên cứu, tìm hiểu toán tác giả nắm vững ý tưởng toán phân loại văn tiếng Việt Cụ thể tác giả sâu nghiên cứu phương pháp pointwise tách từ tiếng Việt phân loại SVM Tác giả xây dựng thành công chương trình hỗ trợ phân loại văn tiếng Việt dựa phương pháp Mặc dù chương trình chưa đạt tỷ lệ cao nhất, đáp ứng so với yêu cầu toán điều kiện thực tế Kiến nghị Do điều kiện nghiên cứu hạn chế nên kết phân loại văn nghiên cứu chưa tốt (94%), dựa vào ưu điểm bật pointwise tốc độ xử lý nhanh, đơn giản dễ hiểu với người bắt đầu Ngoài ra, ưu điểm học máy liệu không đầy đủ ưu điểm quan trọng Dựa ưu điểm này, ta phát triển thêm nhiều hướng nghiên cứu tách từ dựa phân loại lớp tạo liệu Tác giả tiếp tục trình đến đạt kết mong muốn đạt xác cao Phương pháp thường đánh giá hiệu thích hợp nhiều vấn đề xử lý ngôn ngữ tự nhiên Cuối em xin gửi lời cảm ơn chân thành với đóng góp tận tình, xâu sắc Ts Lê Đình Sơn thầy cô giáo khoa Công nghệ thông tin, Học viện Kỹ thuật Quân bạn bè đồng nghiệp, tập thể lớp cao học K24 giúp đỡ để tác giả hoàn thành luận văn 66 TÀI LIỆU THAM KHẢO Tiếng Việt Đinh Điền (2004) Giáo trình xử lý ngôn ngữ tự nhiên, Đại học khoa học tự nhiên Tp.HCM Đinh Thị Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng, Phương án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt, nguyên lý giải thuật, thử nghiệm đánh giá kết quả, Bài báo gửi đăng Tạp chí khoa học công nghệ, Hà Nội, 2005 Đỗ Bích Diệp (2004), Phân loại văn dựa mô hình đồ thị, Trường Đại học Tổng Hợp New South Wales, Australia Đồng Thị Bích Thủy, Hồ Bảo Quốc Ứng dụng xử lý ngôn ngữ tự nhiên hệ tìm kiếm thông tin văn tiếng Việt, Đại học Khoa học tự nhiên Tp HCM Huỳnh Quyết Thắng, Đinh Thị Phương Thu (2005), “Tiếp cận phương pháp học không giám sát học có giám sát với hai văn mô hình vector”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến Cơ sở ngôn ngữ học tiếng Việt Nxb Giáo dục, Hà Nội, 1997, trang 142–152 Nguyễn Linh Giang, Nguyễn Duy Hải, “Mô hình thống kê hình vị tiếng Việt ứng dụng”, Chuyên san “Các công trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thông, Tạp chí Bưu Viễn thông, số 1, trang 6167 1999, 7/1999 Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn Tiếng Việt với vector hỗ trợ SVM, Đại học Bách khoa Hà Nội, 2005 67 Nguyễn Trần Thiên Thanh, Trần Khải Hoàng, Tìm hiểu hướng tiếp cận toán phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử, Đại học khoa học tự nhiên, Tp HCM 2005 10 Nguyễn Ngọc Bình, “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04 Hà nội 2004 11 Vũ Đình Điệp (2011), Nghiên cứu phương pháp phân loại văn theo chủ đề có khai thác thông tin ngữ nghĩa, Học viện Kỹ thuật quân 12 Vũ Thanh Nguyên, Trần Nhật Quang, Ứng dụng thuật toán phân lớp rút trích thông tin văn FSVM Internet, Tạp chí phát triển KH&CN, Tập 12, số 05-2009 Tiếng Anh 13 Chih-Hao Tsai 92000), MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm Web publication at http://technology.chtsai.org/mmseg/ 14 Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation, The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan 2001, pp749-756 15 H Nguyen, H Nguyen, T Vu, N Tran, K Hoang, Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future, the 3rd International Conference in Computer Science, (RIVF 2005), Can Tho, Vietnam, 2005 16 JOACHIMS, Text categorization with Support Vector Machines: Learning with many relevant features, Technical Report 23, LS VIII, University of Dortmund, 1997 17 Le An Ha (2003), A method for word segmentation in Vietnamese, Proceedings of Corpus Linguistics 2003, Lancaster, UK 68 18 Lưu Tuấn Anh, Yamamoto Kazuhide (2012), Poinwise for Vietnamese Word Segmentaion, Nagaoka University of Technology, Japan 19 V Vapnik (2000), Nature of statistical learning theory, Springer-Verlag 20 V N Vapnik, A Ya Chervonenkis (1974), Teoria Raspoznavaniya Obrazov, Nauka 21 Yiming Yang, Xin Liu, A re-examination for text categorization methods Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999 22 http://viet.jnlp.org/home 23 http://www.csie.ntu.edu.tw/~cjlin/ ... Xây dựng ứng dụng hỗ trợ phân loại văn tiếng Việt dựa phương pháp pointwise phân loại SVM Tóm tắt: Luận văn nghiên cứu toán phân loại văn bản, áp dụng với tiếng Việt Qua việc nghiên cứu với phương. .. ứng dụng hỗ trợ phân loại văn tiếng Việt dựa phương pháp pointwise phân loại SVM Mục tiêu đề tài: + Tìm hiểu số phương pháp tách từ tiếng Việt + Tìm hiểu số phương pháp phân loại văn tiếng Việt. ..BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ HÀ HẢI ĐĂNG XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP POINTWISE VÀ BỘ PHÂN LOẠI SVM Chuyên

Ngày đăng: 02/04/2017, 08:26

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • Chương 1

  • TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN

    • 1.1. Một số định nghĩa trong văn bản và ngôn ngữ

      • 1.1.1. Các cấp độ ngôn ngữ

      • 1.1.2. Quan hệ trong ngôn ngữ

      • 1.2. Phân loại ngôn ngữ

        • 1.2.1. Phân loại theo cội nguồn

        • 1.2.2. Phân loại theo loại hình

        • 1.2.3. Phân loại theo thứ tự của ngôn ngữ

        • 1.3. Các đặc điểm cơ bản của tiếng Việt

          • 1.3.1. Tiếng – đơn vị cấu tạo nên từ

            • Bảng 1.1. Bảng cấu trúc của tiếng trong tiếng Việt

            • 1.3.2. Cấu tạo từ

            • 1.3.3. Nhập nhằng

            • 1.4. Mô hình tổng quát của bài toán phân loại văn bản tiếng Việt

              • 1.4.1. Yêu cầu đối với bài toán phân loại văn bản

              • 1.4.2. Cấu trúc chương trình

                • Hình 1.1. Cấu trúc chương trình

                • 1.5. Các nghiên cứu đối với bài toán phân loại văn bản

                  • 1.5.1. Các phương pháp phân loại văn bản tiếng Anh

                  • 1.5.2. Các nghiên cứu đối với phân loại văn bản tiếng Việt

                  • 1.6. Mô tả phương pháp nghiên cứu trong luận văn

                  • Chương 2

                  • PHƯƠNG PHÁP TIỀN XỬ LÝ TRONG PHÂN LOẠI VĂN BẢN

                    • 2.1. Tầm quan trọng của bước tiền xử lý trong phân loại văn bản

                      • 2.1.1. Tách câu

                      • 2.1.2. Tách từ

                      • 2.2. Một số phương pháp tách từ tiếng Việt

                        • 2.2.1. Phương pháp khớp nối tối đa Muximun Matching: forward/backward

                        • 2.2.2. Phương pháp giải thuật học cải biến (Tranformation based learning)

Tài liệu cùng người dùng

Tài liệu liên quan