Học bán giám sát SVM KNN phân lớp web và thử nghiệm đối với văn bản giao thông vận tải

3 353 1
Học bán giám sát SVM KNN phân lớp web và thử nghiệm đối với văn bản giao thông vận tải

Đang tải... (xem toàn văn)

Thông tin tài liệu

Học bán giám sát SVM-KNN phân lớp Web và thử nghiệm đối với văn bản Giao thông vận tải Hoàng Hải Yến Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS. TS. Hà Quang Thụy Năm bảo vệ: 2012 Abstract: Giới thiệu khái quát phương pháp phân lớp SVM và kNN. Giới thiệu phương pháp SVM-KNN phân lớp văn bản. Giới thiệu mô hình của thuật toán. Dựa vào mô hình ở chương 2, tiến hành thực nghiệm việc phân lớp văn bản tiếng Việt theo hai nhóm: nhóm văn bản liên quan tới ngành Giao thông vận tải và nhóm không liên quan. Để làm rõ mô hình cũng như 3 pha chính trong mô hình, các thực nghiệm trên các nội dung văn bản lấy tự động từ internet được tiến hành. Luận văn tập trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN. Keywords: Công nghệ thông tin; Phân lớp văn bản; Cơ sở dữ liệu Content TÓM TẮT Khối lượng khổng lồ các văn bản tiếng Việt trên mạng Internet đặt ra một thách thức nhằm phân lớp tự động hoặc bán tự động các văn bản này nhằm cung cấp những thông tin tập trung và có giá trị cho một ngành nghề cụ thể nào đó. Trong các phương pháp phân lớp văn bản phổ biến thì phương pháp SVM (Support Vertor Machine) được sử dụng với độ tin cậy cao. Tuy nhiên SVM không tối ưu hóa thời gian tính toán sai số lớn trong việc ước lượng khoảng giữa hai vector. Tức là khi các vector có số chiều lớn thì tốc độ của SVM bị hạn chế. Trong luận văn này, tôi nghiên cứu phương pháp lai giữa k-láng giềng gần (kNN) với SVM nhằm thực hiện phân đa lớp văn bản, lý do chính là nhằm tăng khả năng tính toán trong cả quá trình huấn luyện và thực hiện phân lớp, kết quả là phương pháp này đạt kết quả khá hơn trong thực tế thử nghiệm của luận văn. Nội dung luận văn gồm 3 chương: Chương 1: Giới thiệu khái quát phương pháp phân lớp SVM và kNN. Chương 2: Giới thiệu giải pháp chi tiết các thuật toán lai SVM-kNN theo hai phương pháp [5] và [7], quan điểm và các viễn cảnh cho các thuật toán lai SVM-kNN tương ứng. Giới thiệu mô hình của thuật toán. 2 Chương 3: Dựa vào mô hình ở chương 2, tiến hành thực nghiệm việc phân lớp văn bản tiếng Việt theo hai nhóm: nhóm văn bản liên quan tới ngành Giao thông vận tải và nhóm không liên quan. Để làm rõ mô hình cũng như 3 pha chính trong mô hình, các thực nghiệm trên các nội dung văn bản lấy tự động từ internet được tiến hành. Luận văn tập trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN Kết luận: Trong luận văn này tôi nghiên cứu một phương pháp lai giữa k-láng giềng gần (kNN) với SVM nhằm thực hiện phân đa lớp văn bản, lý do chính là nhằm tăng khả năng tính toán trong cả quá trình huấn luyện và thực hiện phân lớp, kết quả là phương pháp này đạt kết quả khá hơn trong thực tế thử nghiệm của luận văn. - Mô tả chi tiết các thuật toán SVM, kNN và thuật toán lai SVM-kNN theo hai phương pháp [5] và [7] cũng như quan điểm và các viễn cảnh cho các thuật toán lai SVM-kNN tương ứng. - Thực nghiệm việc phân lớp văn bản tiếng Việt liên quan tới ngành GTVT. Luận văn tập trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN Qua phân tích và đánh giá kết quả thực nghiệm đã cho thấy tính đúng đắn của phương pháp phân lớp bán giám sát SVM-kNN trong phân lớp văn bản tiếng Việt. Tuy nhiên trong quá trình thực nghiệm với phương pháp của luận văn đề ra tôi vẫn chưa đưa ra được chương trình tổng hợp nhằm thực hiện nhanh hơn thuật toán, thay vào đó tôi vẫn phải sử dụng cả ba chương trình riêng biệt để thực hiện thuật toán thủ công. Cũng do thời gian không cho phép tôi không thể thực nghiệm trên tập mẫu rộng hơn và nhiều lớp hơn nhằm đưa ra kết quả khách quan hơn nữa về thuật toán SVM-kNN. m những láng giềng gần với mẫu truy vấn và bước 2: huấn luyện cục bộ bằng SVM đối với từng nhóm. Như vậy phương pháp này vẫn bảo đảm được khoảng cách giữa các văn bản gần nhau. Phương pháp này có thể áp dụng được trong phạm vi rộng hơn, phân nhiều lớp dữ liệu, thực tế chứng minh nó làm tốt hơn từng thuật toán đơn lẻ (SVM và kNN), vẫn đạt được hiệu năng với những vấn đề mà SVM không thực hiện được. References Tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục, 2009. [2] Trần Thị Oanh (2008). Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt, Luận văn Thạc sỹ, Trường Đại học Công nghệ - ĐHQG Hà Nội, 2008. Tiếng Anh 3 [3] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen, and Quang-Thuy Ha (2009). Web Search Clustering and Labeling with Hidden Topics, ACM Transactions on Asian Language and Information Processing, 8 (3), 40 pp, 2009 [4] C. Chang and C J. Lin (2010). LIBSVM: a library for support vector machines, Technical Report, Initial version: 2001 Last updated: November 16, 2010, http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf, LIBSVM software library version 3.0 released on September 13, 2010, http://www.csie.ntu.edu.tw/~cjlin/libsvm/. [5] Hao Zhang, Alexander C. Berg, Michael Maire, Jitendra Malik (2006). SVM-KNN: Discriminative Nearest Neighbor Classification for Visual Category Recognition, CVPR (2) 2006: 2126-2136, 2006. [6] Xuan-Hieu Phan, Le-Minh Nguyen, Cam-Tu Nguyen, Trung-Kien Nguyen and Quang-Thuy Ha (2006). Vietnamese word segmentation with crfs and svms: An investigation, PACLIC20: 215-222, Wuhan, China, 2006. [7] Kunlun Li, Xuerong Luo, Ming Jin (2010). Semi-supervised Learning for SVM- KNN, JCP 5(5): 671-678, 2010. [8] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009). The WEKA Data Mining Software: An Update, SIGKDD Explorations, 11 (1), 2009. http://www.cs.waikato.ac.nz/ml/ weka/ [9] Miha Grcar, Blaz Fortuna, Blaz Fortuna (2005). kNN Versus SVM in the Collaborative Filtering Framework, ACM 1-59593-214-3 USA, 2005. [10] Y. Lee, Y. Lin, and G. Wahba (2004). Multicategory support vector machines, theory, and application to the classification of microarray data and satellite radiance data. Journal of the American Statistical Association, 99:67 - 81, 2004. [11] Yiming Yang , Jan O. Pedersen (1997). A Comparative Study on Feature Selection in Text Categorization, 1997. . Học bán giám sát SVM-KNN phân lớp Web và thử nghiệm đối với văn bản Giao thông vận tải Hoàng Hải Yến Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã. thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN Qua phân tích và đánh giá kết quả thực nghiệm đã cho thấy tính đúng đắn của phương pháp phân lớp bán giám sát SVM-kNN. phương pháp phân lớp SVM và kNN. Giới thiệu phương pháp SVM-KNN phân lớp văn bản. Giới thiệu mô hình của thuật toán. Dựa vào mô hình ở chương 2, tiến hành thực nghiệm việc phân lớp văn bản tiếng

Ngày đăng: 25/08/2015, 12:18

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan