xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu

39 986 5
xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Đức Hồng XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP TỐI ƯU KÍCH THƯỚC DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Anh Cường Nội dung trình bày • Đặt vấn đề • Các phương pháp học máy phân loại văn • Các phương pháp giảm chiều đặc trưng • Kết thực nghiệm • Kết luận Đặt vấn đề • • • • Giới thiệu Ứng dụng Mơ hình hóa toán Các vấn đề đặt luận văn Đặt vấn đề • Giới thiệu: Phân loại văn nhiệm vụ học có giám sát cho mợt số lớp văn bản xác định trước, yêu cầu gán nhãn cho văn vào một (hay một số) lớp văn bản thích hợp dựa vào nội dung văn • Ứng dụng: Hệ thống phân loại văn ứng dụng hệ thống lọc thư rác (mail spam), dịch máy, tóm tắt văn bản, tìm kiếm,… Mơ hình hóa tốn (tiếp) - Biểu diễn văn bản: Ví dụ: • Cho văn D = “Khi tất nghĩ hai đội mạnh Đông Nam Á sửa vào hai hiệp phụ bất ngờ đầu vàng Lê Cơng Vinh đội lên tích tắc mang cúp AFF cho đội tuyển Việt Nam ” • Được phân đoạn sau: • D = “Khi tất_cả nghĩ hai đội mạnh Đông_Nam_Á sắp_sửa vào hai hiệp_phụ bất_ngờ đầu vàng Lê_Cơng_Vinh đội lên tích_tắc mang cúp_AFF cho đội_tuyển Việt_Nam” • Tập từ khóa (bộ từ điển): “Thể_thao, Bóng_đá, Đội_tuyển, Đơng_Nam_Á, Cúp_AFF, Việt_Nam” Văn D biểu diễn phương pháp tần suất là: D = (0,0,1,1,1,1) Mơ hình hóa tốn (tiếp) - Biểu diễn tốn: n • Input space: X = {x1 , x2 , , xn } ∈ R • Output space: Y = {y1 ,y , ,y n } ∈{-1,+1} • Tập liệu huấn luyện: S = {(x1 ,y1 ),(x ,y ), ,(x n ,y n )} • Hàm f ánh xạ từ tập X vào tập Y • f: X→Y • Giải tốn phân loại tìm tối ưu hóa hàm f • Lớp hàm f lớp hàm tuyến tính Đặt vấn đề (tiếp) • Các vấn đề đặt luận văn: - Vấn đề giảm chiều đặc trưng - Sử dụng phương pháp học máy SVM Các phương pháp học máy phân loại văn • Các phương pháp: - Bayes (Mitchell, 1996) Cây định (Fuhr et al, 1991) Véc-tơ trọng tâm (Centroid- based vector) (Han Karypis, 2000) k-láng giềng gần (Yang, 1994) Mạng nơron (Wiener et al, 1995) Support vector machines (Joachims, 1998) Phân loại với SVM • Cho tập liệu { ( xi , yi ) | i = 1,2, , n, xi ∈ R , yi ∈{-1,+1} } n Mặt siêu phẳng lề tối ưu h(w, b) Các mẫu dương Các mẫu âm d (w, b, xi ) wxT + b = • Các mặt siêu phẳng có phương trình w véctơ trọng số, b độ dịch , Phân loại với SVM (tiếp) • Bộ phân loại SVM định nghĩa: f ( x) = sign(w T x + b) • • • f ( z ) = +1,if z ≤ f ( z ) = −1,if z < Trong Nếu f(x)=+1 x thuộc lớp dương (lĩnh vực quan tâm) Nếu f(x)=-1 x thuộc lớp âm (các lĩnh vực khác) Phương pháp LDA/GSVD • LDA tính tốn tối ưu hóa phép biến đổi cách cực tiểu hóa khoảng cách within-class cực đại hóa khoảng cách between-class nhằm đạt cực đại hóa phân tách lớp (class discrimination) • Phép biến đổi tối ưu LDA thực phân tích giá trị riêng ma trận phân tách Phương pháp LDA/GSVD (tiếp) (1) Ma trận phân tách lớp (Within-class scatter matrix) Hw = ∑1≤ i≤ r ∑ j (aj – ci ) (aj – ci )T N ∈i (2) Ma trận phân tách lớp (Between-class scatter matrix) Hb = ∑1≤ i≤ r ∑ j ∈ i (ci – c) (ci – c)T N (3) Ma trận tổng ma trận phân tách (Total scatter matrix) St = ∑1≤ i≤ n (ai – c ) (ai – c )T Với : Sw + Sb = St Thuật tốn giảm chiều LDA/GSVD • Input: Cho ma trận A∈ ¡ chuyên mục) mxn với k chủ đề (k H b =  n1 (c1 − c), , nk (ck − c)  ∈ ¡ mxk H w = [ ( A1 − e1e1 ), ,( Ak − ek ek ) ] ∈ ¡   T Hb  R  T Tính SVD Z = p  Q với Z =  T  ∈ ¡ ( k + n ) xm  HW  0 0   Lấy t = rank ( H ) T Tính SVD P (1: k ,1: t ) = U ∑ A W  R −1W  Tính (k − 1) cột ma trận X = Q  ÷ đặt kết I 0 vào ma trận G Y = G T A • Output: Y ∈ ¡ kxn mxn Dữ liệu văn huấn luyện Dữ liệu văn kiểm thử Xử lý liệu văn huấn luyện biểu diễn văn Xử lý liệu văn kiểm thử biểu diễn văn Ma trận Term-Doc Ma trận Term-Doc Biến đổi giảm chiều (LSI, Centroid, Centroid Orthogonal) Biến đổi giảm chiều (LSI, Centroid, Centroid Orthogonal) Ma trận Term-Doc (k

Ngày đăng: 02/07/2014, 21:56

Từ khóa liên quan

Mục lục

  • XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP TỐI ƯU KÍCH THƯỚC DỮ LIỆU

  • Nội dung trình bày

  • Đặt vấn đề

  • Slide 4

  • Mô hình hóa bài toán (tiếp)

  • Slide 6

  • Đặt vấn đề (tiếp)

  • Các phương pháp học máy phân loại văn bản

  • Phân loại với SVM

  • Phân loại với SVM (tiếp)

  • Slide 11

  • Slide 12

  • Sơ đồ tổng quan Hệ thống phân loại văn bản tiếng Việt

  • Slide 14

  • Ma trận Term-Doc

  • Slide 16

  • Bài toán giảm chiều đặc trưng (tiếp)

  • Phương pháp LSI/SVD

  • Slide 19

  • Thuật toán giảm chiều LSI/SVD

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan