Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)

71 270 0
Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm String Kernel (LV thạc sĩ)

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐẶNG ĐÌNH TUYẾN PHÂN LỚP VĂN BẢN NHỜ MÁY VÉC HỖ TRỢ VỚI HÀM STRING KERNEL Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS.Nguyễn Tân Ân THÁI NGUYÊN - 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CẢM ƠN Luận văn hoàn thành trường Đại học Công nghệ Thông tin Truyền thông Thái Nguyên Tác giả luận văn xin bày tỏ lòng biết ơn sâu sắc tới thầy hướng dẫn khoa học: PGS.TS Nguyễn Tân Ân tận tình hướng dẫn, giúp đỡ tạo điều kiện để tác giả thực luận văn Tác giả xin chân thành cảm ơn tập thể thầy cô giáo khoa CNTT, phòng quản lý sau đại học Trường Đại học Công nghệ Thông tin Truyên thông Thái Nguyên tạo điều kiện giúp đỡ cho tác giả nghiên cứu, học tập hoàn thành luận văn Xin cảm ơn gia đình, bạn bè, đồng nghiệp tạo điều kiện thuận lợi tinh thần vật chất cho tác giả hoàn thành luận văn Xin cảm ơn tất cả! Thái Nguyên, tháng năm 2016 Tác giả luận văn Đặng Đình Tuyến Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii LỜI CAM ĐOAN Tôi Đặng Đình Tuyến, học viên cao học K13, chuyên ngành Khoa học máy tính, khoá 2014-2016 Tôi xin cam đoan luận văn thạc sĩ “Phân lớp văn nhờ Máy Véc-tơ hỗ trợ (SVM) với hàm string kernel” công trình nghiên cứu riêng với hướng dẫn PGS.TS Nguyễn Tân Ân Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, việc chép tài liệu, công trình nghiên cứu người khác mà không rõ tài liệu tham khảo Thái Nguyên, tháng năm 2016 Tác giả Đặng Đình Tuyến Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC HÌNH ẢNH vi DANH MỤC BẢNG BIỂU vii CHƯƠNG 1: BÀI TOÁN PHÂN LỚP 1.1 Nội dung toán phân lớp 1.2 Các phương pháp phân lớp 1.2.1 Phương pháp Naïve Bayes (NB) 1.2.2 Phương pháp K–Nearest Neighbor (kNN) 1.2.3 Neural Network (NNet) 1.2.4 Centroid- based vector 1.3 Máy véc-tơ hỗ trợ (Support Vector Machine SVM) 1.3.1 Bài toán phân loại SVM 1.3.2 Ý tưởng SVM 1.3.3 Phương pháp tìm α*, b 16 1.3.4 SVM toán nhiều lớp 21 1.3 Kết luận 24 CHƯƠNG 2: NHỮNG KIẾN THỨC CƠ SỞ 25 2.1 Hàm Kernel 25 2.1.1 Không gian gốc, không gian đặc trưng 25 2.1.2 Định nghĩa kernel 26 2.1.3 Một số ví dụ Ф k(,) .26 2.1.4 Một số hàm kernel .28 2.1.5 Định lý 30 2.1.6 Kernel độ đo giống hai đối tượng 31 2.1.7 Kernel trick 32 2.1.8 Xây dựng kernel 32 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v 2.1.9 Nhân hóa số phương pháp phân lớp 34 2.2 String kernel 39 2.2.1 Kernel dựa mô hình k_gram 39 2.2.2 Kernel dựa trọng số xâu 41 2.2.3 Tính string kernel dùng quy hoạch động .43 2.2.4 Kernel dựa độ giống hai xâu 44 2.2.5 Một số đặc trưng Tiếng Việt 45 2.3 Kết luận 48 CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN SVM CHO BÀI TOÁN TÌM KIẾM VĂN BẢN 49 3.1 Mô tả toán 49 3.2 Phân tích, cài đặt thuật toán 49 3.2.1 Thuật toán huấn luyện để tìm từ khóa 49 3.2.2 Thuật toán sử dụng từ khóa tìm kiếm văn 57 3.3 Kết luận 61 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC HÌNH ẢNH Hình 1.1: Kiến trúc mô đun (Modular Architecture) Các kết mạng giá trị đầu vào cho mạng siêu chủ đề nhân lại với để dự đoán chủ đề cuối .6 Hình 1.2: Các trường hợp siêu mặt h phân chia tập liệu D SVM .8 Hình 1.3: Siêu mặt phân chia tập mẫu huấn luyện với lớp lớp + hình vuông lớp – hình tròn .9 Hình 1.4: Siêu phẳng tuyến tính phân chia liệu, m khoảng cách hai lề 10 Hình 1.5: Nguyên lý phương pháp một-chọi-phần lại cho ba lớp 22 Hình 1.6: Nguyên lý phương pháp phân chia môt-chọi-một 22 Hình 1.7: Biểu diến phương pháp END để phân chia ba trạng thái toán dự đoán phân lớp 24 Hình 2.1: Mỗi điểm liệu ánh xạ hàm không tuyến tính Ф từ không gian liệu X vào không gian đặc trưng F Trong Ф(x) Ф(o) véc-tơ đặc trưng điểm liệu gốc x o .26 Hình 2.2: Ánh xạ liệu từ không gian đầu vào R2 sang không gian liệu R3 .27 Hình 2.3: Kernel đa thức bậc hai ánh xạ từ không gian hai chiều vào không gian đặc trưng chiều 29 Hình 2.4: Dữ liệu tách thành hai lớp không gian ban đầu 31 Hình 3.1: Trang web Du lịch Khát vọng Việt 50 Hình 3.2: Trang web taxinoibaiphuonglong.com .52 Hình 3.3: Trang web vietnamtourism.com .55 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC BẢNG BIỂU Bảng 3.1: Bảng thống kê từ đặc trưng từ Đoạn mẫu .50 Bảng 3.2: Tính toán tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) 51 Bảng 3.3: Bảng thống kê từ đặc trưng từ Đoạn mẫu 52 Bảng 3.4: Tính toán tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) 54 Bảng 3.5: Bảng thống kê từ đặc trưng từ Đoạn mẫu 55 Bảng 3.6: Tính toán tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) 56 Bảng 3.7: Bảng tổng hợp 56 Bảng 3.8: Số lần xuất từ văn huấn luyện .59 Bảng 3.9: Bảng phân nhóm với nhãn “Vịnh Hạ Long” 59 Bảng 3.10: Bảng phân nhóm với nhãn “Di sản” 60 Bảng 3.11: Bảng phân nhóm với nhãn “đảo” 60 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn CHƯƠNG 1: BÀI TOÁN PHÂN LỚP 1.1 Nội dung toán phân lớp Phân lớp (classification) tiến trình xử lý nhằm xếp mẫu liệu hay đối tượng vào lớp định nghĩa trước Các mẫu liệu hay đối tượng xếp lớp dựa vào giá trị thuộc tính (attributes) cho mẫu liệu hay đối tượng Sau xếp tất đối tượng biết trước vào lớp tương ứng, lúc lớp đặc trưng tập thuộc tính đối tượng chứa lớp Ví dụ: phân lớp văn bản, tế bào để xác định tế bào ung thư Phân lớp gọi phân lớp có giám sát (supervised classification), lĩnh vực phổ biến học máy (machine learning) khai thác liệu (data mining) Nó giải việc xác định quy tắc số lượng biến số độc lập kết đạt hay biến số xác định phụ thuộc tập liệu đưa Tổng quát, đưa tập mẫu học x ,x i1 i2  , , xik , yi , i=1,….,N, nhiệm vụ phải ước lượng phân lớp hay mô hình xấp xỉ hàm y = f(x) chưa biết mà phân lớp xác cho mẫu thuộc tập mẫu học Có nhiều cách để biểu diễn mô hình phân lớp có nhiều thuật toán giải Các thuật toán phân lớp tiêu biểu bao gồm mạng neural, định, suy luận quy nạp, mạng Beyesian, Support Vector Machine… Tất cách tiếp cập xây dựng mô hình có khả phân lớp cho mẫu chưa biết dựa vào mẫu tương tự học Bài toán phân lớp xử lý thông tin thu thập từ lĩnh vực hoạt động người giới tự nhiên biểu diễn dạng bảng Bảng bao gồm đối tượng thuộc tính Các phần tử bảng giá trị xác định thuộc tính (attributes hay features) đối tượng Trong số cột số thuộc tính đối tượng, cột thuộc tính số dòng số đối tượng chứa liệu Mọi liệu biểu diễn dạng khác chuyển thành dạng bảng để thực trình phân lớp Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 1.2 Các phương pháp phân lớp 1.2.1 Phương pháp Naïve Bayes (NB) NB phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học (Mitchell trình bày năm 1996, Joachims trình bày năm 1997 Jason năm 2001) sử dụng lần lĩnh vực phân loại Maron vào năm 1961, sau trở nên phổ biến dùng nhiều lĩnh vực công cụ tìm kiếm (được mô tả năm 1970 Rijsbergen), lọc mail (mô tả năm 1998 Sahami) * Ý tưởng Ý tưởng cách tiếp cận Naïve Bayes sử dụng xác suất có điều kiện từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Với giả định NB không sử dụng phụ thuộc nhiều từ vào chủ đề, không sử dụng việc kết hợp từ để đưa phán đoán chủ đề việc tính toán NB chạy nhanh phương pháp khác với độ phức tạp theo hàm số mũ * Công thức Mục đích tính xác suất Pr(Cj,d′), xác suất để văn d′ nằm lớp Cj Theo luật Bayes, văn d′ gán vào lớp Cj có xác suất Pr(Cj, d′) cao Công thức sau dùng để tính Pr(Cj,d′) (do Joachims đề xuất năm 1997) H BAYES    d' d' '  Pr(C j )  Pr(w i | C j )   Pr(C j )  Pr(w i | C j ) IF (w,d ) i 1 i 1   arg max   arg max  d' d' ' '  C j C C j C  ' '  ' ' IF ( w , d ) Pr( C )  Pr(w | C ) Pr( C )  Pr(w | C ) i i    i 1 i 1  C 'C   C 'C Với:  (TF,d’) số lần xuất từ wi văn d′  |d′| số lượng từ văn d′  wi từ không gian đặc trưng F với số chiều |F| Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn       Pr(Cj) tính dựa tỷ lệ phần trăm số văn lớp Pr(C j )  || C j || || C ||  || C j ||  || C ' || tương ứng với tập liệu huấn luyện C 'C  Pr(wi|Cj) tính sử dụng phép ước lượng Laplace ( Naplik trình bày năm 1982) Pr(w i | C j )   TF (w i , C j ) | F |   TF (w ' , C j ) w '| F | Ngoài có phương pháp NB khác kể sau ML Naive Bayes, MAP Naive Bayes, Expected Naive Bayes, Bayesian Naive Bayes (Jason mô tả năm 2001) Naive Bayes công cụ hiệu số trường hợp Kết tồi liệu huấn luyện nghèo nàn tham số dự đoán (như không gian đặc trưng) có chất lượng Nhìn chung thuật toán phân loại tuyến tính thích hợp phân loại văn nhiều chủ đề NB có ưu điểm cài đặt đơn giản, tốc độ nhanh, dễ dàng cập nhật liệu huấn luyện có tính độc lập cao với tập huấn luyện, sử dụng kết hợp nhiều tập huấn luyện khác Tuy nhiên NB giả định tính độc lập từ phải cần đến ngưỡng tối ưu kết khả quan Nhằm mục đích cải thiện hiệu NB, phương pháp multiclass- boosting, ECOC (do Berger trình bày năm 1999 Ghani mô tả lại năm 2000) dùng kết hợp 1.2.2 Phương pháp K–Nearest Neighbor (kNN) Đây phương pháp truyền thống tiếng hướng tiếp cận dựa thống kê nghiên cứu nhận dạng mẫu bốn thập kỷ qua (theo tài liệu Dasarathy năm 1991) kNN đánh giá phương pháp tốt (áp dụng tập liệu Reuters phiên 21450), sử dụng từ thời kỳ đầu việc phân loại văn (được trình bày Marsand năm 1992, Yang năm 1994, Iwayama năm 1995) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 50 Hình 3.1: Trang web Du lịch Khát vọng Việt Đoạn mẫu “Vịnh Hạ Long tiếng với hệ thống đảo hang động có tạo hình vô kì lạ, đảo giống hình người nhìn phía đất liến, đảo lại giống hình ông lão buông cần câu cá, tinh xảo đảo giống hình rồng bay lượn … đến với Vịnh Hạ Long bạn lạc vào giới cổ tích hóa đá Chăng mà vịnh Hạ Long vinh dự trở thành bảy kì quan thiên nhiên giới, không sai liên tiếp UNESCO công nhận di sản thiên nhiên Đó lý du lịch Hạ Long 2014 trở thành điểm thu hút khách nước” Trích nguồn [http://dulichkhatvongviet.com/tin-tuc/di-san-thien-nhien-the-gioi/vai-net-ve-vinhha-long] Bước 3: Huấn luyện tìm từ khóa đặc trưng Với số lượng văn lớn, từ có tần xuất văn thấp không coi đặc trưng Vì bước này, lựa chọn từ đặc trưng T từ Đoạn mẫu sau: T={ t  Dr |#t>= k IG(t,c)>= θ}, # t số lần xuất t toàn tập liệu huấn luyện Bảng 3.1: Bảng thống kê từ đặc trưng từ Đoạn mẫu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 51 STT Từ Tần xuất Vịnh Hạ Long đảo kỳ quan thiên nhiên đảo rồng di sản hang động Xét ví dụ từ đặc trưng sau: Vịnh Hạ Long Bước 4: Biểu diễn văn dạng véc Tính trọng số từ t T văn tập huấn luyện, công thức:  m  1  log  fij   log   w ij    hi  hi >=  0 Mỗi văn di biểu diễn véc xi = { Wi1, Wi2,…, Win}, Wịj trọng số từ từ tj văn di Bảng 3.2: Tính toán tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) STT Từ Vịnh Hạ Long Tần xuất Trọng số W 3 đảo 4 kỳ quan thiên nhiên 1 đảo 1 rồng 1 di sản 1 hang động 1 Xét đoạn mẫu 2: “Tiếp đảo sở hữu 1969 đảo lớn nhỏ, 989 đảo mang tên 980 đảo chưa sở hữu tên Đảo nơi gồm có hai Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 52 dạng đảo đá vôi đảo phiếm thạch tập trung Bái tử long vinh Hạ Long Ở thấy hàng loạt hang động đẹp danh Vùng Di sản thiên nhiên giới công nhận sở hữu khoảng trống 434 km2 bao gồm 775 đảo, hình tam giác mang đỉnh đảo Ðầu Gỗ (phía tây), hồ Ba Hầm (phía nam), đảo Cống Tây (phía đông) vùng kế bên khu vực đệm di tích danh thắng quốc gia Bộ Văn hóa Thông tin xếp hạng năm 1962.” [http://taxinoibaiphuonglong.com/thuyet-minh-ve-danh-lam-thang-canh-vinh-ha-long] Hình 3.2: Trang web taxinoibaiphuonglong.com Bước 1: Xây dựng tập từ điển Bước Thu thập đoạn văn mẫu để đưa vào huấn luyện Bước 3: Huấn luyện tìm từ khóa đặc trưng Bảng 3.3: Bảng thống kê từ đặc trưng từ Đoạn mẫu STT Từ Số hóa Trung tâm Học liệu – ĐHTN Tần xuất http://www.lrc.tnu.edu.vn 53 Vịnh Hạ Long đảo 12 kỳ quan thiên nhiên đảo rồng di sản hang động Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 Bước 4: Biểu diễn văn dạng véc Bảng 3.4: Tính toán tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) STT Từ Tần xuất Trọng số W Vịnh Hạ Long 1 đảo 12 12 kỳ quan thiên nhiên 0 đảo 1 rồng 0 di sản 1 hang động 1 Xét đoạn mẫu 3: “Vịnh Hạ Long nằm vùng Đông Bắc Việt Nam, phần phía tây Vịnh Bắc Bộ, bao gồm vùng biển thành phố Hạ Long, thành phố Cẩm Phả phần huyện đảo Vân Đồn Phía tây nam giáp đảo Cát Bà, phía tây giáp đất liền với đường bờ biển dài 120 km, Vịnh có tổng diện tích 1553 km2 gồm 1969 đảo lớn nhỏ, 989 đảo có tên 980 đảo chưa có tên Vùng Di sản Thế giới công nhận có diện tích 434 km2 bao gồm 775 đảo, hình tam giác với ba đỉnh đảo Đầu Gỗ (phía tây), hồ Ba Hầm (phía nam) đảo Cống Tây (phía đông) Vịnh Hạ Long di sản độc đáo địa danh chứa đựng dấu tích quan trọng trình hình thành phát triển lịch sử trái đất, nôi cư trú người Việt cổ, đồng thời tác phẩm nghệ thuật tạo hình vĩ đại thiên nhiên với diện hàng nghìn đảo đá muôn hình vạn trạng, với nhiều hang động kỳ thú quần tụ thành giới vừa sinh động vừa huyền bí Bên cạnh đó, vịnh Hạ Long nơi tập trung đa dạng sinh học cao với hệ sinh thái điển hình với hàng nghìn loài động thực vật vô phong phú, đa dạng Nơi gắn liền với giá trị văn hóa – lịch sử hào hùng dân tộc” [http://vietnamtourism.com/disan/index.php?catid=6] Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 55 Hình 3.3: Trang web vietnamtourism.com Bước 1: Xây dựng tập từ điển Bước Thu thập đoạn văn mẫu để đưa vào huấn luyện Bước 3: Huấn luyện tìm từ khóa đặc trưng Bảng 3.5: Bảng thống kê từ đặc trưng từ Đoạn mẫu STT Từ Vịnh Hạ Long Tần xuất đảo kỳ quan thiên nhiên đảo rồng di sản hang động Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 56 Bước 4: Biểu diễn văn dạng véc Bảng 3.6: Tính toán tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) STT Từ Tần xuất Trọng số W Vịnh Hạ Long 3 đảo 9 kỳ quan thiên nhiên 0 đảo 1 rồng 0 di sản 2 hang động 1 Qua ba tập liệu huấn luyện chương trình tính toán trích ba từ đặc trưng là: Vịnh Hạ Long, đảo, di sản Nhận xét: Với nhu cầu tìm kiếm thông tin du lịch Quảng Ninh dựa văn tìm từ khóa đặc trưng cho viết du lịch Quảng Ninh với trọng số sau: Bảng 3.7: Bảng tổng hợp Stt Từ khóa Văn Văn Văn Tổng số Cẩm Phả 0 1 rồng 0 danh thắng 1 đảo 13 di sản 1 di tích 1 hang động 1 đảo 0 huyện 0 1 10 kỳ quan thiên nhiên 0 11 Thành phố 0 1 12 Thế giới 0 1 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 57 13 thiên nhiên 1 14 Vân Đồn 0 1 15 Việt Nam 0 1 16 Vịnh Hạ Long Từ bảng thống kê ta lấy từ khóa sau: Độ dài véc - Từ Trọng số Vịnh Hạ Long di sản đảo 13 Như muốn tìm văn viết du lịch Quảng Ninh ta dùng từ khóa để tìm kiếm Tuy nhiên, liệu huấn luyện nhỏ ( sử dụng có 03 văn bản) từ khóa chưa thực đại diện tốt Nhưng phạm vi nghiên cứu với mục tiêu thử nghiệm thuật toán ta chấp nhận từ khóa 3.2.2 Thuật toán sử dụng từ khóa tìm kiếm văn Mục tiêu bước dùng từ khóa để tìm văn liên quan đến du lịch Quảng Ninh phân lớp giúp cho người dùng sử dụng thuận lợi Lưu đồ thuật toán sau Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 58 Bắt đầu Yes No Nhập từ khóa Tìm kiếm gán nhãn Phân nhóm Tiếp tục Đưa kết Kết thúc Theo lưu đồ, bước thực sau: Nhập vào từ khóa Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 59 Chạy chương trình tìm kiếm từ nguồn tin (có thể Internet) Gán nhãn văn tìm (ứng với tần suất xuất từ khóa) Phân nhóm văn dựa nhãn Cung cấp tài liệu phân nhóm Ứng dụng vào toán trên, nhập vào từ khóa “ Vịnh Hạ Long”, “Di sản”, “Đảo” Tìm kiếm Internet, 10 tài liệu, ta có kết sau : Bảng 3.8: Số lần xuất từ văn huấn luyện Số lần xuất Số TT Vịnh Hạ Long Di sản Đảo Tổng VB1 11 24 VB2 21 41 68 VB3 12 12 26 VB4 VB5 12 VB6 15 VB7 11 VB8 10 VB9 VB10 12 - Phân nhóm văn ứng với nhãn “Vịnh Hạ Long” Bảng 3.9: Bảng phân nhóm với nhãn “Vịnh Hạ Long” Số TT Số lần xuất nhóm VB1 VB2 21 VB3 12 VB4 4 VB5 VB6 VB7 VB8 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 60 VB9 VB8 - Phân nhóm văn ứng với nhãn “ Di sản” Bảng 3.10: Bảng phân nhóm với nhãn “Di sản” Số TT Số lần xuất nhóm VB1 VB2 VB3 2 VB4 VB5 VB6 VB7 VB8 2 VB9 VB10 - Phân nhóm văn ứng với nhãn “ đảo” Bảng 3.11: Bảng phân nhóm với nhãn “đảo” Số TT Số lần xuất nhóm VB1 41 VB2 11 VB3 12 VB4 VB5 3 VB6 VB7 3 VB8 VB9 VB10 3 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 61 Nhận xét: Khi ta sử dụng từ khóa huấn luyện với khóa nhóm sử dụng cho tìm kiếm Để tìm kiếm xác hơn, dùng từ khóa phụ để tìm kiếm xác văn bản, từ khóa phụ chọn xây dựng văn tác giả đưa vào cách có chủ định để tăng tốc độ tìm kiếm (như kỹ thuật SEO tạo website) Khi người dùng vào nhóm chọn phân loại theo thuật toán Khi muốn tìm xác văn người dùng nhập từ khóa đặc trưng chọn văn cần tìm Tuy nhiên nội dung không thuộc phạm vi đề tài 3.3 Kết luận Như chương giới thiệu cách tổng quát phương pháp phân loại phương pháp thống kê máy véc hỗ trợ SVM, giới thiệu cách tiếp cận giải toán cụ thể phân loại văn theo nội dung cần tìm kiếm Ở phần cài đặt thử nghiệm tiến hành thực nghiệm phần mềm Weka Khi sử dụng thư viện Libsvm 2.84 tích hợp phần mềm để phân lớp đòi hỏi liệu huấn luyện đầu vào phải chuẩn hóa dạng tệp có phần mở rộng ARFF cho kết sau: STT Hàm nhân Độ xác Linear 91.967 Polynomial 56.024 Radial basic function 95.180 Sigmoid 94.578 Từ kết ta thấy với toán phân loại văn sử dụng hàm nhân RBF cho ta độ xác phân loại cao Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 62 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Trong luận văn này, tìm hiểu nội dung liên quan đế hàm kernel định nghĩa hàm kernel, điều kiện để hàm kernel, phép toán hàm kernel, hàm kernel thường dùng Tiếp theo giới thiệu string kernel, giới thiệu cách xây dựng string kernel dùng toán quy hoạch động, dựa mô hình k_gram, dựa độ giống hai xâu Tiếp đến giới thiệu cách tổng quát phương pháp máy véc hỗ trợ SVM Giải toán phân loại văn với kết ghi lại bảng HƯỚNG PHÁT TRIỂN Trong thời gian tới, tiếp tục hoàn thiện chương trình Huấn luyện với nhiều liệu với nhiều lĩnh vực Để từ áp dụng việc phân loại cho nhiều toán khác… Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 63 TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Kim Ngân, PHÂN LOẠI VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINES, Đại học Bách Khoa Hà Nội, Hà Nội (2004) [2] Nguyễn Phương Thái, Nguyễn Văn Vinh, Lê Anh Cường, Một phương pháp phân đoạn từ tiếng Việt sử dụng mô hình Markov ẩn, khoa Công nghệ, đại học Quốc Gia Hà Nội, 2003 [3] Lodhi, C.Saunders, J.Shawe-Taylor, N.Cristianini, and C.Watkins Text classification using string kernel Juornal of Machine Learning Research, 2:419-440, 2002 [4] C Watkins Dynamic alignment kernel In A.J.Smola, P L Bartlett, B Sch olkopf, and D Schuurmans, editors, Advances in Large Margin Classifiers, page 39 – 50, Cambridge, MA, 2000 MIT Press [5] C.J.C Burges (1998), A tutorial on support vector machines for pattern recognition Data Mining Knowledge Discovery 2, 121–167 [6] H Drucker, C.J.C Burges, L Kaufman, A Smola, V Vapnik (1997) Support vector regression machines, in: M Mozer, M Jordan, T Petsche (Eds.), Advances in Neural Information Processing Systems, vol 9, MIT Press, Cambridge, MA, 1997, pp 155–161 [7] Lodhi, C Saunder, J Shawe-Taylor, N Cristianini and C Warkins (2002) Text classification using string kernel Jornal of Machine Learning Research, 2:419-440 [8] S Gunn (1998) Support Vector Machines for Classifcation and Regression, ISIS Tech Report, University of Southampton [9] Friedman J H (1996) Another approach to polychotomous classification Technical report, Department 0f Statistics, Stanford Linear Accelerator Center, Stanford University Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 64 [10] Hauke Tschach_y, 2004, Syllables and other String Kernel Extensions [11] Bernhard Scholkopf, Alexander Smola, and Klaus_Robert Muller Nonlinear Component Analysis as a Kernel Eigenvalua Problem [12] Liu Tzu-Jung, 2007 Seach Engine Research Report [13] http://dulichkhatvongviet.com/tin-tuc/di-san-thien-nhien-the-gioi/vai- net-ve-vinh-ha-long [14] http://taxinoibaiphuonglong.com/thuyet-minh-ve-danh-lam-thang-canhvinh-ha-long [15] http://vietnamtourism.com/disan/index.php?catid=6 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... 2.2 String kernel 39 2.2.1 Kernel da trờn mụ hỡnh k_gram 39 2.2.2 Kernel da trờn trng s ca cỏc xõu 41 2.2.3 Tớnh string kernel dựng quy hoch ng .43 2.2.4 Kernel. .. kernel .28 2.1.5 nh lý 30 2.1.6 Kernel l o ging gia hai i tng 31 2.1.7 Kernel trick 32 2.1.8 Xõy dng cỏc kernel 32 S húa bi Trung tõm Hc liu HTN... 25 2.1 Hm Kernel 25 2.1.1 Khụng gian gc, khụng gian c trng 25 2.1.2 nh ngha kernel 26 2.1.3 Mt s vớ d v v k(,) .26 2.1.4 Mt s hm kernel

Ngày đăng: 12/09/2017, 14:59

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan