Các phương pháp phân đoạn tiếng việt và ứng dụng

73 279 0
Các phương pháp phân đoạn tiếng việt và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - Năm 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i ĐẠI HOẠC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS BÙI VĂN THANH Thái Nguyên - Năm 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii MỤC LỤC Trang LỜI CẢM ƠN v LỜI CAM ĐOAN vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii DANH MỤC BẢNG viii DANH MỤC HÌNH ix MỞ ĐẦU Chƣơng TỔNG QUAN 1.1 KHÁI QUÁT VỀ TIẾNG VIỆT 1.1.1 Đặc điểm từ tiếng Việt 1.1.2 Các từ loại tiếng Việt 1.2 VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT 10 1.2.1 Từ vựng tiếng Việt 10 1.2.2 Tiếng – đơn vị cấu tạo lên từ 11 1.2.3 Cấu tạo từ 13 1.3 PHÂN ĐOẠN TỪ TIẾNG VIỆT BẰNG MÁY TÍNH 17 1.4 TỔNG KẾT CHƢƠNG 18 Chƣơng MỘT SỐ PHƢƠNG PHÁP PHÂN ĐOẠN VĂN BẢN TIẾNG VIỆT 19 2.1 MÔ HÌNH LRMM 19 2.1.1 Thuật toán Maximum Matching đơn giản 19 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii 2.1.2 Thuật toán Maximum Matching phức tạp 19 2.2 PHƢƠNG PHÁP WFST (Weighted Finite-State Transducer) 20 2.3 MÔ HÌNH HỌC MÁY CRF 23 2.3.1 Định nghĩa CRF 23 2.3.2 Hàm tiềm mô hình CRF 26 2.3.3 Conditional Random Fields 26 2.4 TỔNG KẾT CHƢƠNG 28 Chƣơng BÀI TOÁN PHÂN ĐOẠN TIẾNG VIỆT 29 3.1 PHÁT BIỂU BÀI TOÁN 29 3.1.1 Cấu trúc chƣơng trình 30 3.1.2 Tiền xử lý số liệu 32 3.1.3 Tách câu 34 3.1.4 Tách từ 36 3.1.5 Khử nhập nhằng 36 3.2 CÁC LOẠI NHẬP NHẰNG KHI TÁCH TỪ 36 3.2.1 Nhập nhằng so khớp cực đại FMM/BMM sinh 37 3.2.2 Nhập nhằng theo số loại khác 37 3.3 CÁCH KHỬ NHẬP NHẰNG 41 3.3.1 Cải tiến phƣơng pháp so khớp cực đại 41 3.3.2 Khử nhập nhằng theo số loại khác 43 3.4 TỔNG KẾT CHƢƠNG 50 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ 52 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv 4.1 KHO NGỮ LIỆU THỬ NGHIỆM VÀ CÁCH ĐÁNH GIÁ 52 4.2 QUY TRÌNH THỬ NGHIỆM 54 4.3 KẾT QUẢ THỬ NGHIỆM 55 4.4 GIAO DIỆN CHƢƠNG TRÌNH ỨNG DỤNG 56 KẾT LUẬN VÀ KIẾN NGHỊ 60 DANH MỤC TÀI LIỆU THAM KHẢO 62 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v LỜI CẢM ƠN Em xin chân thành cảm ơn Ban Giám hiệu, Phòng Đào tạo Sau Đại học, Khoa Công nghệ Thông tin Trƣờng Đại học công nghệ thông tin truyền thông Thái Nguyên tận tình giúp đỡ, tạo điều kiện thuận lợi cho em trình học tập, nghiên cứu thực luận văn Đặc biệt, em xin gửi lời tri ân sâu sắc đến TS Bùi Văn Thanh – ngƣời dành nhiều thời gian, công sức tận tình hƣớng dẫn khoa học cho em suốt trình hình thành hoàn chỉnh luận văn Xin chân thành cảm ơn Quý Thầy, Cô giảng dạy, truyền đạt cho em tri thức quý báu, thiết thực suốt khóa học Cuối xin bày tỏ lòng biết ơn gia đình, ngƣời thân, bạn bè, đồng nghiệp giúp đỡ, động viên, đóng góp ý kiến quý báu cho em việc hoàn thành luận văn Thái Nguyên, ngày tháng năm 2015 Tác giả Vũ Thị Hằng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng dƣới hƣớng dẫn trực tiếp TS.Bùi Văn Thanh Mọi trích dẫn sử dụng báo cáo đƣợc ghi rõ nguồn tài liệu tham khảo theo qui định Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Thái Nguyên, ngày tháng năm 2015 Tác giả Vũ Thị Hằng Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Tiếng Anh Từ viết tắt BMM Tên đầy đủ Back Maximum Matching Diễn giải Phƣơng pháp so khớp cực đại lùi Trƣờng ngẫu nhiên có điều CRFs FMM Conditional Random Fields kiện Forward Maximum Phƣơng pháp so khớp cực đại Matching tiến Left Right Maximum LRMM WEST Matching Phƣơng pháp so khớp cực đại Weighted Finite State Phƣơng pháp chuyển dịch Transducer trạng thái hữu hạn Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii DANH MỤC BẢNG Trang Bảng 1.1 Hệ thống từ loại tiếng Việt theo sách giáo khoa Ngữ văn THCS Bảng 1.2 Cấu trúc tiếng tiếng Việt 12 Bảng 2.1 Trọng số theo từ 22 Bảng 4.1 Bảng số liệu mục 53 Bảng 4.2 Kết thử nghiệm 55 Bảng 4.3 Kết phân đoạn 56 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ix DANH MỤC HÌNH Trang Hình 2.1 Đồ thị vô hƣớng chu trình 24 Hình 2.2 Đồ thị vô hƣớng mô tả cho CRF 25 Hình 2.3 Mô tả hàm tiềm 26 Hình 3.1 Mô hình toán phân đoạn tiếng Việt 30 Hình 3.2 Cấu trúc chƣơng trình phân đoạn tiếng Việt 31 Hình 4.1 Chọn chế độ lấy liệu mẫu 52 Hình 4.2 Chƣơng trình phân đoạn văn 54 Hình 4.3 Giao diện chƣơng trình 57 Hình 4.4 Chức phân đoạn văn 58 Hình 4.5 Kết sau phân đoạn văn 59 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 49 P(t1t2 t N ) P(t1 ) P(t2 | t1 ) P(t3 | t1t2 ) P(t N | t1 t N ) Ngƣời ta đƣa giả thiết đơn giản hóa cho phép thu gọn mô hình xác suất số hữu hạn tham biến Đỗi với P( wi | w1 wi , t1t2 tN ) , giả thiết khả xuất từ cho nhãn từ loại hoàn toàn xác định biết nhãn đó, nghĩa P ( wi | w1 wi , t1t2 t N ) = P ( wi | ti ) Nhƣ xác suất P( w1w2 wN | t1t2 t N ) phụ thuộc vào xác suất có dạng P( wi | ti ) P( w1w2 wN | t1t2 t N ) P( w1 | t1 ) P( w2 | t2 ) P( wN | t N ) Đối với xác suất P(ti | t1 ti ) , giả thiết khả xuất từ loại hoàn toàn xác định biết nhãn từ loại lân cận có kích thƣớc k cố định, nghĩa là: P(ti | t1 ti ) P(ti | ti k ti ) Trong trƣờng hợp k ta gọi xác suất P(ti | t1 ti ) xác suất bigram Nếu dùng độ đo MI để so sánh (ab)(c) (a)(bc) thì: max{MI(ab),MI(bc)} = min{1-MI(ab),1-MI(bc)} (3.7) Nhƣ vậy, tích hợp độ đo MI mức âm tiết vào công thức (3.2): score( wi ) MI ( wi ) LE ( wi ) (3.8) Trƣờng hợp này, công thức quy hoạch động là: wk min{SCk ( S )} i MI ( wki ) LE ( wki ) (3.9) 50 Các nhập nhằng ngữ cảnh thƣờng phụ thuộc từ trái, phải nhƣ trình bày phần trên, vậy, cách chọn theo xác suất bigram mức từ là: max{P(ab),P(bc)} = min{1-P(ab),1-P(bc)} (3.10) Nhƣ vậy, ta tích hợp vào công thức quy hoạch động (3.2) để giải nhập nhằng PB nhƣ sau: score( wi ) PB ( wi ) LE ( wi ) (3.11) Với quan điểm này, công thức quy hoạch động là: wk min{SCk ( S )} i PB ( wki ) LE ( wki ) (3.12) Cuối cùng, ta có công thức tích hợp LE(w), PB(w) MI(w) nhƣ sau: + Nếu PB(ab) PB(bc) thì: scorePM ( wi ) PB ( wi ) / LE ( wi ) (3.13) + Nếu PB(ab) = PB(bc) thì: scorePM (wi ) MI ( wi ) / LE ( wi ) Công thức quy hoạch động tích hợp LE(w), MI(w) PB(w) là: wk SCk (S ) scorePM (wki ) (3.14) i Nhƣ vậy, với công thức quy hoạch động tích hợp trên, giải đƣợc số loại nhập nhằng phân tích 3.4 TỔNG KẾT CHƢƠNG 51 Trong chƣơng nêu khái quát toán phân đoạn tiếng Việt dựa phƣơng pháp cực đại tiến phƣơng pháp cực đại lùi, ứng dụng phƣơng pháp khử nhập nhằng đặc biệt phƣơng pháp tích hợp dựa trọng số để khử nhập nhằng xử lý văn sau phân đoạn dựa phƣơng pháp cực đại tiến phƣơng pháp cực đại lùi 52 Chƣơng 4.THỬ NGHIỆM VÀ ĐÁNH GIÁ 4.1 KHO NGỮ LIỆU THỬ NGHIỆM VÀ CÁCH ĐÁNH GIÁ 4.1.1 Chuẩn bị số liệu Các số liệu lấy mẫu đƣợc lấy từ trang web http://vietnamnet.vn/ cách dùng chƣơng trình Teleport pro đƣợc cung cấp địa http://tenmax.com/ Khi lấy trang web cần để chế độ “Replicate the directory structure of remote server” để chƣơng trình lấy tất cấu trúc trang cần lấy lặp lại cấu trúc máy lấy về, việc làm để phân đoạn văn đƣợc dễ dàng Hình 4.1 Chọn chế độ lấy liệu mẫu Sau lấy số liệu đƣợc tách thành mục sau: 53 Bảng 4.1 Bảng số liệu mục Các số liệu font Unicode nên không cần phải chuyển font Các số liệu kiểm thử đƣợc láy từ trang http://vnexpress.net/vietnam/Home/ sử dụng chƣơng trình Teleport pro để chế độ “Replicate the directory structure of remote server” để lấy cấu trúc giống nhƣ lấy mẫu Từ điển tiếng Việt tệp đĩa cứng dạng văn (text), từ điển đƣợc rút từ hai từ điển Đinh Điền (977107 từ) từ điển chƣơng trình Vikass (73901 từ) loại bỏ từ trùng hai từ điển đƣợc từ điển sử dụng chƣơng trình có 107773 từ Từ điển từ nghĩa (từ hƣ –stop word) đƣợc lấy từ chƣơng trình Vikass có 805 từ 4.1.2 Mô tả chƣơng trình Chƣơng trình sử dụng ngôn ngữ lập trình C# Visual Studio 2010 hỗ trợ font chữ Uninode tiếng Việt đƣợc viết Window 54 Các sở liệu sử dụng chƣơng trình gồm: từ điển cho chƣơng trình, từ điển số liệu huấn luyện đƣợc dùng XML để chƣơng trình thực mà không phụ thuộc nhiều vào hệ thống thử nghiệm Tất số liệu đƣợc đính kèm vào thực thi (.exe) tập tin thƣ viện (.dll) lần đầu sử dụng số liệu liên quan đƣợc bung 4.2 QUY TRÌNH THỬ NGHIỆM Bƣớc Chạy chƣơng trình xuất giao diện chƣơng trình Hình 4.2 Chƣơng trình phân đoạn văn Từ giao diện thực chức nhƣ: 55 - Phân tích văn bản: đọc văn nhiều văn thực phân đoạn văn bản, kết đƣợc lữu trữ để kiểm tra - Huấn luyện: dùng để chạy tập tin mẫu phân tích đặc trƣng, rút kết đặc trƣng đƣa kết vào danh sách dùng làm mẫu để tăng hiệu phân đoạn văn - Từ điển: từ điển tiếng Việt, từ điển từ không quan trọng (từ hƣ – stop word) từ điển từ đồng nghĩa - CSDL Mẫu: Cơ sở liệu mẫu chuẩn dùng để phân loại thông số kèm với mẫu Khi liệu đƣợc chọn hệ thống thực bƣớc: - Gán từ đồng nghĩa nhƣng khác âm vào từ điển từ để tìm từ - Loại bỏ từ từ điển từ tồn từ điển từ hƣ (stop word) - Các từ từ điển cần phải tạo mục (index) để tăng tốc độ tìm kiếm 4.3 KẾT QUẢ THỬ NGHIỆM Chƣơng trình thử nghiệm sau huấn luyện thử nghiệm phân đoạn văn html đƣợc lấy từ trang http://vnexpress.net/ thƣ mục nhƣ sau: Bảng 4.2 Kết thử nghiệm 56 Để tổng kết đƣợc tạm thời coi nhƣ số liệu kiểm tra đƣợc xếp chuẩn hóa, kiểm tra mục (Xã hội) tạm thời so sánh với mục ChinhTri mẫu chuẩn Kết nhƣ sau: Bảng 4.3 Kết phân đoạn Mục Số câu Tổng số từ The-Gioi 2.500 5.234 Vi-Tinh 4.300 8.472 Xa-Hoi 5.600 10.268 Kinh-Doanh 3.400 7.543 4.4 GIAO DIỆN CHƢƠNG TRÌNH ỨNG DỤNG Chạy chƣơng trình ứng dụng ta có đƣợc giao diện chƣơng trình nhƣ sau: 57 Hình 4.3 Giao diện chƣơng trình Từ giao diện ta thực thao tác nhƣ thiết lập hệ thống, phân đoạn văn bản, huấn luyện, cập nhật từ điển, cập nhật sở liệu mẫu Khi chọn chức phân đoạn văn hệ thống mở cử sổ cho phép ngƣời dùng chọn tệp văn để tiến hành phân đoạn khử nhập nhằng 58 Hình 4.4 Chức phân đoạn văn Sau thực phân đoạn văn kết phân đoạn đƣợc hiển thị phần kết quả.Hệ thống có thống kê số lƣợng câu đƣợc xử lý số từ thực phân đoạn 59 Hình 4.5 Kết sau phân đoạn văn 60 KẾT LUẬN VÀ KIẾN NGHỊ Nội dung luận văn trình bày kiến thức tiếng Việt,về đặc điểm văn tiếng Việt, giới thiệu tiếng tiếng Việt, phƣơng pháp phân đoạn tiếng Việt số phát biểu nhập nhằng tiếng Việt Từ khái quát sâu vào số phƣơng pháp phân đoạn tiếng Việt nhƣ phƣơng pháp so khớp cực đại phƣơng pháp chuyển dịch trạng thái hữu hạn có trọng số.Những phƣơng pháp đƣợc vận dụng để giải toán phân đoạn văn chƣơng 3.Qua thực nghiệm đánh giá phƣơng pháp cho kết phân đoạn tối ƣu kết hợp với phƣơng pháp khử nhập nhằng Kết luận văn gồm có: Luận văn đƣa số kiến thức liên quan làm sở cho việc giải toán phân đoạn tiếng Việt Trình bày số vấn đề liên quan đến vấn đề liên quan đến phân đoạn tiếng Việt khử nhập nhằng, đặc biệt sử dụng phƣơng pháp so khớp cực đại tiến phƣơng pháp dịch chuyển trạng thái hữ hạn có trọng số để giải toán phân đoạn văn Đƣa cải tiến phƣơng pháp so khớp cực đại tiến so khớp cực đại lùi, phân tích số loại nhập nhằng đƣa phƣơng pháp khử nhập nhằng trọng số Cài đặt thành công thuật toán ứng dụng cho toán phân đoạn tiếng Việt 61 Trên sở kết đƣợc trình bày, thời gian tới tiếp tục nghiên cứu sâu để ứng dụng nhiều thuật toán phân đoạn tiếng Việt có hiệu cho phép hệ thống tự động nhận dạng nhập nhằng văn tự động khử nhập nhằng 62 DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Diệp Quang Ban, Hoàng Văn Thung (2006), Ngữ pháp tiếng Việt, Tập 1&2, NXB Giáo dục [2] Trần Ngọc Anh, Đào Thanh Tĩnh (2006), “Về toán kiểm lỗi tả tiếng Việt máy tính”, Khoa học Kỹ thuật, HVKTQS, số 116, tr 29-40 [3] Nguyễn Thị Minh Huyền, Vũ Xuân Lƣơng, Lê Hồng Phƣơng (2003), "Tách từ từ điển Gán nhãn từ loại xác suất", Kỷ yếu hội thảo quốc gia ICT.RDA, 2003 [4] Hoàng Công Duy Vũ, Nguyễn Lê Nguyên, Đinh Điền, Ngô Quốc Hƣng (2007), "Ứng dụng thuật toán so khớp cực đại chế véctơ hỗ trợ toán tách từ tiếng Việt" Tiếng Anh [5] Manning C D., Schutze H (1999) Foundations of Statistical Natural Language Processing, MIT Press [6] Dien Dinh, Thuy Vu (2006), "A Maximum Entropy Approach for Vietnamese Word Segmentation", Proc of the 4th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future 2006, HCM City, Vietnam, pp 247-252 [7] Hieu L.T., Vu L.A., Kien L.T (2010), "An Unsupervised Learning and Statistical Approach for Vietnamese Word Recognition and Segmentation", Proc of ACIIDS, 2010 pp.195-204 63 [8] Hung Nguyen, Thanh V.Nguyen, Hoang K.Tran, Thanh T.T.Nguyen (2006), "Word Segmentation for Vietnamese Text Categorization: An Online Corpus Approach", RIVF2006, the 4th International Conference on Computer Sciences ... quan tiếng Việt Phần đƣa số đặc điểm từ tiếng Việt, hệ thống từ loại tiếng Việt, từ đặt vấn đề giải toán phân đoạn văn tiếng Việt, mục tiêu đề tài - Chương II: Một số phương pháp phân đoạn văn tiếng. .. điểm từ tiếng Việt, loại từ tiếng Việt vấn đề phân đoạn tiếng Việt. Chƣơng hai,trình bày số phƣơng pháp phân đoạn văn tiếng Việt nhƣ mô hình LRMM, phƣơng pháp WFST, mô hình học máy, phƣơng pháp khử... ÝthứcđƣợcnhữnglợiíchcủaviệcxâydựngcơsởtrithứctiếngViệt,tầm quan trọng việc xử lý văn tiếng Việt nóichung vàbàitoánphân đoạntiếngViệtnóiriêng máy tính,em đãchọnhƣớngnghiêncứutrongkhóa luận phƣơng phápphân đoạn tiếngViệt 3 Để

Ngày đăng: 26/06/2017, 15:15

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan