Giải quyết một số vấn đề nền tảng trong xử lý ngôn ngữ tiếng Việt với các mô hình học máy thống kê hiện đại

45 413 0
Giải quyết một số vấn đề nền tảng trong xử lý ngôn ngữ tiếng Việt với các mô hình học máy thống kê hiện đại

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

f DAI HOC QUOC GIÀ HA NÓI GIÀ! QUYÉT MOT SÓ VÀN DE NÈN TÀNG TRONG Xlf LY NGON NGlT TIÉNG VIÉT VĨI CÀC MỊ HÌNH HOC MÀY THĨNG KÉ HIÉN DAI (Bào cào tòng hgp de tài nghién cùn khoa hgc càp DHQGHN) Ma sò: QC.06.07 Chù nhiem de tài: CN Nguyen Cam Tù DA! HOC QUOC GIÀ HA NOI TRUNG TÀM THÒNG TIN THU VIÈN DT/ >03 l^v MUC LUC Phàn mò' dau LL Giài thich nhung chù viét tàt L2 Danh sàch nhùng nguói tham già thuc hien de tài 1.3 Bào cào de tài L4 Project Report Phàn noi dung chinh 2.1 Dat vàn de 2.2 Tóng quan càc vàn de nghién cuu 2.3 Dja diém, thói gian phuong phàp nghién cùu 2.4 Nói dung két qua nghién CÙTJ 2.4.1 Càc nguyen tàc co bàn tiéng Viét 2.4.2 Mot sò phuong phàp hgc mày thòng ké 13 2.4.3 Bg dù liéu thù nghiem 15 '2.4.4 Két qua thuc nghiem 15 a Bài toàn tàch tù tiéng Viét 16 b Bài toàn xàc dinh thuc thé tiéng Viét 16 2.5 Thào luan 18 2.6 Két luan Kién nghi 18 TÀI LIÉU THAM KHÀO 19 A Tài liéu tiéng Viet 19 B Tài lieu tiéng Anh 19 PHU LUC 21 Phàn madàu * 1.1 Giai thfch nhù'ng chO viét tàt Viét tat Giài nghTa CRFs Conditional Random Fields 'SVMs Support Vector Machines 1.2 Danh sàch nhiPng ngw&i tham già thiFC hién de tài STI Ho tèn Hoc hàm, hoc vi, noi còng tàc Nguyen Càm Tù CN Khoa CNTT - DH Còng Nghé Ha Quang Thuy PGS.TS Khoa CNTT - DH Còng Nghé Phan Xuàn Hiéu TS DH Tohoku Nguyen Lé Minh TS Vién KH&CN tién tién Nhàt Bàn Nguyen Viét Cuàng NCS Khoa CNTT - DH Còng Nghé Nguyen Thi Huong Thào CN Khoa CNTT - DH Còng Nghé Nguyen Thu Trang CN Khoa CNTT - DH Còng Nghé Nguyen Trung Kién CN Khoa CNTT - DH Còng Nghé 1.3 Bào cào de tài Tén de tài: Giài quyét mot so toàn nén tàng xù ly ngon ngù tiéng Viet vói càc mị hinh hgc mày thòng ké hién dai Ma sòde tài: QC.06.07 Thòi gian thirc hien: 03/2006 dén 03/2007 Co" quan chii tri: Dai hgc Qc già Ha Nói Co' quan thu'c hien: Dai hgc Còng nghé Chi! nhiem de tài: CN Nguyen Càm Tù Càn bo tham già thuc hien: STI Hoc hàm, hoc vi, noi cong tàc Ho tén Nguyen Càm Tù CN Khoa CNTT - DH Còng Nghé Ha Quang Thuy PGS TS Khoa CNTT - DH Còng Nghé Phan Xuàn Hiéu TS DH Tohoku Nguyen Lé Minh TS Vién KH&CN tién tién Nhàt Bàn Nguyen Viét Cuòng NCS Khoa CNTT - DH Còng Nghé Nguyen Thi Huong Thào CN Khoa CNTT - DH Còng Nghé Nguyen Thu Trang CN Khoa CNTT - DH Còng Nghé Nguyen Trung Kién CN Khoa CNTT - DH Cịng Nghé Két qua tao: 02 khóa ln tòt nghiép Dai hgc Sinh vién: Nguyen Trung Kién Càn bg huó'ng dan: TS Nguyen Lé Minh, PGS TS Ha Quang Thuy Tén de tài: Phàn doan tù tiéng Viet sù dung mò hinh CRFs Sinh vién: Nguyen Thi Huong Thào Càn bị h'ng dàn: PGS TS Ha Quang Thuy, ThS Dàng Thanh Hai Tén de tài: Phàn lóp phàn cap Taxonomy vàn bàn Web ùng dung Két qua khoa hgc Cịng nghé Tịni tot nói dung két qua nghién cim ' Tim hiéu vé càu trùc àm tiét, càc loai tù tiéng Viét, càu trùc cum danh tù tèn riéng tiéng Viét - Tìm hiéu \è càc phucng phàp hoc mày tliịng kc, dó lap trung vào hai mị hinh mó'i \à manh Condilional Random Fields Support Vector Machines - Trong khuòn khò de tài, chùng tòi thu thàp xày dung mot bị dù liéu trung bình (khoàng 8000 càu) cho viéc thù nghiem, dành già - Thuc nghiem phuorng phàp tàch tù tiéng Viét vói CRFs SVMs - Xày dung còng cu tàch tù tiéng Viét java dira trén CRFs - Càc thành vién cùa De tài (thc Bó mịn CHTTT Phịng thi nghiem "Cịng nghé tri thùc Tuonj tàc ngi-mày") dà có thém kinh nghiem vé viec xù ly ngón ngù mang dàc trung cua tiéng Viét Càc bào khoa hoc dà cóng bó pham vi de tài ' Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.Cam-Tu Nguyen, Tning-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and QuangThuy Ha (2006) The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, p.215-222 1.4 Project Report Project name: Fundamental Vietnamese Shallow Processing with Modem Statistica! Machine Leaming Methods Project code: QC.06.07 Duration: From 03/2006 to 03/2007 Management Organization: Vietnam National University Performing Organization: College of Technology Project leader: Nguyen Cam Tu, BA Project team members: No Title, Organization Full Name Nguyen Cam Tu BA College of Technology Ha Quang Thuy Asso.Prof.Dr College of Technology Phan Xuan Hieu Dr Tohoku University Nguyen Le Minh Dr Jaist, Japan Nguyen Viet Cuong BA College of Technology Nguyen Thi Huong Thao BA College of Technology Nguyen Thu Trang BA College of Technology 8, Nguyen Trung Kien BA College of Technology Training results: 02 Bachelor Thesises Student: Nguyen Trung Kien Advisors: Dr Nguyen Le Minh, Asso.Prof Dr Ha Quang Thuy Titile: Vietnamese Word Segmentation using CRFs Student: Nguyen Thi Huong Thao Ad\isors: Asso.Prof Dr Ha Quang Thuy, Ms Dang Thanh Hai Title: Hierarchical Classification for Web and Application Scientic results: Content and research results summary: - Research syllable structure and types o^ vvords as well as structures of noun phrases and proper names in Vietnamese - Research statistica! machine leaming methods, particularly the two porwerful methods - Conditional Random Fields (CRFs) and Support Vector Machine (SVMs) - Build up a moderate corpus of about 8000 sentence for experiments and estimations of our methods - Make experiments of using CRFs and SVMs in Vietnamese word segmentation - Build a tool for Vietnamese word segmentation using CRFs - Provides more experiences in naturai language processing and text mining for members in projects Papers supported by project: ' Vietnamese Word Segmentation with CRFs and SVMs: An Investigation.Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen and QuangThuy Ha (2006) The 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), November 1-3, 2006, Wuhan, China, p.215-222 Phàn nói dung chinh 2.1 Dat vàn de Càc toàn nén tàng nhu tàch càu (sentence segmentation), tàch tù (word segmentation), tàch cum danh tù (noun phrase chunking) trich chgn thuc thé (Named Entity Recognition) giù vai trị tién de cho càc bc xù ly ngón ngù tu nhién nhu dich mày (machine translation), tóm tàt vàn bàn (documentation sumarization), hiéu vàn bàn (massage understanding) hay khai phà dù liéu text (Text Mining) Màc dù xù ly ngòn ngù tu nhién tiéng Anh, Phàp, Nhat, Trung Quòc, dà dugc giài quyét tuang dòi tòt, vàn de xù ly tiéng Viét tồn de ngị Càc mị hình hgc mày thòng ké hién dai nhu HMMs, MEMMs, dac biét CRFs[14] SVMs[ 19,20] dà chùng minh dugc thé manh viéc gàn nhàn phàn doan dù liéu dang chi mị hình hóa ngịn ngù Nghién cùu giài quyét càc toàn nén tàng theo hng tiép can hgc mày thịng ké hién dai mot huóng nhiéu trién vgng hùa ben sé dem lai nhùng két qua khà quan 2.2 Tong quan càc vàn de nghién CLPU Nhùng nghién cùu dugc còng bò gàn day vé xù ly tiéng Viét thuòng chi giài quyét mot vàn de co* bàn riéng biét chi dùng ó mùc ly thut ma chua có mot cịng cu hay mot phàn mém xù ly tiéng Viét dugc cịng bị rịng rài Dịi vói tồn tàch tù tiéng Viet, màc dù dà có mot sị cịng trinh khoa hgc dugc còng bò [8,21,22], nhung da phàn déu khịng so sành vó'i baseline , hoac khịng dat két qua mong mn Riéng dịi vói tồn nhan dang thuc thé tiéng Viét, có rat it nghién cùu tap trung vào toàn cho dén nghién cùu cùa nhóm vàn mot nhùng nghién cùu dàu tién Trong khuòn khò de tài này, chùng tòi tap trung vào càc vàn de vé ngòn ngù tiéng Viét \'à càc phuong phàp hgc mày dịng thói nghién cùu ùng dung càc phuong phàp hgc mày viéc xù ly càc tồn ngịn ngù co bàn mot càch tu dgng bang mày tinh Lién quan dén ngòn ngù, chùng tòi tim hiéu vé càu trùc àm tiét, càc loai tù tiéng Vici, càu trùc cum danh tù tén riéng tiéng Viet Nhùng vàn de se dugc de càp phàn Càc nguyen tàc co bàn tiéng Viet Càc mò hinh hgc mày, chùng tòi tim hiéu \'é càc phuong phàp hgc mày thóng ké, dó tap trung \ào hai mò hinh mai \à manh Conditional Random Fields \à Support Vector Machines Nhùng vàn de sé dugc trinh bay phàn Mot sò mò hinh hgc mày thòng ké Thù nghiem càc phuang phàp hgc mày cho viec xù ly ngịn ngù tu dóng dịi hịi phài có mot kho ngù liéu dù lón, dù tin cay Trong khuòn khò de tài, chùng tòi thu thap xày dung mot bó dù lieu trung bình (khồng 8000 càu) cho viéc thù nghiem, dành già Càc buóc xày dung tap dù lieu thù nghiem se dugc trinh bay phàn 2.4.4 Phàn 2.4 trinh bay phuang phàp cùa chùng tòi viéc giài quyét mot sò tồn nén tàng mot sị két qua dịi vói toàn tàch tù, trich chgn thuc thé tiéng Viét Cuòi mot sò dành già chung vé de tài, dua nhung két luan cu thé cung nhu nhùng huóng nghién cùu tiép theo 2.3 Dja dièm, th&l gian phipang phàp nghién • CLPU De tài thuc hién mot nàm tù thàng 03/2006 dén thàng 03/2007 tai Bò mòn Càc He thòng Thòng tin, Khoa Còng nghé Thòng tin tai phòng thi nghiem muc tiéu "Cịng nghé Tri thùc Tuong tàc ngi mày" • • Thu thap khào sàt càc noi dung lién quan tù Internet càc co* quan dòi tàc ITnh vuc ngòn ngù hgc xù ly ngịn ngù tu nhién • Két hgp nghién cùu cịng nghé ly thut • Tị chùc seminar, tham già càc bòi nghi, bòi thào lién quan dén ITnh vuc xù ly ngịn ngù' tu nhién 2.4 Nói dung i'^") dà có thèm kmh nghiém vé viéc xù ly ngòn ngù mang dàc trung cùa tiéng Viet Kién nghi vé quy mò \à dòi tuong àp dung kéi qua nghién cùu: Càc két qua cùa de tài gòm bào cào bào, chuong tnnh ung dung co thé chia se cho nhùng ng'i quan tàm dén hng nghién cuu cua de tai Chùc vu Chù nhiém de tài Thù truòng co quan chù tri de tài Ho tén Nguyen Cam Tù Ni^ltihU Hoc vi Chù tich Hòi dòng dành già chinh thùc Thù truòmg co quan quàn ly de tài TL.GIAMOOt: rr Ky tén t^9uu^ Dóng dàu f PHONG G DAO TAO LAUDAI HOC VÀ \zm.^'/^0iHC'H- U^JMÀ Jhikr ... giài quyét càc toàn xù ly tiéng Viét a Conditional Random Fields Trong mị hình mày trang thài hùu han, CRFs gòm càc trang thài mò hình dang chi tun thinh, vị hng, hay mot mày trang thài hùu hanh... Viét tồn de ngị Càc mị hình hgc mày thịng ké hién dai nhu HMMs, MEMMs, dac biét CRFs[14] SVMs[ 19,20] dà chùng minh dugc thé manh viéc gàn nhàn phàn doan dù liéu dang chi mị hình hóa ngịn ngù Nghién... it nghién cùu tap trung vào toàn cho dén nghién cùu cùa nhóm vàn mot nhùng nghién cùu dàu tién Trong khuòn khò de tài này, chùng tòi tap trung vào càc vàn de vé ngòn ngù tiéng Viét ''à càc phuong

Ngày đăng: 19/03/2015, 08:58

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • 1. Phần mở đầu

  • 2. Phần nội dung chính

  • 2.1. Đặt vấn đề

  • 2.2. Tổng quan các vấn đề nghiên cứu

  • 2.3. Địa điểm, thời gian và phương pháp nghiên cứu

  • 2.4. Nội dung và kết quả nghiên cứu

  • 2.4.1. Các nguyên tắc cơ bản trong tiếng Việt

  • 2.4.2. Một số phương pháp học máy thống kê

  • 2.4.3. Bộ dữ liệu thử nghiệm

  • 2.4.4. Kết quả thực nghiệm

  • 2.5. Thảo luận

  • 2.6. Kết luận và kiến nghị

  • TÀI LIỆU THAM KHẢO

  • PHỤ LỤC

  • PHIẾU ĐĂNG KÝ KẾT QUẢ NGHIÊN CỨU KH-CN

Tài liệu cùng người dùng

Tài liệu liên quan