Đang tải... (xem toàn văn)
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Mô hình rút trích cm t c trng ng ngha trong ting Vit 11 Chng 1 GII THIU 1.1 Mc tiêu và phm vi Internet là mt ni lu tr ngun thông tin ca nhân loi. Ngun thông tin này c chia s, phát trin và m rng không ngng cùng vi s phát trin nhanh chóng ca World Wide Wed (Web). Vn t ra là làm th nào khai thác và s dng ngun tài nguyên thông tin này mt cách hiu qu nht. Mô hình rút trích cm t c trng ng ngha trong ting Vit 12 Thông tin trên Web hu ht u th hin di dng ngôn ng t nhiên, thông qua các trang Web, các h thng truy hi thông tin (Information Retrieval) c phát trin và thành công nht hin nay là Google1, Yahoo2, v.v . Tuy nhiên, các mô hình này u s dng t khóa x lý và truy hi tài liu. Hiu sut truy hi ca chúng có nhng gii hn nht nh vì ng ngha ca tài liu b mt i nhiu khi vn bn c biu din di dng mt tp các t khóa. Tng t, yêu cu cung cp thông tin t phía ngi s dng c ng c biu din bi các t khóa. S biu din này rõ ràng không có kh nng th hin c tr!n v"n nhu cu thông tin nh mong mun ca ngi s dng. Do ó, khi truy hi thông tin trên các h thng hin nay, ngi s dng u nhn c thêm các tài liu không liên quan ti thông tin cn tìm. # ci tin các mô hình truy hi thông tin theo t khóa, nhiu công trình nghiên c$u i khai thác tim nng ca cm t c trng trong các h thng nh truy hi thông tin (Hulth, 2004), tóm lc vn bn (Text Summarization) (Paice và Black, 2003), và rút trích thông tin (Information Extraction) (Medelyan và Witten, 2006; Thuy Dung Nguyen, 2007), .Trong các h thng này, khái nim cm t c trng c nh ngha nh sau: nh ngha 1.1: Trong các th vin và khoa h!c thông tin cm t c trng (cm t khóa – key phrase) c nh ngha là “cm t mô t ngn gn và chính xác ch hay khía cnh ca ch mà nó c tho lun trong vn bn” (Feather và P., 1996, 240). Theo quan im ca Cao Xuân Ho (1998): “câu n c bn ca li nói, ca ngôn t, ca vn bn. Nó là n v nh nht có th s dng vào vic giao t. Nói cách khác, câu là ngôn bn (vn bn) ngn nht”. Nh vy, vi quan im câu là vn bn ng%n nht và nhn mnh trng hp cm t c trng din t ch ca vn bn ng%n nht (câu) và phm vi nghiên c$u là câu n, lun án nh ngha cm t c trng ng ngha nh trong nh ngha 2.1 (Chng 2, trang 22). Cm t c trng ng ngha – c vit t%t là CT#TNN – có kh nng mô t ch trong câu (hay vn bn). Nói cách khác, CT#TNN mang thông tin v ni 1 www.google.com/ Mô hình rút trích cm t c trng ng ngha trong ting Vit 13 dung nng ct ca mt câu. CT#TNN rt hu dng trong nhiu $ng dng. Trong lnh vc truy hi thông tin, các CT#TNN không ch& h' tr trong vic xác nh ni dung ca mt vn bn có thích hp vi yêu cu thông tin ca ngi s dng hay không, mà còn biu th ni dung nng ct ca câu truy vn thông tin trong ng c tìm kim (search engine) trên Web th h th$ ba và h thng hi-áp (question-answering) (Qiao, 2010). Do các CT#TNN phn ánh c ni dung nng ct (ch ) ca câu trong vn bn, nên chúng c s dng phân loi vn bn (text classification) (Jones và Mahoui, 2000), tóm lc vn bn (text summarization) (Barker và Cornacchia, 2000). Mc dù các CT#TNN c dùng rng rãi trong các h thng $ng dng khác nhau, nhng tht s vic rút trích các CT#TNN tng $ng cho tng câu hay tng vn bn b(ng phng pháp th công tn rt nhiu thi gian và công s$c. Nhu cu này là ng lc thúc )y các nghiên c$u rút trích t ng các CT#TNN. Có th phân các nghiên c$u v CT#TNN thành ba hng chính: 1. H ng tip cn s dng t in (Dictionary approach): s dng mt t in c xây dng b(ng phng pháp th công dùng rút trích các CT#TNN trong câu (hay vn bn). Quá trình rút trích các CT#TNN c thc hin b(ng các phng pháp so trùng các CT#TNN trong t in vi các cm t trong tài liu. Thun li chính ca hng tip cn là nhanh và thc hin n gin. Hin nay nhiu h thng v*n ang s dng phng pháp này (Bian và Chen, 1998; Li và Xing, 1998; .). Tuy nhiên, phng pháp này còn b hn ch khi tài liu có nhng t mi không có trong t in. #ây là mt vn cn c nghiên c$u và gii quyt. Các nghiên c$u theo hng tip cn s dng t in ã có nhiu chin lc ci thin quá trình so trùng nh: so trùng c!c i (maximum-matching), so trùng c!c tiu (minimum-matching), so trùng t i (forward-matching), so trùng lùi (backward-matching), so trùng theo c hai h ng (bi-directional- matching) và các phng pháp gii quyt vn b(ng ánh giá kinh nghim (heuristics). Tuy nhiên, hiu sut ca hng tip cn này li phù thuc vào ln ca t in. Nó tht s không hiu qu khi gii quyt bài toán nhn din danh t riêng nh tên, v trí, hay các thut ng mi trong nhng phm vi chuyên bit. 2 www. yahoo.com/ Mô hình rút trích cm t c trng ng ngha trong ting Vit 14 2. H ng tip cn ngôn ng hc (Linguistic approach), hng này dùng c s tri th$c ng ngha t vng (nh WordNet3, Wikipedia4,…), dùng phng pháp ánh giá theo kinh nghim, hay phng pháp lut rút trích các cm t (Wu và Tseng, 1995). Các nghiên c$u v x lý ngôn ng ting Anh ã ch$ng t+ hng tip cn này có th t chính xác cao. Tuy nhiên chính xác ca phng pháp còn ph thuc vào vic thit k tng h thng c th (Brill, 1995; Church, 1988; Voutilainen, 1997). Mc dù nhiu kt qu nghiên c$u ã ch$ng t+ hng tip cn này có nhiu tim nng, tuy nhiên v*n cha có mt công trình nghiên c$u nào theo hng tip cn này cho ngôn ng ting Vit, và hin thc theo hng tip cn này còn gp nhiu khó khn. Khó khn chính là vic xây dng mt c s tri th$c ng ngha t vng ting Vit cho nhng min (domain) chuyên bit, có phm vi ln. Vic này òi h+i rt nhiu thi gian và công s$c. Vi mc tiêu gii quyt cho bài toán rút trích CT#TNN cho câu n ca ting Vit, lun án tp trung xây dng mô hình ViKEa (Vietnamese Key phrase Extraction for assignment approach) theo hng tip cn ngôn ng h!c da trên Ontology và khai thác các tri th$c ngôn ng ting Vit nâng cao hiu qu ca mô hình. Vic lun án nghiên c$u và khai thác Vi.Wikipedia nh kho tri th$c ting Vit ã gii quyt khó khn v tài nguyên tri th$c t vng ting Vit khi xây dng mô hình theo hng tip cn này. 3. H ng tip cn b"ng phng pháp th#ng kê (Statistical approach), thc cht là quá trình h!c các giá tr ã c thng kê t mt kho ng liu ln rút trích các cm t (Su và CS, 1996). Hng tip cn này t+ ra hiu qu cho vic rút trích cm t c trng ng ngha (Yang và CS, 1998; Chien, 1997; Chien, 1998; Chen và CS, 1997), và nó liên quan mt thit vi hng tip cn n-gram vi n có giá tr 2,3, hay 4. Tuy nhiên, khi Chien (1997) dùng PAT-Tree (PATricia Tree) rút trích các CT#TNN trong vn bn ca ting Trung Quc, tác gi ã không gii hn giá tr ca n. Mc dù có gia tng v mt tính toán, k, thut này không nhng không òi h+i nhiu công s$c to t in hay c s tri th$c mà còn có kh nng ly c các thut ng có tr!ng s cao trong kho ng liu. Tuy nhiên, mt hn ch 3 www.wordnet.com/ 4 www.wikipedia.org/ Mô hình rút trích cm t c trng ng ngha trong ting Vit 15 ca hng tip cn là có mt s trng hp không th rút trích các cm t hp lý mà có tn sut thp. Mc dù hng tip cn b(ng thng kê có chính xác (Precision) không tt, nhng có $y (Recall) cao so vi hng tip cn ngôn ng h!c. Vì vy, vi mc tiêu là ci thin ti a hiu qu ca h thng ViKEa theo hng tip cn ngôn ng h!c khi vic khai thác ngôn ng v*n còn gii hn, lun án s- xây dng mô hình rút trích các CT#TNN b(ng phng pháp máy h!c có giám sát. Các CT#TNN c gán nhãn t loi ban u làm tp hun luyn xây dng mô hình rút trích. #ây là c s cho mô hình xác nh úng các CT#TNN trong các cm t d tuyn. Mô hình rút trích dùng mt tp các tính cht c trng phân loi các cm t. Vn t ra là phi xác nh c các tính cht c trng ca các cm t, nh(m xác nh mt cách chính xác các CT#TNN trong các cm t d tuyn. Nh vy, mc tiêu ca lun án là xây dng mt mô hình lai cho bài toán rút trích CT#TNN trong câu n ting Vit. Mô hình này là s phi hp ca hai mô hình theo hng tip cn ngôn ng h!c và phng pháp xác sut thng kê. #ó chính là s phi hp ca hai mô hình theo hng tip cn rút trích và xác nh CT#TNN (c trình bày trong Chng 3). Trong hng tip cn ngôn ng h!c, lun án s dng phng pháp so trùng m*u da trên Ontology c to lp t Wikipedia ting Vit. Mô hình này là c s lun án xut bn tính cht c trng cho phng pháp xác nh cm t c trng ng ngha dùng phng pháp máy hc vect h% tr (Support Vector Machines-SVMs) nh(m n%m b%t c v trí lô-gích và c tính hình thái ca CT#TNN, là: (1) v trí t trong câu, (2) nhãn t loi, (3) cu trúc cm t, (4) các t quan h gia các cm t. T ây, các bài toán chính cn c gii quyt trong phm vi lun án bao gm: Bài toán 1 - Xây dng mô hình ViKEa. Lun án nghiên c$u và khai thác ngun tài nguyên ca Vi.wikipedia xây dng mt Ontology ting Vit ViO (Vietnamese Ontology) nh(m phc v yêu cu ca bài toán. Lun án xut mô hình xác nh CT#TNN, c g!i là ViKEa, da trên các tri th$c ngôn ng t nhiên (nh h thng lut và ViO) và các bài toán tin x lý (nh phân on t và gán nhãn t loi). Mô hình rút trích cm t c trng ng ngha trong ting Vit 16 Bài toán 2 - Xây dng mô hình rút trích cm t c trng ng ngha, c g!i là ViKEe (Vietnamese Key phrase Extraction for extraction approach). Lun án nghiên c$u và phân tích các mô hình h!c máy. T ó xut mô hình rút trích CT#TNN dùng phng pháp SVMs, nh(m ci thin ti a hiu qu ca mô hình ViKEa khi ngun tài nguyên ting Vit s.n có còn hn ch. Bài toán 3 - Xây dng mô hình ViKE (Vietnamese Key phrase Extraction). ViKE là s kt hp hai mô hình ViKEa và ViKEe cho bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit, vi mc tiêu khai thác ti a chính xác ca vic rút trích CT#TNN ca tng mô hình trong bài toán 1 và 2. 1.2 Nhng óng góp chính ca lun án Sau ây là nhng óng góp chính ca lun án i vi lnh vc x lý ngôn ng t nhiên mà c th là x lý vn bn ting Vit: - &óng góp th' nht: Xây dng c ch rút trích cm t c trng ng ngha trong câu ting Vit. - &óng góp th' hai: # xut mô hình ViKEa, là mô hình xác nh cm t c trng ng ngha câu n ca ting Vit, dùng phng pháp so trùng m*u da trên vic khai thác Vi.Wikipedia nh mt Ontology ting Vit. - &óng góp th' ba: # xut mô hình ViKEe, là mô hình rút trích cm t c trng ng ngha trong câu n ca ting Vit, dùng phng pháp SVMs vi bn tính cht c trng: (1) v trí t trong câu; (2) nhãn t loi; (3) cu trúc cm t; (4) các t quan h gia các cm t. - &óng góp th' t: # xut mô hình ViKE, là s kt hp hai mô hình ViKEa và ViKEe cho bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit. - &óng góp th' nm: Xây dng mt kin trúc công ngh hoàn ch&nh cho $ng dng rút trích CT#TNN trong câu n ca ting Vit. - &óng góp th' sáu: # xut phng pháp khai thác Vi.Wikipedia nh mt Ontology ting Vit không ch& phc v cho vic xác nh cm danh t c trng ng ngha trong câu n ca ting Vit mà còn góp phn gii vn thiu Mô hình rút trích cm t c trng ng ngha trong ting Vit 17 tài nguyên có s.n ca ng liu ting Vit, h' tr cho vn x lý ngôn ng t nhiên trong ting Vit. 1.3 Cu trúc ca lun án Lun án c chia thành by chng và mt ph lc. Chng 1 trình bày phm vi, mc tiêu và cu trúc ca lun án. Trong m'i chng tip theo, t chng 2 n chng 7, u có phn gii thiu và mt phn kt chng. Cui cùng, lun án trình bày phn t/ng kt trong chng 7. Chng 2 gii thiu c s lý thuyt ngôn ng ting Vit, t loi, cm t, cm t c trng ng ngha cho câu ting Vit. Chng 3 trình bày t/ng quan các nghiên c$u liên quan và các cách tip cn, u im và khuyt ca tng mô hình xác nh và rút trích CT#T. T phân tích này chúng tôi xut mt mô hình ViKE cho bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit. #ng thi, lun án c ng trình bày hng gii quyt cho phn tin x lý, gm bài toán phân on t và gán nhãn t loi c gii thiu trong (Chau Q. Nguyen, Tuoi T. Phan, 2006) và (Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006); c ng nh các phng pháp ánh giá hiu sut ca mô hình rút trích c lun án áp dng cho mô hình ViKE. Chng 4 trình bày mô hình ViKEa xác nh CT#TNN b(ng phng pháp so trùng m*u trên Ontology ting Vit ViO. #ng thi, lun án c ng trình bày phng pháp khai thác ngun tài nguyên Vi.Wikipedia nh mt Ontology ting Vit xây dng Ontology ViO. Các khái nim c lun án ngh, c ng nh các óng góp ã c gii thiu trong (Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006), (Chau Q. Nguyen, Tuoi T. Phan, 2007) và (Chau Q. Nguyen, Tuoi T. Phan, 2009). Chng 5 trình bày ViKEe theo hng tip cn rút trích CT#TNN dùng phng pháp SVMs vi bn tính cht c trng c xut: v trí t trong câu, nhãn t loi, cu trúc cm t, và các t quan h gia các cm t ã c gii thiu trong (Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2008) và (Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2009). Chng 6 trình bày mô hình ViKE, là s kt hp hai mô hình ViKEa và Mô hình rút trích cm t c trng ng ngha trong ting Vit 18 ViKEe cho bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit. #ng thi, lun án c ng trình bày mô hình kin trúc h thng ca ViKE vi các ánh giá hiu sut ca h thng thông qua thc nghim. Các óng góp ã c gii thiu trong (Chau Q. Nguyen, Tuoi T. Phan, 2009). Chng 7 trình bày tóm t%t các kt qu t c ca lun án khi gii quyt bài toán rút trích cm t c trng ng ngha trong câu n ca ting Vit, ng thi ngh các hng nghiên c$u trong tng lai liên quan n lun án. . hun luyn xây dng mô hình rút trích. #ây là c s cho mô hình xác nh úng các CT#TNN trong các cm t d tuyn. Mô hình rút trích dùng mt tp các. hai mô hình ViKEa và Mô hình rút trích cm t c trng ng ngha trong ting Vit 18 ViKEe cho bài toán rút trích cm t c trng ng ngha trong