Đang tải... (xem toàn văn)
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Mô hình rút trích cm t c trng ng ngha trong ting Vit 1 LI CAM OAN Tôi cam oan rng ni dung ca lun án này là kt qu nghiên cu ca bn thân. Tt c nhng tham kho t các nghiên cu liên quan iu c nêu rõ ngun gc mt cách rõ ràng t danh mc tài liu tham kho c cp phn sau ca lun án. Nhng óng góp trong lun án là kt qu nghiên cu ca tác gi ã c công b trong các bài báo ca tác gi phn sau ca lun án và cha c công b trong bt k công trình khoa hc nào khác. Tác gi lun án Nguyn Quang Châu Mô hình rút trích cm t c trng ng ngha trong ting Vit 2 LI CM N Trong quá trình hoàn thành lun án này, tôi ã c các thy cô ni c s ào to giúp tn tình, c quan ni công tác to mi iu kin thun li và bn bè cùng gia ình thng xuyên ng viên khích l. Lun án này không th hoàn thành tt nu không có s tn tình hng dn và s giúp quý báu ca PGS.TS. Phan Th Ti, Ngi thy hng dn mà tôi mun c bày t! lòng bit n sâu s"c nht. Tôi c#ng mun c bày t! lòng bit n i vi tp th các thy cô Khoa CNTT- $i hc Bách Khoa TP. H Chí Minh ã giúp và to iu kin cho tôi rt nhiu trong quá trình hc tp và nghiên cu Khoa; cm n Phòng qun lý sau $i hc v s h% tr các th tc hoàn thành lun án. Tôi chân thành cm n Trng $i hc Công Nghip TP. H Chí Minh, &c bit khoa CNTT, ã h% tr và to mi iu kin thun li cho tôi trong quá trình hoàn thành khóa hc NCS. Cui cùng, tôi cm n tt c bn bè và ngi thân ã góp nhiu ý kin thit thc và có nhng li ng viên khích l quý báu giúp tôi hoàn thành tt lun án. Tác gi lun án Nguyn Quang Châu Mô hình rút trích cm t c trng ng ngha trong ting Vit 3 TÓM TT World Wide Web (WWW) phát trin nhanh chóng cùng vi ngun tài nguyên thông tin ngày càng phong phú, nhu cu khai thác ngun thông tin này ca ngi s' dng ngày càng tr nên cp thit i vi i sng ca con ngi. Vic khai thác này c thc hin thông qua các phng thc nh truy hi thông tin (Information Retrieval), tóm lc vn bn (Text Summarization), và rút trích thông tin (Information Extraction), . Mt trong các vn ct lõi ca h thng khai thác này là xác nh và rút trích chính xác các cm t &c trng ng ngh(a (CT$TNN) (khái nim CT$TNN c nh ngh(a chng 2, ti nh ngh(a 2.1) ca câu trong v)n bn. Vn này là mi quan tâm ca các nhà ngôn ng hc, c#ng nh các nhà khoa hc trong l(nh vc x' lý ngôn ng t nhiên bng máy tính. * Vit Nam, chúng ta mong mun có c mt h thng rút trích các cm t &c trng ng ngh(a ca câu trong v)n bn ting Vit, nhm áp ng nhu cu ang b b! ng! trong các h thng khai thác thông tin. $iu này ã òi h!i và thúc +y vic nghiên cu và phát trin mô hình rút trích cm t &c trng ng ngh(a trong ting Vit (Vietnamese Key Phrase Information Extraction Model - ViKE). Lun án nghiên cu rút trích cm t &c trng ng ngh(a (CT$TNN) ca câu n ting Vit. Vi kho sát tn sut xut hin ca các cm trong các v)n bn ting Vit, lun án ã tp trung nghiên cu vic xác nh và rút trích cm danh t &c trng ng ngh(a (CDT$TNN) cho câu n ting Vit. Lun án trình bày mô hình ViKE. ViKE là mô hình kt hp hai hng tip cn chính: (1) hng ngôn ng hc hay hng tip cn xác nh cm danh t &c trng ng ngh(a, c th là s' dng phng pháp so trùng th loi trên Ontology ca Wikipedia; (2) hng tip cn rút trích cm danh t &c trng ng ngh(a hay hng tip cn hc máy, c th là s' dng phng pháp Máy vect h tr (Support Vector Machines – SVMs). Lun án xut các tính cht &c trng cho phng pháp xác nh cm danh t &c trng ng ngh(a dùng SVMs nhm n"m b"t c v trí lô-gích và &c tính hình Mô hình rút trích cm t c trng ng ngha trong ting Vit 4 thái t,ng quát ca CDT$TNN: (a) v trí t trong câu; (b) nhãn t loi; (c) cu trúc cm danh t; (d) các t quan h gia các cm danh t. $ ánh giá hiu sut h thng ca các mô hình xut, lun án thc nghim trên tp câu c chn lc t các ngun ng liu TREC07, TREC06, TREC02 (http://trec.nist.gov/data/) và www.lexxe.com (Qiao, 2010). Tp câu ting Anh c Hi Nghiên Cu D ch Thut Tp. H Chí Minh d ch sang tp câu ting Vit tng ng và c bn chuyên gia ngôn ng nhn din cm danh t &c trng ng ngh(a bng phng pháp th công. Kt qu mô hình ViKE t chính xác, bao ph và trung bình iu hòa ln lt là 89,52% , 87,63% và 88,57%. Nh vy vi chính xác, y và trung bình iu hòa ca mô hình ViKE ã ci thin hiu sut ca hai mô hình thành phn (mô hình theo hng tip cn rút trích và mô hình theo hng tip cn xác nh CDT$TNN) và áp ng c mc tiêu ra ca lun án. Mô hình rút trích cm t c trng ng ngha trong ting Vit 5 MC LC DANH MC CÁC BNG .9 DANH MC CÁC HÌNH 10 Chng 1. GII THIU 11 1.1 Mc tiêu và phm vi .11 1.2 Nhng óng góp chính ca lun án .16 1.3 Cu trúc ca lun án .17 Chng 2. C S LÝ THUYT NGÔN NG TING VIT 19 2.1 Gii thiu .19 2.2 C s lý thuyt .20 2.3 Kt chng .29 Chng 3. TNG QUAN CÁC MÔ HÌNH RÚT TRÍCH CM T C TRNG 31 3.1 Gii thiu .31 3.2 Các nghiên cu liên quan 32 3.3 S tng quan gia hng tip cn rút trích và xác nh CT$T .37 3.4 Phng pháp tip cn ca lun án .38 3.5 Kt chng .52 Chng 4. MÔ HÌNH XÁC NH CM T C TRNG NG NGHA TRONG TING VIT (ViKEa) -PHNG PHÁP SO TRÙNG MU DA TRÊN ONTOLOGY 54 4.1 Gii thiu 54 4.2 Rút trích cm danh t d tuyn…………………… .……………………… .55 4.3 Công on xác nh cm danh t &c trng ng ngh(a da trên ontology……………………………………………………………………………………………………… 62 4.4 Kt chng ……………………………………………………………… ………………………….73 Chng 5. MÔ HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING VIT (ViKEe) – PHNG PHÁP HC MÁY .75 5.1 Gii thiu .75 5.2 Phng pháp Support Vector Machines 77 Mô hình rút trích cm t c trng ng ngha trong ting Vit 6 5.3 Phát biu bài toán rút trích CDT$TNN trong ting Vit .89 5.4 Mô hình ViKEe 90 5.5 Kt qu thc nghim .100 5.6 Kt chng 101 Chng 6. MÔ HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING VIT (ViKE) - KT HP HNG TIP CN RÚT TRÍCH VÀ HNG TIP CN XÁC NH .102 6.1 Gii thiu .102 6.2 Mô hình rút trích CDT$TNN trong ting Vit 103 6.3 H thng rút trích CDT$TNN trong ting Vit 105 6.4 $ánh giá hiu sut rút trích CDT$TNN .107 6.5 Kt chng .112 Chng 7. TNG KT .114 7.1 Gii thiu 114 7.2 Tóm t"t các kt qu t c 115 7.3 Hng phát trin .116 7.4 Kt lun 117 CÁC BÀI BÁO CA TÁC GI LIÊN QUAN N LUN ÁN .……119 CÁC CÔNG TRÌNH NCKH LIÊN QUAN N LUN ÁN……… 121 TÀI LIU THAM KHO .122 PH LC……………………………………………………………………………….……………….i Mô hình rút trích cm t c trng ng ngha trong ting Vit 7 DANH MC CÁC T VIT TT STT T vit tt Din gii ting Anh Din gii ting Vit 1 BaseNP Base-Noun Phrase Cm danh t c s 2 CT$TNN Key phrase Cm t &c trng ng ngh(a 3 CDT$TNN Key noun phrase Cm danh t &c trng ng ngh(a 4 ViKEa Vietnamese Key phrase Extraction for Assigment approach Mô hình rút trích cm danh t &c trng ng ngh(a trong ting Vit theo hng tip cn xác nh CT$TNN 5 ViKEe Vietnamese Key phrase Extraction for Extraction approach Mô hình rút trích cm danh t &c trng ng ngh(a trong ting Vit theo hng tip cn rút trích CT$TNN 6 ViKE Vietnamese Key phrase Extraction Mô hình rút trích cm danh t &c trng ng ngh(a trong ting Vit 7 ViO Vietnamese Ontology Ontology ting Vit 8 ViWiki Vietnamese Wikipedia Bách khoa toàn th trc tuyn ting Vit 9 POS Part-Of-Speech Nhãn t loi 10 POS Tagging Part-Of- Speech Tagging Gán nhãn t loi 11 NP Chunking Noun Phrase Chunking Gm cm danh t 12 IR Information retrieval Truy hi thông tin 13 ViDic Vietnamese Dictionary T in ting Vit 14 SVMs Support Vector Machines Máy vect h% tr 15 SMO Sequential Minimal Optimisation Ti u hóa cc tiu tun t 16 vnWord- Segmentation Vietnamese Word Segmentation Phân on t ting Vit 17 vnPOSTagger Vietnamese Part-Of-Speech Tagger Công c gán nhãn t loi ting Vit Mô hình rút trích cm t c trng ng ngha trong ting Vit 8 18 NLP Natural Language Processing X' lý ngôn ng t nhiên 19 TREC Text REtrieval Conference Hi ngh v truy hi thông tin v)n bn c t, chc ln u tiên vào n)m 1992 bi vin NIST và B Quc Phòng M- 20 1vs1 One vs One K- thut so sánh Mt-Mt 21 1vsR One vs Rest K- thut so sánh Mt-Phn d còn li 22 LM Linear Model Mô hình tuyn tính 23 CSDL Database C s d liu 24 JAPE Java Annotation Patterns Engine B x' lý v)n phm JAPE 25 GATE General Architecture for Text Engineering Kin trúc x' lý v)n bn 26 IOB IOB Nhãn IOB 27 CS Co-worker Cng s Mô hình rút trích cm t c trng ng ngha trong ting Vit 9 DANH MC CÁC BNG Bng 3.1: Kt qu gán nhãn t loi .51 Bng 4.1: B nhãn t loi ca t .57 Bng 4.2: Các phiên bn Wiktionary(29/1/2008) .63 Bng 4.3: S trang thông tin (# danh hiu), th loi và trang ,i hng ca phiên bn Vi.Wikipedia(4/2/2009) .63 Bng 4.4: Kt qu rút trích CDT$TNN ca mô hình ViKEa .73 Bng 5.1: Kho ng liu 95 Bng 5.2: $ chính xác ca kt qu phân loi nhãn gom cm IOB .100 Bng 5.3: Kt qu rút trích CDT$TNN ca mô hình ViKEe 101 Bng 6.1: Kt qu rút trích cm danh t &c trng ng ngh(a trong mô hình ViKE 108 Bng 6.2: So sánh hiu sut rút trích CDT$TNN gia các mô hình .109 Bng 6.3: Thi gian áp ng khi thc nghim trên tp C1 vi 10 câu ngu nhiên 110 Mô hình rút trích cm t c trng ng ngha trong ting Vit 10 DANH MC CÁC HÌNH Hình 3.1 Mô hình t,ng quát rút trích cm t &c trng ng ngh(a .39 Hình 3.2 Mô hình cho bài toán phân on t. 42 Hình 3.3 Minh ha tìm kim t trong t in 43 Hình 3.4 Mô hình gán nhãn kt hp 49 Hình 4.1 Mô hình rút trích cm danh t &c trng ng ngh(a theo hng xác nh .55 Hình 4.2 S th hin mi quan h gia cm danh t A và cm danh t B… 67 Hình 4.3 Mô hình rút trích CDT$TNN da vào so trùng mu và Ontology – ViKEa………………………………………….……………….68 Hình 5.1 Nguyên lý cc tiu ri ro cu trúc. 78 Hình 5.2 Các m&t ph.ng phân tách. 79 Hình 5.3 M&t ph.ng phân tách (w,b) cho tp hun luyn hai chiu 80 Hình 5.4 Ví d v mt trng hp không phân bit c. .83 Hình 5.5 Quá trình ánh x t không gian nhp vào không gian &c trng 86 Hình 5.6 Mô hình rút trích cm danh t &c trng ng ngh(a - ViKEe 91 Hình 6.1 Mô hình t,ng quát rút trích cm danh t &c trng ng ngh(a ViKE .103 Hình 6.2 Mô hình kin trúc ba lp cu h thng rút trích CDT$TNN trong ting Vit –ViKE…………… 106 Hình 6.3 $ th so sánh hiu sut rút trích CDT$TNN gia các phiên bn… .108 Hình 6.4 $ th so sánh hiu sut rút trích CDT$TNN gia các mô hình…….109 Hình 6.5 $ th biu th thi gian áp ng khi thc nghim trên tp C1 vi 10 câu ngu nhiên…………………………………………… .…… 110 . nhiên.................................................................................................... 110 Mô hình rút trích cm t c trng ng ngha trong ting Vit 10 DANH MC CÁC HÌNH Hình 3.1 Mô hình t,ng quát rút trích cm t. ViKEe................91 Hình 6.1 Mô hình t,ng quát rút trích cm danh t &c trng ng ngh(a ViKE.. .103 Hình 6.2 Mô hình kin trúc ba lp cu h thng rút trích CDT$TNN