Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 10

10 472 8
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 10

Đang tải... (xem toàn văn)

Thông tin tài liệu

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

hình rút trích cm t c trng ng ngha trong ting Vit 1 LI CAM OAN Tôi cam oan rng ni dung ca lun án này là kt qu nghiên cu ca bn thân. Tt c nhng tham kho t các nghiên cu liên quan iu c nêu rõ ngun gc mt cách rõ ràng t danh mc tài liu tham kho c  cp  phn sau ca lun án. Nhng óng góp trong lun án là kt qu nghiên cu ca tác gi ã c công b trong các bài báo ca tác gi  phn sau ca lun án và cha c công b trong bt k công trình khoa hc nào khác. Tác gi lun án Nguyn Quang Châu Mô hình rút trích cm t c trng ng ngha trong ting Vit 2 LI CM N Trong quá trình hoàn thành lun án này, tôi ã c các thy cô ni c s ào to giúp  tn tình, c quan ni công tác to mi iu kin thun li và bn bè cùng gia ình thng xuyên ng viên khích l. Lun án này không th hoàn thành tt nu không có s tn tình hng dn và s giúp  quý báu ca PGS.TS. Phan Th Ti, Ngi thy hng dn mà tôi mun c bày t! lòng bit n sâu s"c nht. Tôi c#ng mun c bày t! lòng bit n i vi tp th các thy cô Khoa CNTT- $i hc Bách Khoa TP. H Chí Minh ã giúp  và to iu kin cho tôi rt nhiu trong quá trình hc tp và nghiên cu  Khoa; cm n Phòng qun lý sau $i hc v s h% tr các th tc hoàn thành lun án. Tôi chân thành cm n Trng $i hc Công Nghip TP. H Chí Minh, &c bit khoa CNTT, ã h% tr và to mi iu kin thun li cho tôi trong quá trình hoàn thành khóa hc NCS. Cui cùng, tôi cm n tt c bn bè và ngi thân ã góp nhiu ý kin thit thc và có nhng li ng viên khích l quý báu giúp tôi hoàn thành tt lun án. Tác gi lun án Nguyn Quang Châu Mô hình rút trích cm t c trng ng ngha trong ting Vit 3 TÓM TT World Wide Web (WWW) phát trin nhanh chóng cùng vi ngun tài nguyên thông tin ngày càng phong phú, nhu cu khai thác ngun thông tin này ca ngi s' dng ngày càng tr nên cp thit i vi i sng ca con ngi. Vic khai thác này c thc hin thông qua các phng thc nh truy hi thông tin (Information Retrieval), tóm lc vn bn (Text Summarization), và rút trích thông tin (Information Extraction), . Mt trong các vn  ct lõi ca h thng khai thác này là xác  nh và rút trích chính xác các cm t &c trng ng ngh(a (CT$TNN) (khái nim CT$TNN c  nh ngh(a  chng 2, ti  nh ngh(a 2.1) ca câu trong v)n bn. Vn  này là mi quan tâm ca các nhà ngôn ng hc, c#ng nh các nhà khoa hc trong l(nh vc x' lý ngôn ng t nhiên bng máy tính. * Vit Nam, chúng ta mong mun có c mt h thng rút trích các cm t &c trng ng ngh(a ca câu trong v)n bn ting Vit, nhm áp ng nhu cu ang b b! ng! trong các h thng khai thác thông tin. $iu này ã òi h!i và thúc +y vic nghiên cu và phát trin hình rút trích cm t &c trng ng ngh(a trong ting Vit (Vietnamese Key Phrase Information Extraction Model - ViKE). Lun án nghiên cu rút trích cm t &c trng ng ngh(a (CT$TNN) ca câu n ting Vit. Vi kho sát tn sut xut hin ca các cm trong các v)n bn ting Vit, lun án ã tp trung nghiên cu vic xác  nh và rút trích cm danh t &c trng ng ngh(a (CDT$TNN) cho câu n ting Vit. Lun án trình bày hình ViKE. ViKE là hình kt hp hai hng tip cn chính: (1) hng ngôn ng hc hay hng tip cn xác  nh cm danh t &c trng ng ngh(a, c th là s' dng phng pháp so trùng th loi trên Ontology ca Wikipedia; (2) hng tip cn rút trích cm danh t &c trng ng ngh(a hay hng tip cn hc máy, c th là s' dng phng pháp Máy vect h tr (Support Vector Machines – SVMs). Lun án  xut các tính cht &c trng cho phng pháp xác  nh cm danh t &c trng ng ngh(a dùng SVMs nhm n"m b"t c v trí lô-gích và &c tính hìnhhình rút trích cm t c trng ng ngha trong ting Vit 4 thái t,ng quát ca CDT$TNN: (a) v trí t trong câu; (b) nhãn t loi; (c) cu trúc cm danh t; (d) các t quan h gia các cm danh t. $ ánh giá hiu sut h thng ca các hình  xut, lun án thc nghim trên tp câu c chn lc t các ngun ng liu TREC07, TREC06, TREC02 (http://trec.nist.gov/data/) và www.lexxe.com (Qiao, 2010). Tp câu ting Anh c Hi Nghiên Cu D ch Thut Tp. H Chí Minh d ch sang tp câu ting Vit tng ng và c bn chuyên gia ngôn ng nhn din cm danh t &c trng ng ngh(a bng phng pháp th công. Kt qu hình ViKE t  chính xác,  bao ph và  trung bình iu hòa ln lt là 89,52% , 87,63% và 88,57%. Nh vy vi  chính xác,  y  và  trung bình iu hòa ca hình ViKE ã ci thin hiu sut ca hai hình thành phn (mô hình theo hng tip cn rút trích hình theo hng tip cn xác  nh CDT$TNN) và áp ng c mc tiêu  ra ca lun án. Mô hình rút trích cm t c trng ng ngha trong ting Vit 5 MC LC DANH MC CÁC BNG .9 DANH MC CÁC HÌNH 10 Chng 1. GII THIU 11 1.1 Mc tiêu và phm vi .11 1.2 Nhng óng góp chính ca lun án .16 1.3 Cu trúc ca lun án .17 Chng 2. C S LÝ THUYT NGÔN NG TING VIT 19 2.1 Gii thiu .19 2.2 C s lý thuyt .20 2.3 Kt chng .29 Chng 3. TNG QUAN CÁC HÌNH RÚT TRÍCH CM T C TRNG 31 3.1 Gii thiu .31 3.2 Các nghiên cu liên quan 32 3.3 S tng quan gia hng tip cn rút trích và xác  nh CT$T .37 3.4 Phng pháp tip cn ca lun án .38 3.5 Kt chng .52 Chng 4. HÌNH XÁC NH CM T C TRNG NG NGHA TRONG TING VIT (ViKEa) -PHNG PHÁP SO TRÙNG MU DA TRÊN ONTOLOGY 54 4.1 Gii thiu 54 4.2 Rút trích cm danh t d tuyn…………………… .……………………… .55 4.3 Công on xác  nh cm danh t &c trng ng ngh(a da trên ontology……………………………………………………………………………………………………… 62 4.4 Kt chng ……………………………………………………………… ………………………….73 Chng 5. HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING VIT (ViKEe) – PHNG PHÁP HC MÁY .75 5.1 Gii thiu .75 5.2 Phng pháp Support Vector Machines 77 Mô hình rút trích cm t c trng ng ngha trong ting Vit 6 5.3 Phát biu bài toán rút trích CDT$TNN trong ting Vit .89 5.4 hình ViKEe 90 5.5 Kt qu thc nghim .100 5.6 Kt chng 101 Chng 6. HÌNH RÚT TRÍCH CM T C TRNG NG NGHA TRONG TING VIT (ViKE) - KT HP HNG TIP CN RÚT TRÍCH VÀ HNG TIP CN XÁC NH .102 6.1 Gii thiu .102 6.2 hình rút trích CDT$TNN trong ting Vit 103 6.3 H thng rút trích CDT$TNN trong ting Vit 105 6.4 $ánh giá hiu sut rút trích CDT$TNN .107 6.5 Kt chng .112 Chng 7. TNG KT .114 7.1 Gii thiu 114 7.2 Tóm t"t các kt qu t c 115 7.3 Hng phát trin .116 7.4 Kt lun 117 CÁC BÀI BÁO CA TÁC GI LIÊN QUAN N LUN ÁN .……119 CÁC CÔNG TRÌNH NCKH LIÊN QUAN N LUN ÁN……… 121 TÀI LIU THAM KHO .122 PH LC……………………………………………………………………………….……………….i Mô hình rút trích cm t c trng ng ngha trong ting Vit 7 DANH MC CÁC T VIT TT STT T vit tt Din gii ting Anh Din gii ting Vit 1 BaseNP Base-Noun Phrase Cm danh t c s 2 CT$TNN Key phrase Cm t &c trng ng ngh(a 3 CDT$TNN Key noun phrase Cm danh t &c trng ng ngh(a 4 ViKEa Vietnamese Key phrase Extraction for Assigment approach hình rút trích cm danh t &c trng ng ngh(a trong ting Vit theo hng tip cn xác  nh CT$TNN 5 ViKEe Vietnamese Key phrase Extraction for Extraction approach hình rút trích cm danh t &c trng ng ngh(a trong ting Vit theo hng tip cn rút trích CT$TNN 6 ViKE Vietnamese Key phrase Extraction hình rút trích cm danh t &c trng ng ngh(a trong ting Vit 7 ViO Vietnamese Ontology Ontology ting Vit 8 ViWiki Vietnamese Wikipedia Bách khoa toàn th trc tuyn ting Vit 9 POS Part-Of-Speech Nhãn t loi 10 POS Tagging Part-Of- Speech Tagging Gán nhãn t loi 11 NP Chunking Noun Phrase Chunking Gm cm danh t 12 IR Information retrieval Truy hi thông tin 13 ViDic Vietnamese Dictionary T in ting Vit 14 SVMs Support Vector Machines Máy vect h% tr 15 SMO Sequential Minimal Optimisation Ti u hóa cc tiu tun t 16 vnWord- Segmentation Vietnamese Word Segmentation Phân on t ting Vit 17 vnPOSTagger Vietnamese Part-Of-Speech Tagger Công c gán nhãn t loi ting Vit Mô hình rút trích cm t c trng ng ngha trong ting Vit 8 18 NLP Natural Language Processing X' lý ngôn ng t nhiên 19 TREC Text REtrieval Conference Hi ngh v truy hi thông tin v)n bn c t, chc ln u tiên vào n)m 1992 bi vin NIST và B Quc Phòng M- 20 1vs1 One vs One K- thut so sánh Mt-Mt 21 1vsR One vs Rest K- thut so sánh Mt-Phn d còn li 22 LM Linear Model hình tuyn tính 23 CSDL Database C s d liu 24 JAPE Java Annotation Patterns Engine B x' lý v)n phm JAPE 25 GATE General Architecture for Text Engineering Kin trúc x' lý v)n bn 26 IOB IOB Nhãn IOB 27 CS Co-worker Cng s Mô hình rút trích cm t c trng ng ngha trong ting Vit 9 DANH MC CÁC BNG Bng 3.1: Kt qu gán nhãn t loi .51 Bng 4.1: B nhãn t loi ca t .57 Bng 4.2: Các phiên bn Wiktionary(29/1/2008) .63 Bng 4.3: S trang thông tin (# danh hiu), th loi và trang ,i hng ca phiên bn Vi.Wikipedia(4/2/2009) .63 Bng 4.4: Kt qu rút trích CDT$TNN ca hình ViKEa .73 Bng 5.1: Kho ng liu 95 Bng 5.2: $ chính xác ca kt qu phân loi nhãn gom cm IOB .100 Bng 5.3: Kt qu rút trích CDT$TNN ca hình ViKEe 101 Bng 6.1: Kt qu rút trích cm danh t &c trng ng ngh(a trong hình ViKE 108 Bng 6.2: So sánh hiu sut rút trích CDT$TNN gia các hình .109 Bng 6.3: Thi gian áp ng khi thc nghim trên tp C1 vi 10 câu ngu nhiên 110 Mô hình rút trích cm t c trng ng ngha trong ting Vit 10 DANH MC CÁC HÌNH Hình 3.1 hình t,ng quát rút trích cm t &c trng ng ngh(a .39 Hình 3.2 hình cho bài toán phân on t. 42 Hình 3.3 Minh ha tìm kim t trong t in 43 Hình 3.4 hình gán nhãn kt hp 49 Hình 4.1 hình rút trích cm danh t &c trng ng ngh(a theo hng xác  nh .55 Hình 4.2 S  th hin mi quan h gia cm danh t A và cm danh t B… 67 Hình 4.3 hình rút trích CDT$TNN da vào so trùng mu và Ontology – ViKEa………………………………………….……………….68 Hình 5.1 Nguyên lý cc tiu ri ro cu trúc. 78 Hình 5.2 Các m&t ph.ng phân tách. 79 Hình 5.3 M&t ph.ng phân tách (w,b) cho tp hun luyn hai chiu 80 Hình 5.4 Ví d v mt trng hp không phân bit c. .83 Hình 5.5 Quá trình ánh x t không gian nhp vào không gian &c trng 86 Hình 5.6 hình rút trích cm danh t &c trng ng ngh(a - ViKEe 91 Hình 6.1 hình t,ng quát rút trích cm danh t &c trng ng ngh(a ViKE .103 Hình 6.2 hình kin trúc ba lp cu h thng rút trích CDT$TNN trong ting Vit –ViKE…………… 106 Hình 6.3 $ th so sánh hiu sut rút trích CDT$TNN gia các phiên bn… .108 Hình 6.4 $ th so sánh hiu sut rút trích CDT$TNN gia các hình…….109 Hình 6.5 $ th biu th thi gian áp ng khi thc nghim trên tp C1 vi 10 câu ngu nhiên…………………………………………… .…… 110 . nhiên.................................................................................................... 110 Mô hình rút trích cm t c trng ng ngha trong ting Vit 10 DANH MC CÁC HÌNH Hình 3.1 Mô hình t,ng quát rút trích cm t. ViKEe................91 Hình 6.1 Mô hình t,ng quát rút trích cm danh t &c trng ng ngh(a ViKE.. .103 Hình 6.2 Mô hình kin trúc ba lp cu h thng rút trích CDT$TNN

Ngày đăng: 07/11/2012, 12:13

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan