Đang tải... (xem toàn văn)
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Mô hình rút trích cm t c trng ng ngha trong ting Vit 31 Chng 3 TNG QUAN CÁC MÔ HÌNH RÚT TRÍCH CM T C TRNG 3.1 Gii thiu Chng này trc tiên s trình bày tng quan các thành tu ca các nghiên cu hin ti v hng tip cn rút trích và xác nh các cm t c trng (CTT) và so sánh gia hai hng tip cn c bn này cho bài toán rút trích CTT. S so sánh và phân tích này lý gii nguyên nhân ti sao các n lc nghiên cu li c phân b trên c hai hng tip cn. Tip theo lun án trình bày hng tip cn cho mô Mô hình rút trích cm t c trng ng ngha trong ting Vit 32 hình rút trích CTTNN cho câu ting Vit. Cui cùng, lun án s kt nhng vn ã c nghiên cu trong chng này. 3.2 Các nghiên cu liên quan Các nghiên cu v cm t c trng c phân loi thành hai hng tip cn chính là rút trích (extraction) và xác nh (assignment) (Medelyan và Witten, 2006). 3.2.1 Hng tip cn rút trích cm t c trng Phng pháp rút trích cm t c trng (CTT) thông thng gm hai công on là tuyn chn các cm t d tuyn và chn lc các CTT trong các cm t d tuyn. - Công on tuyn chn: Các cm t d tuyn bao gm các t và cm t c rút trích t vn bn. thc hin iu này, mt b gán nhãn t loi và b phân tích cú pháp n gin c s dng xác nh các cm t d tuyn. - Công on chn lc: Công on này s phân tích các cm t d tuyn theo phng pháp chn lc da vào kinh nghim xác nh các CTT trong các cm t d tuyn. Các phng pháp chn lc có th c phân thành hai hng tip cn chính là hc máy (machine learning) và hng tip cn tng trng (symbolic) cùng vi các k! thut mà chúng s dng. Trong khi các phng pháp hc máy i xây dng mô hình thng kê t các tp d liu ã c hun luyn thì vi các phng pháp c trng, các nhà nghiên cu a ra cách chn lc tt nht là da vào các phân tích th công trên các tài liu và các CTT ca chúng. 3.2.1.1 Phng pháp hc máy Rút trích CTT có th c xem là mt quá trình hc có giám sát t các m"u th . Vn chính là phi nh ngh#a c tp tính cht tính c trng ca CTTNN. Tp tính cht này có th giúp phân bit c các CTT và các cm t không c trng trong các cm t d tuyn. Gii thut hc c$n hai tp tài liu có gán nhãn ca CTT b%ng phng pháp th công: mt tp dùng hun luyn to mô hình phân loi. Tp tài liu còn li dùng kim nh và ánh giá mô hình. Trong tp hun luyn, các CTT có th là m"u âm (m"u sai) và m"u dng (m"u úng). Mụ hỡnh rỳt trớch cm t c trng ng ngha trong ting Vit 33 Lc hc mụ hỡnh chn lc l phõn tớch cỏc giỏ tr ca tp tớnh cht c trng cho mi m"u. KEA (Key Phrase Extraction Algorithm) l gii thut rỳt trớch CTT, c mt nhúm nghiờn cu v hc mỏy ti trng i hc Waikato phỏt trin. KEA t nn tng trờn cỏc phng phỏp thit thc v n gin (Frank v CS, 1999; Witten v CS, 1999). Trong cụng on $u tiờn ca phng phỏp rỳt trớch, KEA xỏc nh chui ký t nguyờn bn da vo cỏc du chm cõu, cỏc con s, ký hiu dũng mi v sau ú phõn chia chui ny thnh cỏc t n (token). Tt c cỏc n-grams, nh cỏc t n hay cỏc t ghộp t hai t n tr& lờn, m chỳng khụng b't $u hay kt thỳc b%ng mt t kt thỳc (stopword) u c xem l cỏc CTT d tuyn. KEA tinh ch mi cm t d tuyn ny vi b tinh ch lp Lovins (1968). Trong cụng on chn lc KEA tớnh toỏn hai tớnh cht c trng cho mi cm t d tuyn: ()nh cht TFxIDF (t$n sut ca cm t trong ti liu so sỏnh vi t$n sut ca cm t ú trong tp cỏc ti liu (Salton v McGill, 1983) v khong cỏch ca cm t xut hin $u tiờn trong ti liu tớnh t v trớ $u ca ti liu. Mt lc hc Naùve Bayes (Domingos v Pazzani, 1997) to d liu hun luyn bao gm hai tp trng s: mt tp ca cỏc CTT v mt tp ca cỏc cm t khỏc xut hin trong vn bn. Trong cụng on chn lc, xỏc sut ca mi cm t d tuyn l CTT c tớnh toỏn da trờn cỏc tp trng s ny. Cỏc cm t d tuyn c xp loi theo xỏc sut ó tớnh toỏn v s cm t xp loi cao nht (do ngi s dng xỏc nh) c a vo tp CTT kt qu. Trong cỏc nghiờn cu mi õy, nh Thuy Dung Nguyen v Min-Yen Kan (2007) ó ci tin phng phỏp KEA & cụng on chn lc. S ci tin c thc hin b%ng cỏch dựng li hai ()nh cht c lp ca KEA (hai ()nh cht ny l: ()nh cht TFxIDF (Term Frequency x Inverse Document Frequency) v v trớ xut hin u tiờn (first occurrence)) v khụng dựng ()nh cht l t$n sut ca CTT trong kho ng liu (vỡ cỏc tỏc gi cho r%ng ()nh cht ny ch* hiu qu khi cú mt tp hun luyn ln). ng thi, cỏc tỏc gi c+ng ó xut mt ()nh cht cu trỳc l Section occurrence vector v ba ()nh cht hỡnh v l chui t loi (POS sequence), chui hu t (suffix sequence) v trng thỏi tcu o bng nhng chu a Mô hình rút trích cm t c trng ng ngha trong ting Vit 34 mt m t (acronym status). Kt qu, theo ánh giá ca tác gi thì gii thut này t c chính xác là 3,25 % (so vi gii thut KEA là 3,03%). GenEx là mt gii thut lai di truyn (hybrid genetic) cho bài toán rút trích CTT do Turney & hi ng nghiên cu quc gia Canada phát trin. GenEx bao gm hai thành ph$n: gii thut Genitor và b rút trích (extractor) (Turney, 1999). B rút trích phi hp tp các ký hiu tng trng thu c qua kinh nghim to mt danh sách xp loi các CTT, còn các cm t d tuyn là các cm t bao gm trên ba t. chn lc các CTT trong các cm t d tuyn, mi cm t c cho im cho mi l$n xut hin b%ng các v trí ca nó xut hin trong vn bn. i vi các cm t d tuyn có trên mt t thì im ca chúng s c gia tng. B&i vì, thông thng chúng có im thp hn các cm n t. Sau khi xóa các trng hp trùng và chn lc các dng có t$n sut $y nht cho mi cm t d tuyn ã c tinh ch, b rút trích a ra các cm t có xp loi cao nht. B rút trích có tt c 12 thông s và c (flag) (ch,ng hn nh h s gia tng cho mi cm t vi 2 thông s ca các CTT kt qu). Gii thut Genitor c áp dng xác lp các thông s trên mt cách tt nht t tp d liu hun luyn. Tóm li, tác gi cho r%ng quyt nh chn lc các cm t d tuyn còn ph thuc nhiu yu t. Tác gi xut mô hình kt hp ca tp các cm t d tuyn dùng thông tin tng h (PMI- Pointwise Mutual Information) gia mt CTT và k CTT trc ó. Tuy nhiên, PMI ca tp CTT c$n mt tp d liu (dataset) ln. Turney c+ng xut dùng truy vn trong các ng c tìm kim (Seach Engine) trên Web có mt c lng s'p xp thô, mc dù iu này có hn ch v bng thông mng Internet và không hiu qu v thi gian. Trong các h thng va trình bày trên, KEA là hng tip cn rút trích CTT n gin nht. GenEx dùng phng pháp ánh giá theo kinh nghim phc tp hn & công on chn lc, tuy nhiên kt qu không tt hn KEA (Frank và CS, 1999). 3.2.1.2 Phng pháp tng trng Barker và Cornacchia (2000) phát trin mt công c rút trích CTT là B&C. B&C không kt hp vi bt c k! thut hc máy nào. rút trích các cm t d tuyn tác gi dùng mt t in tra cu n gin gán các nhãn t loi và mt b phân tích t xác nh tt c các danh t có tính t và danh t b ngh#a cho nó. Mô hình rút trích cm t c trng ng ngha trong ting Vit 35 Trong công on chn lc Barker và Cornacchia tính toán t$n sut ca danh t ng $u ca mi cm t d tuyn, và gi tt c các cm t có danh t ng $u n%m trong N danh t xp loi cao nht. Cho mi cm t, tác gi tính t$n sut nhân vi chiu dài ca nó. K cm t có im cao nht là các CTT ca tài liu. N và K là các ng-ng c xác lp b&i ngi s dng. Các thc nghim ánh giá vi s tham gia ca con ngi ã minh chng hng tip cn n gin này thc hin tt nh b rút trích ca Turney (Turney, 1999). Paice và Black (2003) rút trích các thut ng t các tài liu liên quan trong mt l#nh vc c th và các thut ng này c xem nh là các CTT. t c t* l kt hp cao hn ca các cm t d tuyn, tác gi bin i mi n-gram c rút trích thành các cm t gi trong ba bc: xóa kh.i n-gram tt c các t kt thúc, tinh lc các thut ng và s'p xp li chúng theo th t bng ch cái. iu này úng cho các cm tng t nhau, ch,ng hn “algorithm efficiency”, “efficiency of algorithms”, “the algorithm’s efficiency”, “an efficient algorithm” và ngay c “the algorithm is very efficient” có cùng cm t gi là “algorithm effici”. Các dng gc ca mi cm t gi c lu vào tp kt thúc. ây là phng pháp kp hp công phu hn quá trình tinh lc n gin và tng im cho tt c im s ca mt nhóm cm t. Phng pháp kt hp này da vào s tng t hình thái ca các t trong cm t. Paice và Black (2003) cho im mi cm t gi theo công thc: score = W * (F-1) * N2 vi W là tng trng s ca tt c t trong cm t gi, F là t$n sut ca cm t trong tài liu, và N là chiu dài ca cm t tính theo n v t (cao nht là 4). Tt c các cm t d tuyn c s'p xp theo im s ca chúng. Bc cui cùng, tác gi áp dng k! thut da trên các m"u thit lp các vai trò và quan h ng ngh#a gia các cm t còn li. Tác gi tp trung vào ba vai trò chính (nh h ng (influence), i tng (object), và c tính (property)) bao ph các m"u c lp vi l#nh vc nh “effect of influence on property of object”. Các cm t mà không c bao ph b&i bt c m"u nào thì s c xóa. Hng tip cn này là s cng sinh hp lý gia CTT và thông tin rút trích. Nhóm tác gi không cung cp bt c mt s ánh giá nào v phng pháp này, tuy nhiên h ch* trình bày mt s minh ha ni bt rt áng quan tâm. Mô hình rút trích cm t c trng ng ngha trong ting Vit 36 3.2.2 Hng tip cn xác nh cm t c trng Tng phn vi các phng pháp rút trích, các phng pháp xác nh CTT tiêu biu c dùng khi tp các CTT d tuyn có gii hn, c nh. Tp này có c t tp t vng có th iu tit c hay tp các tiêu . Phng pháp này phân tích các c trng ca các tài liu hn là các c trng ca tng cm t tìm ra các CTT thích hp t tp t vng. / ây, s phân loi nh phân có th c hun luyn cho tng CTT trong tp có k ph$n t ca mt vn bn, vic xác nh CTT cho mt vn bn b%ng cách thc hin k l$n phân loi nh phân và ánh giá chúng xác nh kt qu thích hp. Trong hng tip cn xác nh, CTT có u tiên cao nht, các thông tin tng h gia CTT và các t khác trong vn bn có th c dùng chn la các tính cht (Dumais và CS, 1998). Nu các CTT thit lp thành mt ontology có tính khái quát, chính xác và các mi quan h trên chúng thì các mi quan h này c+ng có th c khai thác cung cp các s kin cho s phát hin các CTT mi không có trong ontology (Pouliquen và CS, 2000). Theo Medelyan và Witten (2006) thì dùng các quan h ng ngh#a và phn ngh#a tính toán tng ng ca các CTT d tuyn cùng vi tính toán thng kê ci tin chính xác ca vic xác nh. Tuy nhiên, mt không thun li ca phng pháp xác nh CTT là nó òi h.i mt kho ng liu có chú gii ln. Trong công trình Hulth (2004), tác gi trình bày mt k! thut hc máy khác vi các k! thut ã dùng trong các công c x lý ngôn ng t nhiên. Tác gi c+ng ã so sánh các phng pháp khác nhau ánh giá vic rút trích các t và cm t d tuyn nh phng pháp gom cm danh t (NP chunking), so trùng m"u t loi (POS), và cui cùng là rút trích n-gram. So trùng các cm t d tuyn tng phn vi các CTT c gán th công, nhng c hai u là hng tip cn hng ngôn ng hc mà chúng thu c kt qu các cm t chính xác hn k! thut n-gram. Hng tip cn gom cm danh t thc hin tt hn các phng pháp rút trích khác b&i nó thu c các cm t không chính xác ít hn. Trong công on chn lc, Hulth dùng bn thuc tính: t$n sut ca thut ng TF, t$n sut ca thut ng trong tp các tài liu IDF (không ging nh trong KEA nó không phi hp nh TFxIDF), v trí xut hin u tiên và nhãn t loi (POS-tag). Mt s kt hp ca Mô hình rút trích cm t c trng ng ngha trong ting Vit 37 nhiu mô hình tiên oán c tác gi áp dng trên các cm t d tuyn (sau khi xóa các t hn nh ch,ng 0n nh some, your, the, .) và thu c kt qu các CTT tri nht. Hng tip cn ca Hulth, mc dù không so sánh ánh giá các phng pháp trên cùng mt tp tài liu thc nghim, nhng kt qu ánh giá ca Hulth li cao hn áng k so vi các công b ca KEA và GenEx (theo hng tip cn rút trích). Hulth mô t quá trình thc hin gii thut ã c ci tin sau khi s dng các k! thut hng ngôn ng cho khâu tuyn chn và phân loi. Kt qu nhn nh ca Hulth là mt ng lc thúc 1y khai thác các k! thut x lý ngôn ng t nhiên sâu hn cho bài toán rút trích và xác nh CTT. 3.3 S tng quan gia hng tip cn rút trích và xác nh CTT Hng tip cn rút trích liên quan cht ch vi hng xác nh CTT, nhng nó gii quyt bài toán CTT theo mt chin lc hoàn toàn khác. Hng rút trích t c s& trên vic phân tích các tính cht ca các CTT mà nó có th tính toán khá n gin và nhanh chóng. Phng pháp rút trích này thích hp cho c hng tip cn hc máy và hng tip cn cho im s n gin i vi các cm t d tuyn hay danh t ng $u ca chúng, em li kt qu chính xác tng ng nhau (Barker và Cornacchia, 2000). Tuy nhiên, hiu sut ca hng tip cn rút trích v"n cha thay th công vic rút trích CTT b%ng th công. Vi hng tip cn xác nh, mc dù các CTT c rút trích t ng có chính xác khá cao (Hulth, 2004), nhng các t trong các CTT s b mt thông tin do hng tip cn này không cha bt c thông tin v các CTT mà chúng không c so trùng. Ngay c khi hai tp CTT kt qu ca hai chuyên gia thc hin th công trên cùng mt tài liu thì hai tp CTT này thông thng c+ng không so trùng nhau. Mc dù, các CTT này liên quan cht ch vi vn bn c xác nh. Vic rút trích CTT t ng không m bo tính chính xác cho các CTT. Thc t các CTT thu c thng là quá tng quát hoc b bin dng. Ngay c các hng tip cn ni bt b&i các k! thut hng n ngôn ng nh so trùng m"u t loi hay nhóm cm danh t c+ng rút trích cm t không úng vn phm hoc Mô hình rút trích cm t c trng ng ngha trong ting Vit 38 thu c các cm t vô dng (vì không th tránh các li do các công c ngôn ng sinh ra). Mc dù các li k! thut này có th c ci tin b%ng cách s dng các công c x lý ngôn ng t nhiên chính xác hn, nhng hng rút trích CTT v"n có nhiu hn ch. Ví d nh không có s ng nht gia các CTT c chn, b&i vì quá trình rút trích c gii hn trong tp t vng ca tài liu. Các tài liu có cách mô t khác nhau v cùng mt ch nhng nhng t ng ngh#a (nh seaweed culture và sea weed farming) nhn c các CTT khác nhau và không th gom nhóm theo ni dung ca chúng. Còn hng xác nh CTT thì tránh c thiu sót này do có tp t vng cho phép iu tit c các thut ng c$n rút trích. Mt vn khác trong vic rút trích các CTT t ng là s gii hn các c tính cú pháp ca cm t mà không quan tâm n ng ngh#a. Các gii thut ca hng rút trích c+ng b. qua ni dung tng th ca vn bn. Vì vy, tp CTT thu c không bao ph ht các ch ca vn bn. Hng tip cn xác nh CTT thì thun li hn hng rút trích trong vn này, vì nó i phân tích ni dung ca vn bn thông qua bng thng kê kh nng ng hin gia các thut ng. 3.4 Phng pháp tip cn ca lun án Vi các kho sát trên, chúng tôi nhn xét r%ng c hai hng tip cn rút trích và xác nh CTT u có các u im c+ng nh hn ch. S phi hp gia hai hng tip cn này cho bài toán rút trích CTT s phát huy li th ca c hai hng, ng thi hn ch các thiu sót ca chúng. ây chính là mc tiêu ca lun án cho mô hình rút trích cm t c trng ng ngha trong câu ting Vit. Mô hình rút trích cm t c trng ng ngh#a tng quát c trình bày nh sau (Hình 3.1). Quy trình cho bài toán rút trích CTTNN tng quát bao gm các công on sau: • Công on 1: tin x lý các câu ting Vit bao gm bài toán phân on t và gán nhãn t loi. • Công on 2: rút trích các cm t d tuyn b%ng phng pháp so trùng m"u (trình bày trong chng 4). • Công on 3: xác nh CTTNN t các cm t d tuyn l$n lt qua các bc sau: Mô hình rút trích cm t c trng ng ngha trong ting Vit 39 o Bc 1: da vào các thông tin ng cnh là các t, hay cm t quan h nhn din các CTTNN ( trình bày trong chng 4). o Bc 2: trong trng hp gia các cm t d tuyn không có các t, hay cm t quan h thì quá trình nhn din CTTNN s c truy vn da trên Ontology (trình bày trong chng 4). o Bc 3: nu các cm t d tuyn cha tn ti trong c s& tri thc (Ontology), thì vic xác nh cm t d tuyn nào là CTTNN s da vào phng pháp hc máy (trình bày trong chng 5). 3.4.1 Công on tin x lý Công on tin x lý bao gm bài toán phân on t và bài toán gán nhãn t loi. Các nghiên cu x lý và h tr ting Vit bc $u ã có mt s kt qu thành công nht nh nh (Tr$n Ngc Tun, 2001; Tuan N. Tran, 2002; Dinh Dien và Hoang Kiem, 2003; Nguy2n Th Minh Huyn và CS, 2003; L. H. Phuong và CS, 2010). Hình 3.1 Mô hình tng quát rút trích cm t c trng ng ngh#a. Tin x lý Câu ting Vit Gán nhãn t loi Phân on t Xác nh cm t c trng ng ngh#a Tp m"u Rút trích các cm t d tuyn Ontology ViO Các CTTNN Da vào Ontology Da vào hc máy Mô hình Mô hình rút trích cm t c trng ng ngha trong ting Vit 40 Trong công trình Tr$n Ngc Tun (Tr$n Ngc Tun, 2001; Tuan N. Tran, 2002) , tác gi ã tip cn mt phng pháp phân on mt chui âm tit ting Vit thành các t. Phng pháp này vn dng các mô hình thng kê, da vào tp ng liu và không dùng t in. Phng pháp hun luyn da vào vic xây dng các mô hình Markov cp 1 và cp 2 (tng ng là bi-gram và tri-gram), và thng kê t$n s xut hin ca các n-gram t mt tp ng liu thô. V mt phng pháp thì mô hình này rt hu ích cho chúng tôi cho trong bài toán phân on t dùng phng pháp thng kê da vào tp ng liu. Tuy nhiên, nu mun dùng mô hình này gii quyt bài toán ca tài thì c$n phi m& rng các mô hình và các gii thut áp dng cho vn phân cm các cm t, vn gán nhãn t loi cho t ting Vit và ci tin các gii thut hun luyn có th thao tác trên các file .HTML có th tn dng c ngun tài nguyên vn bn rt phong phú trên Internet. Trong công trình Dinh Dien và Hoang Kiem (2003), các tác gi dùng phng pháp Transformation-based Learning (TBL) và mô hình Neural Network gii quyt bài toán gán nhãn t loi cho t ting Anh. ng thi các tác gi so sánh vi phng pháp ánh x t loi ting Anh sang ting Vit (Projecting English POS-Tags toVietnamese). Th nghim vi kho ng liu song ng Anh-Vit EVC (English – Vietnamese Corpus) vi 2.000.000 t cho ting Anh và kho ng liu hun luyn cho ting Vit gm 1000 t phc v cho vic ánh giá (do các tác gi xây dng b%ng phng pháp th công). Kt qu t c 82.5% cho phng pháp TBL (ch* dùng kho ng liu hun luyn corpus golden) và 94.5% cho phng pháp TBL và phng pháp ánh x t loi ting Anh sang ting Vit (dùng kho ng liu hun luyn corpus golden và kho ng liu song ng Anh-Vit). Trong công trình Nguy2n Th Minh Huyn và CS (2003). Các tác gi trình bày chi tit các th nghim v gán nhãn t loi cho vn bn ting Vit b%ng cách áp dng b gán nhãn QTAG (mt b gán nhãn xác sut c lp vi ngôn ng) xây dng b gán nhãn t loi ting Vit vnQTAG. [...]... trùng mà lu n án c+ng nh k t qu c a mô hình này s Còn h nh CT TNN là r t quan tr ng xu t trong mô hình xác c phân tích ánh giá các c m t d tuy n không có khái ni m t ng h p ng ng trong Ontology, lu n án ã xu t mô hình rút trích CT TNN trong ti ng Vi t là ViKEe SVMs nh CT TNN, ng ti p c n rút trích CT TNN, v i m c tiêu là gi i quy t tr này, lu n án i theo h ng xây d ng mô hình ng ti p c n h c máy có giám... toán phân o n t và bài toán gán nhãn t lo i, c+ng nh ph 52 ng pháp ánh giá hi u Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t su t cho các mô hình xu t Các ch ng ti p theo, lu n án s trình bày l$n l các công o n còn l i c a mô hình ViKE thông qua hai mô hình t h ng ti p c n xác V ih t ng ng v i hai nh và rút trích CT TNN ng ti p c n xác nh CT TNN, vi c nghiên c u và phát tri n m t c s& tri... kh o sát trong ch CT T trung bình i u hòa F có giá tr cao khi và c tr v ng này, c hai h ng ti p c n rút trích và xác u có các u i m c+ng nh h n ch Lu n án ã nh a ra m t mô hình cho bài toán rút trích CT TNN trong câu ti ng Vi t Mô hình này chính là s ph i h p gi a hai h hai h ng, ng ti p c n rút trích và xác nh CT T nh%m phát huy u i m c a c ng th i h n ch các h n ch c a chúng Ngoài ra trong ch ng... n và cu i cùng là dùng lu t k t h p i n nh trong ví d minh h a (Ví d 3.1) 42 n Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Tìm ki m t trong t i n c a bài toán phân o n t chúng ta có th th y qua m t minh h a & Hình 3.3 3 h c 1 khoa 2 h c 4 c 8 b n 5 k 9 s 6 k 10 thu t 7 máy Hình 3.3 Minh h a tìm ki m t trong t Trong th 11 tính i n c minh h a & Hình 3.3 trên, các chu i có th c so trùng là... khi bi t các nhãn t lo i trong m t lân c n có kích th ck nh, ngh#a là: P(ti | t1 ti-1) = P(ti | ti-k ti-1) Nói chung, các b gán nhãn th ng s d ng gi thi t k b%ng 1 (bigram) ho c 2 (trigram) Nh v y, mô hình xác su t này t ng ng v i m t mô hình Markov 1n, trong ó các tr ng thái 1n là các nhãn t lo i (hay các dãy g m k nhãn n u k > 1), 46 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t và các... phân o n t ti ng Vi t Mô hình cho bài toán phân o n t c trình bày & Hình 3.2 V n b n ti ng ……… t Vi …… T i n ……… T o các FSM (Finite State Machines) Phân o n t (vnTokeniser) T p lu t k t h p …… …… …… Các vnTokens Hình 3.2 Mô hình cho bài toán phân o n t Trong ó, mô un phân o n t th c hi n m t th t c tu$n t nh : tách t gi n, sau ó ti n hành tìm ki m t trong t xác nh các t không có trong t i n và cu i... gán nhãn b%ng tay t lo i t nh ho c g'n cho nó t p t t c các nhãn Trong các i hình thái ng ng ng c a t i n ho c kho ng li u i v i m t t m i ch a xu t hi n trong c s& ng li u thì có th dùng m t nhãn ng$m ngôn ng bi n c t c s& d li u t i ta c+ng d a vào hình thái t ang xét 44 oán nh n l p Mô hình rút trích c m t - Quy t c tr ng ng ngh a trong ti ng Vi t nh k t qu gán nhãn, ó là giai o n lo i b s nh p... c$n thi t trong các h th ng x lý ngôn ng t nhiên ti ng Vi t: phân tích cú pháp, d ch máy song ng , d ch máy a ng , tìm ki m b%ng ngôn ng t nhiên, … Nh ng khó kh n trong phân o n t ti ng Vi t: - Kho ng tr'ng trong câu không ph i là d u hi u phân o n t ti ng Vi t - S$ nh p nh ng trong phân o n t M t ti ng có th xu t hi n trong nhi u t khác nhau, m t t có th ch a nhi u ti ng 41 Mô hình rút trích c m... phù h p nh t cho chu i t w1,… , wT 49 Mô hình rút trích c m t - Ph 1 c tr ng ng ngh a trong ti ng Vi t ng pháp: c t t c các t ; 2 Gán nhãn t lo i cho các t mà không gây ra s nh p nh%ng; 3 Ghi vào b m; m không tr ng) do 4 While (b 5 c 3 t trong b m; for m i t trong 3 t này do 6 7 if t 8 then gán cho t 9 else gán cho t ó có trong t i n ó t t c các nhãn (tag) có trong t i n; ó t t c các nhãn (tag) có... chính xác trung bình 3.4.2 Ph ng pháp ánh giá hi u su t rút trích CT TNN ánh giá hi u qu c a các ph thông s là ng pháp chính xác (Precision) và công th c 3.1 51 y c xu t, lu n án dùng hai (Recall) c nh ngh#a nh Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t E∩A P= E , E∩A R= (3.1) A chính xác là t* s t p giao E ) A v i t p các c m t Trong ó, ngh#a c a câu ang xét nh n di n t h th ng - t p . cho mô hình rút trích cm t c trng ng ngha trong câu ting Vit. Mô hình rút trích cm t c trng ng ngh#a tng quát c trình bày nh sau (Hình. lun án trình bày hng tip cn cho mô Mô hình rút trích cm t c trng ng ngha trong ting Vit 32 hình rút trích CTTNN cho câu ting Vit. Cui