Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 04

23 471 6
Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 04

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

hình rút trích cm t c trng ng ngha trong ting Vit 31 Chng 3 TNG QUAN CÁC HÌNH RÚT TRÍCH CM T C TRNG 3.1 Gii thiu Chng này trc tiên s trình bày tng quan các thành tu ca các nghiên cu hin ti v hng tip cn rút trích và xác nh các cm t c trng (CTT) và so sánh gia hai hng tip cn c bn này cho bài toán rút trích CTT. S so sánh và phân tích này lý gii nguyên nhân ti sao các n lc nghiên cu li c phân b trên c hai hng tip cn. Tip theo lun án trình bày hng tip cn cho hình rút trích cm t c trng ng ngha trong ting Vit 32 hình rút trích CTTNN cho câu ting Vit. Cui cùng, lun án s kt nhng vn  ã c nghiên cu trong chng này. 3.2 Các nghiên cu liên quan Các nghiên cu v cm t c trng c phân loi thành hai hng tip cn chính là rút trích (extraction) và xác nh (assignment) (Medelyan và Witten, 2006). 3.2.1 Hng tip cn rút trích cm t c trng Phng pháp rút trích cm t c trng (CTT) thông thng gm hai công on là tuyn chn các cm t d tuyn và chn lc các CTT trong các cm t d tuyn. - Công on tuyn chn: Các cm t d tuyn bao gm các t và cm t c rút trích t vn bn.  thc hin iu này, mt b gán nhãn t loi và b phân tích cú pháp n gin c s dng  xác nh các cm t d tuyn. - Công on chn lc: Công on này s phân tích các cm t d tuyn theo phng pháp chn lc da vào kinh nghim  xác nh các CTT trong các cm t d tuyn. Các phng pháp chn lc có th c phân thành hai hng tip cn chính là hc máy (machine learning) và hng tip cn tng trng (symbolic) cùng vi các k! thut mà chúng s dng. Trong khi các phng pháp hc máy i xây dng hình thng kê t các tp d liu ã c hun luyn thì vi các phng pháp c trng, các nhà nghiên cu a ra cách chn lc tt nht là da vào các phân tích th công trên các tài liu và các CTT ca chúng. 3.2.1.1 Phng pháp hc máy Rút trích CTT có th c xem là mt quá trình hc có giám sát t các m"u th . Vn  chính là phi nh ngh#a c tp tính cht tính c trng ca CTTNN. Tp tính cht này có th giúp phân bit c các CTT và các cm t không c trng trong các cm t d tuyn. Gii thut hc c$n hai tp tài liu có gán nhãn ca CTT b%ng phng pháp th công: mt tp dùng  hun luyn  to hình phân loi. Tp tài liu còn li dùng  kim nh và ánh giá hình. Trong tp hun luyn, các CTT có th là m"u âm (m"u sai) và m"u dng (m"u úng). Mụ hỡnh rỳt trớch cm t c trng ng ngha trong ting Vit 33 Lc hc mụ hỡnh chn lc l phõn tớch cỏc giỏ tr ca tp tớnh cht c trng cho mi m"u. KEA (Key Phrase Extraction Algorithm) l gii thut rỳt trớch CTT, c mt nhúm nghiờn cu v hc mỏy ti trng i hc Waikato phỏt trin. KEA t nn tng trờn cỏc phng phỏp thit thc v n gin (Frank v CS, 1999; Witten v CS, 1999). Trong cụng on $u tiờn ca phng phỏp rỳt trớch, KEA xỏc nh chui ký t nguyờn bn da vo cỏc du chm cõu, cỏc con s, ký hiu dũng mi v sau ú phõn chia chui ny thnh cỏc t n (token). Tt c cỏc n-grams, nh cỏc t n hay cỏc t ghộp t hai t n tr& lờn, m chỳng khụng b't $u hay kt thỳc b%ng mt t kt thỳc (stopword) u c xem l cỏc CTT d tuyn. KEA tinh ch mi cm t d tuyn ny vi b tinh ch lp Lovins (1968). Trong cụng on chn lc KEA tớnh toỏn hai tớnh cht c trng cho mi cm t d tuyn: ()nh cht TFxIDF (t$n sut ca cm t trong ti liu so sỏnh vi t$n sut ca cm t ú trong tp cỏc ti liu (Salton v McGill, 1983) v khong cỏch ca cm t xut hin $u tiờn trong ti liu tớnh t v trớ $u ca ti liu. Mt lc hc Naùve Bayes (Domingos v Pazzani, 1997) to d liu hun luyn bao gm hai tp trng s: mt tp ca cỏc CTT v mt tp ca cỏc cm t khỏc xut hin trong vn bn. Trong cụng on chn lc, xỏc sut ca mi cm t d tuyn l CTT c tớnh toỏn da trờn cỏc tp trng s ny. Cỏc cm t d tuyn c xp loi theo xỏc sut ó tớnh toỏn v s cm t xp loi cao nht (do ngi s dng xỏc nh) c a vo tp CTT kt qu. Trong cỏc nghiờn cu mi õy, nh Thuy Dung Nguyen v Min-Yen Kan (2007) ó ci tin phng phỏp KEA & cụng on chn lc. S ci tin c thc hin b%ng cỏch dựng li hai ()nh cht c lp ca KEA (hai ()nh cht ny l: ()nh cht TFxIDF (Term Frequency x Inverse Document Frequency) v v trớ xut hin u tiờn (first occurrence)) v khụng dựng ()nh cht l t$n sut ca CTT trong kho ng liu (vỡ cỏc tỏc gi cho r%ng ()nh cht ny ch* hiu qu khi cú mt tp hun luyn ln). ng thi, cỏc tỏc gi c+ng ó xut mt ()nh cht cu trỳc l Section occurrence vector v ba ()nh cht hỡnh v l chui t loi (POS sequence), chui hu t (suffix sequence) v trng thỏi tcu o bng nhng chu a Mô hình rút trích cm t c trng ng ngha trong ting Vit 34 mt m t (acronym status). Kt qu, theo ánh giá ca tác gi thì gii thut này t c  chính xác là 3,25 % (so vi gii thut KEA là 3,03%). GenEx là mt gii thut lai di truyn (hybrid genetic) cho bài toán rút trích CTT do Turney & hi ng nghiên cu quc gia Canada phát trin. GenEx bao gm hai thành ph$n: gii thut Genitor và b rút trích (extractor) (Turney, 1999). B rút trích phi hp tp các ký hiu tng trng thu c qua kinh nghim  to mt danh sách xp loi các CTT, còn các cm t d tuyn là các cm t bao gm trên ba t.  chn lc các CTT trong các cm t d tuyn, mi cm t c cho im cho mi l$n xut hin b%ng các v trí ca nó xut hin trong vn bn. i vi các cm t d tuyn có trên mt t thì im ca chúng s c gia tng. B&i vì, thông thng chúng có im thp hn các cm n t. Sau khi xóa các trng hp trùng và chn lc các dng có t$n sut $y  nht cho mi cm t d tuyn ã c tinh ch, b rút trích a ra các cm t có xp loi cao nht. B rút trích có tt c 12 thông s và c (flag) (ch,ng hn nh h s gia tng cho mi cm t vi 2 thông s ca các CTT kt qu). Gii thut Genitor c áp dng  xác lp các thông s trên mt cách tt nht t tp d liu hun luyn. Tóm li, tác gi cho r%ng quyt nh chn lc các cm t d tuyn còn ph thuc nhiu yu t. Tác gi  xut hình kt hp ca tp các cm t d tuyn dùng thông tin tng h (PMI- Pointwise Mutual Information) gia mt CTT và k CTT trc ó. Tuy nhiên, PMI ca tp CTT c$n mt tp d liu (dataset)  ln. Turney c+ng  xut dùng truy vn trong các ng c tìm kim (Seach Engine) trên Web  có mt c lng s'p xp thô, mc dù iu này có hn ch v bng thông mng Internet và không hiu qu v thi gian. Trong các h thng va trình bày trên, KEA là hng tip cn rút trích CTT n gin nht. GenEx dùng phng pháp ánh giá theo kinh nghim phc tp hn & công on chn lc, tuy nhiên kt qu không tt hn KEA (Frank và CS, 1999). 3.2.1.2 Phng pháp tng trng Barker và Cornacchia (2000) phát trin mt công c rút trích CTT là B&C. B&C không kt hp vi bt c k! thut hc máy nào.  rút trích các cm t d tuyn tác gi dùng mt t in tra cu n gin  gán các nhãn t loi và mt b phân tích t  xác nh tt c các danh t có tính t và danh t b ngh#a cho nó. Mô hình rút trích cm t c trng ng ngha trong ting Vit 35 Trong công on chn lc Barker và Cornacchia tính toán t$n sut ca danh t ng $u ca mi cm t d tuyn, và gi tt c các cm t có danh t ng $u n%m trong N danh t xp loi cao nht. Cho mi cm t, tác gi tính t$n sut nhân vi chiu dài ca nó. K cm t có im cao nht là các CTT ca tài liu. N và K là các ng-ng c xác lp b&i ngi s dng. Các thc nghim ánh giá vi s tham gia ca con ngi ã minh chng hng tip cn n gin này thc hin tt nh b rút trích ca Turney (Turney, 1999). Paice và Black (2003) rút trích các thut ng t các tài liu liên quan trong mt l#nh vc c th và các thut ng này c xem nh là các CTT.  t c t* l kt hp cao hn ca các cm t d tuyn, tác gi bin i mi n-gram c rút trích thành các cm t gi trong ba bc: xóa kh.i n-gram tt c các t kt thúc, tinh lc các thut ng và s'p xp li chúng theo th t bng ch cái. iu này úng cho các cm tng t nhau, ch,ng hn “algorithm efficiency”, “efficiency of algorithms”, “the algorithm’s efficiency”, “an efficient algorithm” và ngay c “the algorithm is very efficient” có cùng cm t gi là “algorithm effici”. Các dng gc ca mi cm t gi c lu vào tp kt thúc. ây là phng pháp kp hp công phu hn quá trình tinh lc n gin và tng im cho tt c im s ca mt nhóm cm t. Phng pháp kt hp này da vào s tng t hình thái ca các t trong cm t. Paice và Black (2003) cho im mi cm t gi theo công thc: score = W * (F-1) * N2 vi W là tng trng s ca tt c t trong cm t gi, F là t$n sut ca cm t trong tài liu, và N là chiu dài ca cm t tính theo n v t (cao nht là 4). Tt c các cm t d tuyn c s'p xp theo im s ca chúng. Bc cui cùng, tác gi áp dng k! thut da trên các m"u  thit lp các vai trò và quan h ng ngh#a gia các cm t còn li. Tác gi tp trung vào ba vai trò chính (nh h ng (influence), i tng (object), và c tính (property)) bao ph các m"u c lp vi l#nh vc nh “effect of influence on property of object”. Các cm t mà không c bao ph b&i bt c m"u nào thì s c xóa. Hng tip cn này là s cng sinh hp lý gia CTT và thông tin rút trích. Nhóm tác gi không cung cp bt c mt s ánh giá nào v phng pháp này, tuy nhiên h ch* trình bày mt s minh ha ni bt rt áng quan tâm. Mô hình rút trích cm t c trng ng ngha trong ting Vit 36 3.2.2 Hng tip cn xác nh cm t c trng Tng phn vi các phng pháp rút trích, các phng pháp xác nh CTT tiêu biu c dùng khi tp các CTT d tuyn có gii hn, c nh. Tp này có c t tp t vng có th iu tit c hay tp các tiêu . Phng pháp này phân tích các c trng ca các tài liu hn là các c trng ca tng cm t  tìm ra các CTT thích hp t tp t vng. / ây, s phân loi nh phân có th c hun luyn cho tng CTT trong tp có k ph$n t ca mt vn bn, vic xác nh CTT cho mt vn bn b%ng cách thc hin k l$n phân loi nh phân và ánh giá chúng  xác nh kt qu thích hp. Trong hng tip cn xác nh, CTT có  u tiên cao nht, các thông tin tng h gia CTT và các t khác trong vn bn có th c dùng  chn la các tính cht (Dumais và CS, 1998). Nu các CTT thit lp thành mt ontology có tính khái quát, chính xác và các mi quan h trên chúng thì các mi quan h này c+ng có th c khai thác  cung cp các s kin cho s phát hin các CTT mi không có trong ontology (Pouliquen và CS, 2000). Theo Medelyan và Witten (2006) thì dùng các quan h ng ngh#a và phn ngh#a  tính toán  tng ng ca các CTT d tuyn cùng vi tính toán thng kê  ci tin  chính xác ca vic xác nh. Tuy nhiên, mt không thun li ca phng pháp xác nh CTT là nó òi h.i mt kho ng liu có chú gii ln. Trong công trình Hulth (2004), tác gi trình bày mt k! thut hc máy khác vi các k! thut ã dùng trong các công c x lý ngôn ng t nhiên. Tác gi c+ng ã so sánh các phng pháp khác nhau  ánh giá vic rút trích các t và cm t d tuyn nh phng pháp gom cm danh t (NP chunking), so trùng m"u t loi (POS), và cui cùng là rút trích n-gram. So trùng các cm t d tuyn tng phn vi các CTT c gán th công, nhng c hai u là hng tip cn hng ngôn ng hc mà chúng thu c kt qu các cm t chính xác hn k! thut n-gram. Hng tip cn gom cm danh t thc hin tt hn các phng pháp rút trích khác b&i nó thu c các cm t không chính xác ít hn. Trong công on chn lc, Hulth dùng bn thuc tính: t$n sut ca thut ng TF, t$n sut ca thut ng trong tp các tài liu IDF (không ging nh trong KEA nó không phi hp nh TFxIDF), v trí xut hin u tiên và nhãn t loi (POS-tag). Mt s kt hp ca Mô hình rút trích cm t c trng ng ngha trong ting Vit 37 nhiu hình tiên oán c tác gi áp dng trên các cm t d tuyn (sau khi xóa các t hn nh ch,ng 0n nh some, your, the, .) và thu c kt qu các CTT tri nht. Hng tip cn ca Hulth, mc dù không so sánh ánh giá các phng pháp trên cùng mt tp tài liu thc nghim, nhng kt qu ánh giá ca Hulth li cao hn áng k so vi các công b ca KEA và GenEx (theo hng tip cn rút trích). Hulth t quá trình thc hin gii thut ã c ci tin sau khi s dng các k! thut hng ngôn ng cho khâu tuyn chn và phân loi. Kt qu nhn nh ca Hulth là mt ng lc thúc 1y  khai thác các k! thut x lý ngôn ng t nhiên sâu hn cho bài toán rút trích và xác nh CTT. 3.3 S tng quan gia hng tip cn rút trích và xác nh CTT Hng tip cn rút trích liên quan cht ch vi hng xác nh CTT, nhng nó gii quyt bài toán CTT theo mt chin lc hoàn toàn khác. Hng rút trích t c s& trên vic phân tích các tính cht ca các CTT mà nó có th tính toán khá n gin và nhanh chóng. Phng pháp rút trích này thích hp cho c hng tip cn hc máy và hng tip cn cho im s n gin i vi các cm t d tuyn hay danh t ng $u ca chúng, em li kt qu  chính xác tng ng nhau (Barker và Cornacchia, 2000). Tuy nhiên, hiu sut ca hng tip cn rút trích v"n cha   thay th công vic rút trích CTT b%ng th công. Vi hng tip cn xác nh, mc dù các CTT c rút trích t ng có  chính xác khá cao (Hulth, 2004), nhng các t trong các CTT s b mt thông tin do hng tip cn này không cha bt c thông tin v các CTT mà chúng không c so trùng. Ngay c khi hai tp CTT kt qu ca hai chuyên gia thc hin th công trên cùng mt tài liu thì hai tp CTT này thông thng c+ng không so trùng nhau. Mc dù, các CTT này liên quan cht ch vi vn bn c xác nh. Vic rút trích CTT t ng không m bo tính chính xác cho các CTT. Thc t các CTT thu c thng là quá tng quát hoc b bin dng. Ngay c các hng tip cn ni bt b&i các k! thut hng n ngôn ng nh so trùng m"u t loi hay nhóm cm danh t c+ng rút trích cm t không úng vn phm hoc Mô hình rút trích cm t c trng ng ngha trong ting Vit 38 thu c các cm t vô dng (vì không th tránh các li do các công c ngôn ng sinh ra). Mc dù các li k! thut này có th c ci tin b%ng cách s dng các công c x lý ngôn ng t nhiên chính xác hn, nhng hng rút trích CTT v"n có nhiu hn ch. Ví d nh không có s ng nht gia các CTT c chn, b&i vì quá trình rút trích c gii hn trong tp t vng ca tài liu. Các tài liu có cách t khác nhau v cùng mt ch  nhng nhng t ng ngh#a (nh seaweed culture và sea weed farming) nhn c các CTT khác nhau và không th gom nhóm theo ni dung ca chúng. Còn hng xác nh CTT thì tránh c thiu sót này do có tp t vng cho phép iu tit c các thut ng c$n rút trích. Mt vn  khác trong vic rút trích các CTT t ng là s gii hn các c tính cú pháp ca cm t mà không quan tâm n ng ngh#a. Các gii thut ca hng rút trích c+ng b. qua ni dung tng th ca vn bn. Vì vy, tp CTT thu c không bao ph ht các ch  ca vn bn. Hng tip cn xác nh CTT thì thun li hn hng rút trích trong vn  này, vì nó i phân tích ni dung ca vn bn thông qua bng thng kê kh nng ng hin gia các thut ng. 3.4 Phng pháp tip cn ca lun án Vi các kho sát trên, chúng tôi nhn xét r%ng c hai hng tip cn rút trích và xác nh CTT u có các u im c+ng nh hn ch. S phi hp gia hai hng tip cn này cho bài toán rút trích CTT s phát huy li th ca c hai hng, ng thi hn ch các thiu sót ca chúng. ây chính là mc tiêu ca lun án cho hình rút trích cm t c trng ng ngha trong câu ting Vit. hình rút trích cm t c trng ng ngh#a tng quát c trình bày nh sau (Hình 3.1). Quy trình cho bài toán rút trích CTTNN tng quát bao gm các công on sau: • Công on 1: tin x lý các câu ting Vit bao gm bài toán phân on t và gán nhãn t loi. • Công on 2: rút trích các cm t d tuyn b%ng phng pháp so trùng m"u (trình bày trong chng 4). • Công on 3: xác nh CTTNN t các cm t d tuyn l$n lt qua các bc sau: Mô hình rút trích cm t c trng ng ngha trong ting Vit 39 o Bc 1: da vào các thông tin ng cnh là các t, hay cm t quan h  nhn din các CTTNN ( trình bày trong chng 4). o Bc 2: trong trng hp gia các cm t d tuyn không có các t, hay cm t quan h thì quá trình nhn din CTTNN s c truy vn da trên Ontology (trình bày trong chng 4). o Bc 3: nu các cm t d tuyn cha tn ti trong c s& tri thc (Ontology), thì vic xác nh cm t d tuyn nào là CTTNN s da vào phng pháp hc máy (trình bày trong chng 5). 3.4.1 Công on tin x lý Công on tin x lý bao gm bài toán phân on t và bài toán gán nhãn t loi. Các nghiên cu x lý và h tr ting Vit bc $u ã có mt s kt qu thành công nht nh nh (Tr$n Ngc Tun, 2001; Tuan N. Tran, 2002; Dinh Dien và Hoang Kiem, 2003; Nguy2n Th Minh Huyn và CS, 2003; L. H. Phuong và CS, 2010). Hình 3.1 hình tng quát rút trích cm t c trng ng ngh#a. Tin x lý Câu ting Vit Gán nhãn t loi Phân on t Xác nh cm t c trng ng ngh#a Tp m"u Rút trích các cm t d tuyn Ontology ViO Các CTTNN Da vào Ontology Da vào hc máy hìnhhình rút trích cm t c trng ng ngha trong ting Vit 40 Trong công trình Tr$n Ngc Tun (Tr$n Ngc Tun, 2001; Tuan N. Tran, 2002) , tác gi ã tip cn mt phng pháp phân on mt chui âm tit ting Vit thành các t. Phng pháp này vn dng các hình thng kê, da vào tp ng liu và không dùng t in. Phng pháp hun luyn da vào vic xây dng các hình Markov cp 1 và cp 2 (tng ng là bi-gram và tri-gram), và thng kê t$n s xut hin ca các n-gram t mt tp ng liu thô. V mt phng pháp thì hình này rt hu ích cho chúng tôi cho trong bài toán phân on t dùng phng pháp thng kê da vào tp ng liu. Tuy nhiên, nu mun dùng hình này  gii quyt bài toán ca  tài thì c$n phi m& rng các hình và các gii thut  áp dng cho vn  phân cm các cm t, vn  gán nhãn t loi cho t ting Vit và ci tin các gii thut hun luyn  có th thao tác trên các file .HTML  có th tn dng c ngun tài nguyên vn bn rt phong phú trên Internet. Trong công trình Dinh Dien và Hoang Kiem (2003), các tác gi dùng phng pháp Transformation-based Learning (TBL) và hình Neural Network  gii quyt bài toán gán nhãn t loi cho t ting Anh. ng thi các tác gi so sánh vi phng pháp ánh x t loi ting Anh sang ting Vit (Projecting English POS-Tags toVietnamese). Th nghim vi kho ng liu song ng Anh-Vit EVC (English – Vietnamese Corpus) vi 2.000.000 t cho ting Anh và kho ng liu hun luyn cho ting Vit gm 1000 t  phc v cho vic ánh giá (do các tác gi xây dng b%ng phng pháp th công). Kt qu t c 82.5% cho phng pháp TBL (ch* dùng kho ng liu hun luyn corpus golden) và 94.5% cho phng pháp TBL và phng pháp ánh x t loi ting Anh sang ting Vit (dùng kho ng liu hun luyn corpus golden và kho ng liu song ng Anh-Vit). Trong công trình Nguy2n Th Minh Huyn và CS (2003). Các tác gi trình bày chi tit các th nghim v gán nhãn t loi cho vn bn ting Vit b%ng cách áp dng b gán nhãn QTAG (mt b gán nhãn xác sut c lp vi ngôn ng)  xây dng b gán nhãn t loi ting Vit vnQTAG. [...]... trùng mà lu n án c+ng nh k t qu c a hình này s Còn h nh CT TNN là r t quan tr ng xu t trong hình xác c phân tích ánh giá các c m t d tuy n không có khái ni m t ng h p ng ng trong Ontology, lu n án ã xu t hình rút trích CT TNN trong ti ng Vi t là ViKEe SVMs nh CT TNN, ng ti p c n rút trích CT TNN, v i m c tiêu là gi i quy t tr này, lu n án i theo h ng xây d ng hình ng ti p c n h c máy có giám... toán phân o n t và bài toán gán nhãn t lo i, c+ng nh ph 52 ng pháp ánh giá hi u hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t su t cho các hình xu t Các ch ng ti p theo, lu n án s trình bày l$n l các công o n còn l i c a hình ViKE thông qua hai hình t h ng ti p c n xác V ih t ng ng v i hai nh và rút trích CT TNN ng ti p c n xác nh CT TNN, vi c nghiên c u và phát tri n m t c s& tri... kh o sát trong ch CT T trung bình i u hòa F có giá tr cao khi và c tr v ng này, c hai h ng ti p c n rút trích và xác u có các u i m c+ng nh h n ch Lu n án ã nh a ra m t hình cho bài toán rút trích CT TNN trong câu ti ng Vi t hình này chính là s ph i h p gi a hai h hai h ng, ng ti p c n rút trích và xác nh CT T nh%m phát huy u i m c a c ng th i h n ch các h n ch c a chúng Ngoài ra trong ch ng... n và cu i cùng là dùng lu t k t h p i n nh trong ví d minh h a (Ví d 3.1) 42 n hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Tìm ki m t trong t i n c a bài toán phân o n t chúng ta có th th y qua m t minh h a & Hình 3.3 3 h c 1 khoa 2 h c 4 c 8 b n 5 k 9 s 6 k 10 thu t 7 máy Hình 3.3 Minh h a tìm ki m t trong t Trong th 11 tính i n c minh h a & Hình 3.3 trên, các chu i có th c so trùng là... khi bi t các nhãn t lo i trong m t lân c n có kích th ck nh, ngh#a là: P(ti | t1 ti-1) = P(ti | ti-k ti-1) Nói chung, các b gán nhãn th ng s d ng gi thi t k b%ng 1 (bigram) ho c 2 (trigram) Nh v y, hình xác su t này t ng ng v i m t hình Markov 1n, trong ó các tr ng thái 1n là các nhãn t lo i (hay các dãy g m k nhãn n u k > 1), 46 hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t và các... phân o n t ti ng Vi t hình cho bài toán phân o n t c trình bày & Hình 3.2 V n b n ti ng ……… t Vi …… T i n ……… T o các FSM (Finite State Machines) Phân o n t (vnTokeniser) T p lu t k t h p …… …… …… Các vnTokens Hình 3.2 hình cho bài toán phân o n t Trong ó, un phân o n t th c hi n m t th t c tu$n t nh : tách t gi n, sau ó ti n hành tìm ki m t trong t xác nh các t không có trong t i n và cu i... gán nhãn b%ng tay t lo i t nh ho c g'n cho nó t p t t c các nhãn Trong các i hình thái ng ng ng c a t i n ho c kho ng li u i v i m t t m i ch a xu t hi n trong c s& ng li u thì có th dùng m t nhãn ng$m ngôn ng bi n c t c s& d li u t i ta c+ng d a vào hình thái t ang xét 44 oán nh n l p hình rút trích c m t - Quy t c tr ng ng ngh a trong ti ng Vi t nh k t qu gán nhãn, ó là giai o n lo i b s nh p... c$n thi t trong các h th ng x lý ngôn ng t nhiên ti ng Vi t: phân tích cú pháp, d ch máy song ng , d ch máy a ng , tìm ki m b%ng ngôn ng t nhiên, … Nh ng khó kh n trong phân o n t ti ng Vi t: - Kho ng tr'ng trong câu không ph i là d u hi u phân o n t ti ng Vi t - S$ nh p nh ng trong phân o n t M t ti ng có th xu t hi n trong nhi u t khác nhau, m t t có th ch a nhi u ti ng 41 hình rút trích c m... phù h p nh t cho chu i t w1,… , wT 49 hình rút trích c m t - Ph 1 c tr ng ng ngh a trong ti ng Vi t ng pháp: c t t c các t ; 2 Gán nhãn t lo i cho các t mà không gây ra s nh p nh%ng; 3 Ghi vào b m; m không tr ng) do 4 While (b 5 c 3 t trong b m; for m i t trong 3 t này do 6 7 if t 8 then gán cho t 9 else gán cho t ó có trong t i n ó t t c các nhãn (tag) có trong t i n; ó t t c các nhãn (tag) có... chính xác trung bình 3.4.2 Ph ng pháp ánh giá hi u su t rút trích CT TNN ánh giá hi u qu c a các ph thông s là ng pháp chính xác (Precision) và công th c 3.1 51 y c xu t, lu n án dùng hai (Recall) c nh ngh#a nh hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t E∩A P= E , E∩A R= (3.1) A chính xác là t* s t p giao E ) A v i t p các c m t Trong ó, ngh#a c a câu ang xét nh n di n t h th ng - t p . cho mô hình rút trích cm t c trng ng ngha trong câu ting Vit. Mô hình rút trích cm t c trng ng ngh#a tng quát c trình bày nh sau (Hình. lun án trình bày hng tip cn cho mô Mô hình rút trích cm t c trng ng ngha trong ting Vit 32 hình rút trích CTTNN cho câu ting Vit. Cui

Ngày đăng: 07/11/2012, 12:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan