Nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt

95 191 0
Nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Viện công nghệ thông tin Báo cáo tổng kết khoa học công nghệ đề tài nhánh dóng hàng văn song ngữ pháp-việt thuộc đề tài cấp nhà nớc nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng việt Mã số: KC 01.03 Chủ nhiệm đề tài: gs.tskh bạch hng khang 6455-5 07/8/2007 Hà Nội- 2004 BO CO KT QU THC HIN CA NHNH TI DểNG HNG VN BN SONG NG PHP - VIT thuc ti cp nh nc "Nghiờn cu phỏt trin cụng ngh nhn dng, tng hp v x lớ ngụn ng ting Vit" KC01-03 H Ni, 2004 MC LC MC LC DANH MC BNG DANH MC HèNH V GII THIU Chng TI LIU K THUT DểNG HNG VN BN SONG NG PHP - VIT 1.1 Gii thiu 1.2 Dúng hng mc cõu 1.2.1 Phng phỏp lun 1.2.2 Kt qu 11 1.3 Dúng hng mc t/ng 11 1.3.1 Phng phỏp lun 11 1.3.2 Kt qu 12 1.4 Hng dn s dng phn mm 13 1.4.1 Phn mm dúng hng mc cõu 13 1.4.2 Phn mm dúng hng mc n v t vng 15 1.4.3 Phn mm hin th/son tho kt qu dúng hng 15 1.5 Ti liu tham kho 17 Chng CễNG C V TI NGUYấN NGễN NG CHO PHN TCH VN BN 19 Chng S DNG B GN NHN T LOI XC SUT QTAG CHO VN BN TING VIT A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts 20 3.1 Gii thiu 20 3.2 Bi toỏn gỏn nhón t loi 21 3.3 Xõy dng t in t vng, xỏc nh b chỳ thớch t loi ting vit 22 3.3.1 T in t vng 22 3.3.2 Xõy dng b chỳ thớch t loi 23 3.4 Phõn tỏch t bn ting Vit 23 3.4.1 t bi toỏn 23 3.4.2 Cỏc bc gii quyt 24 3.4.3 ỏnh giỏ kt qu 26 3.5 Th nghim b gn nhón QTAG cho ting Vit 27 3.5.1 Phng phỏp gỏn nhón xỏc sut 27 3.5.2 B gỏn nhón QTAG 28 3.5.3 S dng QTAG cho ting Vit 29 3.6 Kt lun 31 3.7 Ti liu tham kho 31 Chng Xõy dng kho t vng ng phỏp ting Vit 33 4.1 Gii thiu chung 33 4.1.1 c im t ting Vit 33 4.1.2 Vn phõn loi t 34 4.1.3 Chun hoỏ s mụ t c im t loi 34 4.2 Lp trung tõm: phõn chia t loi mc 35 4.2.1 Danh t (Nouns): 36 4.2.2 ng t (Verbs): 36 4.2.3 Tớnh t (Adjectives): 36 4.2.4 i t (Pronouns): 37 4.2.5 nh t (Determiners/Articles): 37 4.2.6 Ph t (cũn gi: phú t) (Adverbs): 37 4.2.7 Gii t (Adpositions): 37 4.2.8 Liờn t (Conjunctions): 37 4.2.9 S t (Numerals): 37 4.2.10 Thỏn t (cm t) (Interjection): 37 4.2.11 Tỡnh thỏi t (Modal particle): 37 4.2.12 T hp c nh: 38 4.2.13 T n l (Unique): 38 4.2.14 T vit tt (Abbreviation): 38 4.2.15 Cỏc t ng cũn li : 38 4.3 Lp ngoi: cỏc mụ t t loi chi tit 38 4.3.1 Danh t (Nouns - N) 38 4.3.2 ng t (Verbs - V) 40 4.3.3 Tớnh t (Adjectives - A) 41 4.3.4 i t (Pronouns - P) 41 4.3.5 nh t (Determiners/Articles - D) 42 4.3.6 S t (Numerals - M) 42 4.3.7 Ph t (Adverbs - R) 42 4.3.8 Gii t (Adpositions - S) 44 4.3.9 Liờn t (Conjunctions - C) 44 4.3.10 Thỏn t (Interjections - I) 44 4.3.11 Tr t - tiu t - t tỡnh thỏi (Particles -T) 45 4.3.12 T hp t c nh 45 4.3.13 T n l (Unique - U) 45 4.3.14 T vit tt (Abbreviations - Y) 45 4.3.15 Cỏc t cũn li khụng phõn loi c (Residual - X) 45 4.4 Biu din d liu t vng 46 Chng T CHC C S NG LIU 49 5.1 Gii thiu 49 5.2 Xỏc ng n v ng phỏp ting Vit 50 5.2.1 T phỏp hc 50 1.1.1 T v t vng 50 1.1.2 T loi 52 5.2.2 Cỳ phỏp hc 53 1.1.3 Khỏi lc v ng 53 1.1.4 Khỏi lc v cõu 57 1.1.5 Cỏc thnh phn chớnh ca cõu 57 1.1.6 Cỏc thnh phn ph ca cõu 58 1.1.7 Phõn loi cõu 59 5.3 Phõn tớch miờu t mụ hỡnh húa n v cõu v ng ting Vit 61 5.3.1 T chc ng liu mu 61 5.3.2 Phõn tớch Miờu t n v cõu v ng 64 5.3.3 Mụ hỡnh húa n v cõu v ng 66 5.4 Kt lun 68 5.5 Ti liu tham kho 68 Chng VN PHM PHI NG CNH V PHN TCH C PHP TING VIT 70 6.1 Vn phm phi ng cnh 70 6.1.1 Vn phm v ngụn ng sinh bi phm 70 6.1.2 Vn phm phi ng cnh 70 6.1.3 Biu din cu trỳc cõu 71 6.1.4 ỏnh giỏ hai phng phỏp phõn tớch trờn 74 6.1.5 Phng phỏp phõn tớch tng hp 74 6.2 Gii thiu chng trỡnh vnParser 75 6.2.1 Module tỏch t vng 75 6.2.2 Module phõn tớch cỳ phỏp 76 6.2.3 Ci t chng trỡnh 76 6.2.4 Chng trỡnh ngun 77 6.3 Ti liu tham kho 77 Chng VN PHN TCH C PHP V LTAG 79 7.1 Phõn tớch cỳ phỏp 79 7.2 Vn phm kt ni cõy t vng hoỏ (Lexicalized Tree Adjoining Grammar - LTAG) 80 7.2.1 nh ngha hỡnh thc ca phm TAG 80 7.3 TAGML - nh dng XML cho cỏc ti nguyờn dựng cho LTAG 83 7.3.1 Mụ t cỏc mc t vng 83 7.3.2 Mụ t cõy c s t vng hoỏ 84 7.4 Cỏc cụng c ó trin khai LORIA 85 7.5 Mụ hỡnh TAG v ng phỏp ting Vit 86 7.6 Kt qu v hng nghiờn cu 93 7.7 Ti liu tham kho 94 DANH MC BNG Bng 1-1 Cỏc phộp dch c bn Bng 3-1 Kt qu gỏn nhón t loi mc 31 Bng 5-1 Danh sỏch t loi 61 Bng 6-1 Mt phm phi ng cnh n gin 74 DANH MC HèNH V Hỡnh 1-1 Cu trỳc logic dng cõy ca mt bn biu din di dng XML 10 Hỡnh 1-2 Giao din xem liờn kt dúng hng 16 Hỡnh 1-3 Giao din son tho liờn kt dúng hng .17 Hỡnh 3-1 Xõy dng ụtụmỏt õm tit .24 Hỡnh 3-2 Xõy dng ụtụmỏt t vng 25 Hỡnh 3-3 Mt tỡnh nhp nhng 26 Hỡnh 4-1 S t chc kho d liu t vng theo TC 37 / SC 46 Hỡnh 4-2 S tng quỏt v b t vng hỡnh thỏi cỳ phỏp 47 Hỡnh 6-1 Phõn loi phm ca Chomsky .71 Hỡnh 6-2 Cõy biu din cõu John ate the cat 73 Hỡnh 6-3 c t cỏc lp module phõn tớch t vng 75 Hỡnh 6-4 c t cỏc lp module phõn tớch cỳ phỏp 76 Hỡnh 7-1 Cõy cỳ phỏp 79 Hỡnh7-2 Cõy c s 81 Hỡnh 7-3 S phộp ni cõy 81 Hỡnh 7-4 S phộp th .81 Hỡnh 7-5 S phộp th vi cu trỳc c trng 82 Hỡnh 7-6 S phộp ni cõy vi cu trỳc c trng 83 Hỡnh 7-7 Cu trỳc danh ng 86 Hỡnh 7-8 Quan h ph thuc gia cỏc thnh phn nh ng 87 GII THIU Tờn sn phm chớnh: Phn mm dúng hng bn song ng Phỏp - Vit Ton b sn phm: - Dúng hng: o Cụng c phn mm: h thng cú kh nng xỏc nh cỏc tng ng dch mc t/ng on cỏc bn song ng Phỏp - Vit, nhm h tr cho vic dch t ng hay dch tay, cng nh phc v cho cỏc nghiờn cu ngụn ng v t vng, thut ng mt hay nhiu ngụn ng hoc cú th h tr cho vic hc ting o Kho ng liu: kho bn song ng Phỏp - Vit v Anh - Vit c thu thp v mó hoỏ theo s biu din ang c xem xột a vo chun quc t v biu din v qun lớ ti nguyờn ngụn ng quc t - Sn phm kốm theo: o Cụng c phn mm: B cụng c x lớ t ng bn ting Vit nh phn mm tỏch t (tokenizer), phn mm gỏn nhón t loi t ng (POS tagger), phn mm i chiu t loi (concordancer), phn mm phõn tớch cỳ phỏp cõu ting Vit (parser) o Kho ng liu: C s ng liu ting Vit gm b t vng cú mụ t cỏc thụng tin ng phỏp, t vng; kho bn ting Vit cú gỏn nhón t loi, quy tc ng phỏp Cng nh kho ng liu song ng trờn, kho ng liu ting Vit ny cng c mó hoỏ theo s biu din ang c xem xột a vo chun quc t v biu din v qun lớ ti nguyờn ngụn ng Nhng ngi tham gia ti: - - Chu trỏch nhim trc tip: Nguyn Th Minh Huyn, Trng i hc Khoa hc T nhiờn, i hc Quc gia H Ni Cng tỏc viờn chuyờn ngnh Tin hc: o Lờ Hng Phng, hc viờn cao hc thuc Vin Tin hc Phỏp ng (IFI) H Ni, cỏn b Trng i hc Khoa hc T nhiờn, i hc Quc gia H Ni o Nguyn Thnh Bụn, hc viờn cao hc thuc Vin Tin hc Phỏp ng (IFI) H Ni Cng tỏc viờn chuyờn ngnh Ngụn ng hc: o V Xuõn Lng, biờn viờn, Trung tõm T in o Cỏc chuyờn viờn ngụn ng khỏc thuc Trung tõm T in Chng TI LIU K THUT DểNG HNG VN BN SONG NG PHP - VIT Biờn son: Nguyn Thnh Bụn, Vin Tin hc Phỏp ng (IFI), H Ni Nguyn Th Minh Huyn, Trng i hc Khoa hc T nhiờn, H Ni 1.1 Gii thiu Do xu hng ton cu hoỏ i kốm vi a phng hoỏ, nhu cu dch tt c cỏc lnh vc khụng ngng tng lờn Trong ú, lnh vc dch t ng ó i t hn 50 nm trc, nhng cho n kt qu cũn ht sc hn ch Mt xu hng mi ó i nhng nm gn õy nhm tn dng khai thỏc kho tng khng l cỏc bn dch nhiu th ting, thuc th loi nh hc, bỏo chớ, hn lõm hay lut hc Vic s dng kho ti nguyờn gm cỏc bn dch a phn cú cht lng rt tt ny xõy dng cỏc b nh dch hay cỏc b t vng a ng cỏc h thng dch mỏy cú v l mt gii phỏp hp lớ Cỏch khai thỏc kho bn dch a ng hay cũn gi l bn song song (parallel texts) ny l thc hin vic dúng hng (alignment) Nhng h thng dúng hng bt ngun t cỏc cụng trỡnh khoa hc lnh vc nghiờn cu ngụn ng hc da vo kho bn Dúng hng bn song song (Alignment of parallel texts) l cụng vic tỡm kim t ng cỏc tng ng dch cỏc bn c dch t cựng mt bn gc no ú Cỏc tng ng dch ny cú th cỏc mc chi tit khỏc nhau: cú ch ũi hi ớt chi tit l mc on, ph bin nht l mc cõu, v chi tit, lớ tng hn l mc ng on hoc t Cho n cỏc h thng dúng hng mc cõu ó c kt qu khỏ tt, vi chớnh xỏc xp x 95% m ch s dng cỏc thụng tin thng kờ khỏ c lp vi ngụn ng, tr trng hp cỏc bn dch khụng tht s "song song" (chng hn nh dch lc bt nhiu) Trong ú cỏc h thng dúng hng mc t, ng on thỡ kt qu kộm chớnh xỏc hn v hin nhiờn ph thuc vo tng cp ngụn ng c th Trong khuụn kh ca d ỏn ny, chỳng tụi trung nghiờn cu dúng hng mc cõu v mc t/ng cho cỏc bn song ng Phỏp - Vit S la chn cp ngụn ng ny n gin xut phỏt t hp tỏc nghiờn cu ca nhúm chỳng tụi vi nhúm nghiờn cu thuc trung tõm nghiờn cu Tin hc v T ng hoỏ vựng Lorraine ca Phỏp (LORIA1) i vi vic dúng hng mc cõu, chỳng tụi ỏp dng phng phỏp ó c nhúm trin khai giai on trc cho cỏc cp ngụn ng n - u cho cp ting Phỏp - Vit v ỏnh giỏ kt qu nhm iu chnh cỏc tham s ca h thng mt cỏch phự hp nht i vi vic dúng hng mc t ng, nghiờn cu trung vo vic ci tin k thut dúng hng mc t s dng phng phỏp vect khong cỏch DVec bng cỏch kt hp vi k thut http:// www.loria.fr dúng hng cú cu trỳc Vic dúng hng bn song ng mc t ũi hi bc tin x lớ l phõn tớch t ng cỏc bn c xột iu ny ũi hi cỏc cụng c phõn tớch bn tng ngụn ng, õy l ting Phỏp v ting Vit Trong cỏc cụng c v ti nguyờn ngụn ng cho phõn tớch cỏc ngụn ng n u núi chung v ting Phỏp núi riờng c phỏt trin a dng t nhiu nm thỡ cụng c v c bit l ti nguyờn ngụn ng cho vic phõn tớch ting Vit cú th núi l khụng cú gỡ Cỏc nghiờn cu khuụn kh ti ny ó trung a phn thi gian v nhõn lc xõy dng v phỏt trin ti nguyờn ngụn ng v cụng c chun mc cho vic phõn tớch bn ting Vit (xem chng 2) Phn trin khai h thng dúng hng mc t ng ó c thc hin bc u, thi gian cú hn nờn c s ng liu xõy dng c cha ln cú kh nng a c mụ hỡnh dch Phỏp - Vit y Trong chng ny chỳng tụi s trỡnh by phn chớnh Phn th nht trung vo k thut dúng hng mc cõu v kt qu thu c trờn kho ng liu Phỏp - Vit Phn th hai trung vo k thut dúng hng mc t ng Cỏc nghiờn cu c bn v phõn tớch bn ting Vit c trỡnh by cỏc chng sau 1.2 Dúng hng mc cõu 1.2.1 Phng phỏp lun 1.2.1.1 Dúng hng ng T tng c bn ca k thut dúng hng ng mc cõu l da trờn mt mụ hỡnh thng kờ theo di bn (s kớ t) Mt phộp dúng mt cõu bn ngun ti mt cõu bn ớch ph thuc rt nhiu vo cỏch dch Ngi ta ó thng kờ l phn ln cỏc phộp dch cõu thuc mt kiu sau õy : Bng 1-1 Cỏc phộp dch c bn S cõu bn ngun 2 Nhiu hn mt cõu S cõu bn ớch 1 2 Nhiu hn mt cõu Phộp dch Thay th Rỳt gn Phỏt trin Hn hp Lc b yu Chốn yu Lc b mnh Chốn mnh K thut dúng hng ng da trờn gi thit l bn song ng ch cha cỏc kiu dch nh trờn mt cỏch "tuyn tớnh", tc l khụng xột n cỏc trng hp dch chộo nhiu hn cõu bn tin hnh dúng hng mc cõu, ta thc hin cỏc bc sau : 7.2 Vn phm kt ni cõy t vng hoỏ (Lexicalized Tree Adjoining Grammar - LTAG) TAG l mt h hỡnh thc vit li dng cõy, c a vo na cui thp k 80 LTAG l mt h hỡnh thc tng ng, cú thờm rng buc t vng hoỏ LTAG ó c nghiờn cu k cho ting Phỏp v ting Anh (XTAG, 2001; Abeillộ, 2002) Vic la chn LTAG khuụn kh d ỏn xut phỏt t yu t lớ thuyt v thc hnh V mt lớ thuyt, giao din cỳ phỏp/ng ngha TAG c th hin n gin hn phm phi ng cnh, nh cỏc a phng m rng TAG; ú thỡ phc thi gian ca cỏc b phõn tớch cỳ phỏp TAG l thi gian a thc (O(n6)) V mt thc hnh, cỏc cụng c tng quỏt cho cỏc h thng phõn tớch cỳ phỏp da vo h hỡnh thc LTAG khỏ nhiu (XTAG, Daylog) v cng c trin khai LORIA t lõu (Crabbộ et al., 2003) Ngoi ra, cú c mt chun nh dng cho d liu TAGML (Bonhomme & Lopez, 2000) Nh vy, khuụn kh ca ti ny, nhim v chớnh ca chỳng tụi l thc hin mụ t ng phỏp ting Vit theo mụ hỡnh TAG Trong phn ny chỳng tụi túm tt cỏc c im ca mụ hỡnh LTAG LTAG thao tỏc vi cỏc i tng c bn cú cu trỳc (cõy) ch khụng phi l cỏc xõu Vic s dng cỏc i tng cú cu trỳc cho phộp xõy dng cỏc h hỡnh thc cú kh nng sinh mnh, tc l cho phộp sinh cỏc mụ t cu trỳc ch khụng ch sinh cỏc xõu 7.2.1 nh ngha hỡnh thc ca phm TAG Mụ hỡnh lớ thuyt ca phm TAG l mt b nm (, N, I, A, S), ú: o o o o o : cỏc kớ hiu kt thỳc (bng ch cỏi chớnh) N: cỏc kớ hiu khụng kt thỳc (bng ch cỏi ph) I: cỏc cõy c s u (initial) A: cỏc cõy c s ph tr (auxiliary) S: tiờn (S N) Cỏc cõy c s phm u l cỏc cõy m mi nỳt c ỏnh du (t tờn) bng mt kớ hiu kt thỳc hoc khụng kt thỳc Cỏc nỳt c ỏnh du bng mt kớ hiu kt thỳc u l cỏc nỳt lỏ ca cõy Hai thao tỏc phm TAG l phộp ni (adjoining) v phộp th (substitution) i vi cỏc cõy u, mi nỳt lỏ cú kớ hiu khụng kt thỳc cú ỏnh du th hin kh nng thc hin phộp th ti cỏc nỳt ú i vi cỏc cõy ph tr, mi cõy u cú cha mt nỳt lỏ trựng tờn vi nỳt gc (mang kớ hiu khụng kt thỳc) nỳt lỏ ny c ỏnh du bng kớ hiu * v c gi l nỳt chõn ca cõy ph tr Mi cõy ph tr ch cú mt nỳt chõn S mụ t : 80 cõy c s u vi cỏc nỳt thay th lỏ cõy c s ph tr vi nỳt chõn X X* X Hỡnh7-2 Cõy c s Phộp ni c thc hin ti mt nỳt X mt cõy u vi mt cõy ph tr cú nỳt gc l X S mụ t phộp ni nh sau: X X X X* Hỡnh 7-3 S phộp ni cõy Phộp th c thc hin nỳt lỏ X cõy u vi mt cõy u khỏc cú nỳt gc l X S mụ t phộp th nh sau: X X Hỡnh 7-4 S phộp th 81 cỏc nỳt cõy mun rng buc cm thc hin phộp ni, quy c vit thờm kớ hiu NA Khi phõn tớch mt cõu vi h hỡnh thc TAG, kt qu thu c gm cú cõy: cõy cỳ phỏp biu din ph thuc ng phỏp gia cỏc thnh phn, v cõy dn xut biu th ph thuc ng ngha õy cn chỳ ý l khỏc vi phm phi ng cnh ú cho cõy cỳ phỏp ta suy c cỏc dn xut ó thc hin, cũn i vi TAG thỡ cho cõy cỳ phỏp khụng suy c cỏc dn xut - m phi cn n cõy dn xut lm c iu ny Cõy dn xut cú cu to nh sau: cỏc nỳt trờn cõy c ỏnh du bng tờn ca cỏc cõy c s tham gia vo dn xut, mi cung ni gia nỳt ca cõy c ỏnh du bng thao tỏc thc hin trờn cõy tng ng vi nỳt ú (phộp ni hay phộp th) v v trớ thc hin thao tỏc trờn cõy c s Cỏc v trớ trờn mi cõy c s c ỏnh s nh sau: nỳt gc c ỏnh s 0; cỏc nỳt thuc tng cú sõu c ỏnh s t tr i; cỏc nỳt thuc tng n+1 (n>=1) c ỏnh s n.1, n.2 v.v Cú nguyờn tc xõy dng cõy c s mụ hỡnh TAG (Abeillộ, 1993): Nguyờn tc t vng hoỏ hay "neo" t vng: tt c cỏc cõy c s u cú ớt nht mt trung tõm t vng khỏc rng Nguyờn tc ng xut hin v t v i hay chia phm trự: mi v t cha cu trỳc c s ca nú ớt nht mt nỳt cho mi i m nú chia phm trự Nguyờn tc ng ngha nht quỏn: mi cõy ng phỏp c s u cú mt ng ngha tng ng khỏc rng Nguyờn tc phi hn hp: mi cõy c s ch tng ng vi mt n v ng ngha Cỏc tớnh cht ng phỏp rng buc kh nng thc hin cỏc thao tỏc kt ni hay thay th c th hin qua cỏc cu trỳc c trng (feature structure) gn vi mi nỳt trờn cõy ng phỏp Cu trỳc c trng ca mt i tng l mt hp cỏc cp thuc tớnh v giỏ tr thuc tớnh gn vi i tng ú Mi thc hin phộp th hay phộp ni, ngi ta cng thc hin phộp hp nht (unification) cỏc cu trỳc c trng (tc l hp nht cỏc giỏ tr cho mi thuc tớnh cỏc cu trỳc c trng c xột) ti nỳt ni hay nỳt th Nu phộp hp nht khụng thnh cụng (sinh cỏc thuc tớnh cú giỏ tr khụng nht quỏn) thỡ thao tỏc ú khụng c phộp Trong mụ hỡnh TAG, cỏc thuc tớnh mi cu trỳc cú th c phõn loi: thuc tớnh trờn v thuc tớnh di Vic phõn loi ny cú ý ngha i vi phộp th v phộp ni Khi thc hin phộp ni mt nỳt no ú, thỡ cỏc thuc tớnh trờn ca nỳt ú c hp nht vi cỏc thuc tớnh trờn ca nỳt gc cõy ph tr, cũn cỏc thuc tớnh di ca nỳt ú c hp nht vi cỏc thuc tớnh di ca nỳt chõn cõy ph tr Hỡnh 7-5 v Hỡnh 7-6 di õy minh ho nguyờn tc kt hp thuc tớnh cho phộp th v phộp ni X tr br X t t U tr br X Hỡnh 7-5 S phộp th vi cu trỳc c trng 82 tr br X t b X X t U tr br X* tf bf X tf b U bf Hỡnh 7-6 S phộp ni cõy vi cu trỳc c trng Mt khỏi nim khỏc cho mụ hỡnh TAG m rng l "h" cõy c s H cõy c s l mt hu hn cỏc cõy c s cú quan h ci bin (transformation) vi 7.3 TAGML - nh dng XML cho cỏc ti nguyờn dựng cho LTAG TAGML (http://www.loria.fr/~azim/LLP2/help/fr/tagml2/) l mt chun mụ t XML cỏc ti nguyờn cn thit cho mt b phõn tớch cỳ phỏp LTAG Cú hai dng thụng tin cn mụ t: o danh sỏch cỏc mc t vng: b t vng hỡnh thỏi o danh sỏch cỏc t vng hoỏ: cỏc kt hp t vng v cõy c s 7.3.1 Mụ t cỏc mc t vng Mi mc t vng tng ng vi mt hỡnh v vi th Trong mi mc t c gn cỏc thụng tin sau: o dng chớnh t (thuc tớnh lex) ca th morph o ng tng ng (th ) vi phm trự ng phỏp ca nú (thuc tớnh cat) v giỏ tr (thuc tớnh name) o cỏc thụng tin hỡnh thỏi khỏc di dng cu trỳc c trng (th ) Mt vớ d ting Phỏp nh sau: 83 7.3.2 Mụ t cõy c s t vng hoỏ Vic t vng hoỏ bao gm nh ngha cỏc cõy c s cha t vng hoỏ, kốm theo mt danh sỏch cỏc t vng cú th gn vo cỏc nỳt neo (nỳt "kim cng") cỏc cõy ú Th cha danh sỏch cỏc cõy () cựng h v cỏc neo (trung tõm) cú th () Trong mi cõy cú mụ t tng nỳt () trờn cõy, mụ t ny cú th lng Th cú thuc tớnh: cat cha phm trự ng phỏp ca nỳt, type cha kiu ca nỳt cú giỏ tr thuc sau: {std, anchor, lex, subst, foot}, name (khụng bt buc) cha tờn a phng ca nỳt cõy, dựng cho vic tham kho n neo t Th cú thuc tớnh noderef tham kho ti tờn (name) nỳt neo Trong th ny cha mt danh sỏch cỏc t nguyờn th cú th gn vo nỳt neo Cỏc thuc tớnh/c trng chia s mi nỳt cõy c mụ t th cú thuc tớnh type thuc {top, bot} tu thuc ú l cỏc c trng trờn hay di cha th , th ny l cỏc c trng khai bỏo th Th cú thuc tớnh name cha tờn thuc tớnh/c trng, v thuc tớnh varname cho phộp t tờn bin chia s giỏ tr c trng ú vi cỏc nỳt khỏc Bin ny cú phm vi ton b cõy ang mụ t 84 Cỏc ng thc thuc tớnh = giỏ tr ca cỏc cu trỳc c trng cõy c mụ t cỏc th Th ny cú thuc tớnh noderef tham kho ti nỳt liờn quan v thuc tớnh type xỏc nh cỏc c trng c mụ t õy l trờn hay di {top, bottom} = f > Trng hp mụ t mt h cõy thỡ ngi ta dựng th , ú cú khai bỏo cỏc cõy h vi th TAGML cng cho phộp nh ngha cỏc th vin (lib) ca cỏc cõy , cỏc hỡnh v , cỏc t vng hoỏ , cỏc ng thc c trng , cỏc h cõy v cỏc cu trỳc c trng Phn khai bỏo th vin ny nm u Khi ú mi thnh phn th vin c khai bỏo mt tờn thuc tớnh id ca th tng ng Cỏc mụ t dựng n cỏc thnh phn th vin ny sau ú s tham kho ti thnh phn tng ng qua thuc tớnh copyof Ngoi ra, TAGML cho phộp mụ t cỏc cõy vi cỏc rng buc giỏ tr thuc tớnh/c trng cho trc Sau ú cỏc t vng hoỏ cú th khai bỏo gp cỏc cõy m mt t cú th lm neo/trung tõm 7.4 Cỏc cụng c ó trin khai LORIA Nhúm Langue et Dialogue LORIA cung cp b cụng c LLP2 : Loria LTAG Parser B cụng c ny c vit Java gm cú cỏc thnh phn sau: - parser: Chng trỡnh phõn tớch cỳ phỏp LTAG - tagviewer: Giao din hin th cõy cỳ phỏp LTAG - graphtag: qun lớ vic hin th cỏc cõy TAG 85 - tagml2: API qun lớ vo/ra theo khuụn dng TAGML2 cho cỏc ti nguyờn t vng/cỳ phỏp segment: API qun lớ vo khuụn dng XML cho vic tin x lớ bn FeatureStructure: API qun lớ cỏc cu trỳc c trng v s API khỏc qun lớ cỏc loi cõy (cõy c bn, cõy ng phỏp c dn, cõy dn xut) 7.5 Mụ hỡnh TAG v ng phỏp ting Vit Mụ t ng phỏp ting Vit theo mụ hỡnh TAG bao gm nhng bc sau: - nh ngha cỏc cõy c s cú nỳt neo l ng, tớnh t cho phộp sinh cỏc dng cõu c bn tng ng vi cỏc dng ng, tớnh t khỏc - nh ngha cỏc cõy c s v ph tr cho phộp sinh cỏc danh ng - nh ngha cỏc cõy ph tr cho phộp sinh cỏc thnh phn ph cõu Trong phn ny chỳng tụi trỡnh by minh ho mụ t danh ng ting Vit theo mụ hỡnh TAG Hỡnh 7-7 minh ho cu trỳc sõu tng quỏt ca danh ng ting Vit QP0 Q0 DP0 P0 DP1 P1 D1/M1 NP0 N0 NP1 N1 NComp Hỡnh 7-7 Cu trỳc danh ng Trong ú: - NP l kớ hiu cho danh ng, - Q0 l mt lng t ton th, cú th l i t nh tt c, tt thy - DP0 kớ hiu cho danh ng cú ph t ch nh i t khụng gian, thi gian m nhim (P1) 86 DP1 kớ hiu danh ng cú ph t s lng quỏn t s lng hay s t m nhim (D1/M1) - NP0 l danh ng cú t n v (loi t, cỏc danh t n v khỏc) lm trung tõm (N0) - NP1 l danh ng cú danh t khụng m c/khụng m c tuyt i lm trung tõm - NComp cha cỏc nh ng hn nh khỏc ca N1 nh danh t, ng t, tớnh t, s t, i t, v.v Hỡnh 7-8 minh ho quan h ph thuc gia cỏc nh ng hn nh cú th ca mt danh ng - nh bn Nam (m) tụi mốo en ca N A N N N (Prep) Prep N NP NP NP PP mi xin hụm qua y P S Hỡnh 7-8 Quan h ph thuc gia cỏc thnh phn nh ng i theo phõn tớch cỏc thnh phn danh ng khỏ cht ch ca Nguyn Ti Cn, chỳng tụi nh ngha dng cõy c bn cho phộp sinh danh ng tng ng vi kiu trung tõm: - Cõy sinh danh ng ch cú danh t n v lm trung tõm - Cõy sinh danh ng ch cú danh t khụng m c (tuyt i) lm trung tõm - Cõy sinh danh ng cm danh t n v + danh t khụng m c lm trung tõm, ú nỳt gn danh t n v l nỳt neo (trung tõm chớnh) õy chỳng tụi phõn bit cỏc cõy tng ng vi cỏc loi danh t n v khỏc nhau: loi t, danh t n v quy c, danh t n v hp v hnh chớnh, ngoi cũn cú loi danh t c xp vo loi khụng m c tuyt i nhng cú ý ngha ng (recipient): cú th lm danh t n v theo ngha n v o lng Ngoi cũn cú danh ng i t xng hụ lm trung tõm, danh ng danh t riờng lm trung tõm Xut phỏt t cỏc cõy c bn ny, chỳng tụi tip tc xõy dng cỏc cõy cho phộp b sung cỏc thnh phn ph ca danh ng: danh t + danh t, danh t + tớnh t, danh t + s t, danh t + i t, danh t + ng t, danh t + mnh Di õy l trớch mt s mụ t cỏc cõy núi trờn 87 88 89 90 91 92 7.6 Kt qu v hng nghiờn cu Cho n nay, bờn cnh danh ng, chỳng tụi ó thc hin vic thit lp cỏc cõy sinh cõu cú trung tõm l tớnh t v mt s ng t c bn (nh ng t ni ng, ngoi ng cú mt b ng, ng t chuyn ng, v.v) Cũn mt lp ln cỏc ng t ang tip tc c mụ t Tt c cỏc cu trỳc ó xõy dng c kim nghim vi s h tr ca phn mm phõn tớch cỳ phỏp LLP2 (Loria) Cú th túm tt li ton b quỏ trỡnh x lớ phõn tớch t ng ng phỏp bn nh sau: - Bc 1: Phõn tỏch bn thnh n v t vng vi danh sỏch t loi i kốm - Bc 2: Thc hin gỏn nhón t loi, loi b nhp nhng xỏc nh t loi nht cho mi n v t vng - Bc 3: Thc hin chng trỡnh phõn tớch cỳ phỏp trờn bn ó gỏn nhón Cỏc cụng vic tip theo ca nhúm bao gm: - Hon thnh vic xõy dng cỏc cõy cỳ phỏp theo mụ hỡnh TAG - Hiu chnh b t vng cú thụng tin ng phỏp - Ci tin, nõng cao hiu qu cỏc cụng c thc hin nhim v tin x lớ bc v bc 93 7.7 Ti liu tham kho Anne Abeillộ 1993 Les nouvelles syntaxes Armand Colin Editeur, Paris, FR Anne Abeillộ 2002 Une grammaire d'arbres adjoints pour le franỗais Editions du CNRS, Paris, FR Patrice Bonhomme et Patrice Lopez 2000 TAGML: codage XML et ressources pour les grammaires d'arbres adjoints lexicalisộs LREC 2000, Athốnes, GR Cao Xuõn Ho 2000 Ting Vit - my ng õm, ng phỏp, ng ngha (Vietnamese - Some Questions on Phonetics, Syntax and Semantics) NXB Giỏo dc, Hanoi, VN Benoợt Crabbộ, Bertrand Gaiffe et Azim Roussanaly 2003 Une plate-forme de conception et d'exploitation d'une grammaire d'arbres adjoints lexicalisộs The TALN Conference, Batz-sur-mer, FR Hong Phờ 2002 T in ting Vit (Vietnamese Dictionary) Vietnam Lexicography Centre, NXB Nng, VN Nancy Ide, Laurent Romary 2001 Standards for Language Resources Proceedings of the IRCS Workshop on Linguistic Databases, Philapdelphia, US Charles N Li, Sandra A Thompson 1976 Subject and Topic: A new Typology of Language In Charles N Li (ed.) Subject and Topic, London/New York: Academic Press, pp 457489 Nguyn Ti Cn 1998 Ng phỏp ting Vit (Vietnamese Grammar), NXB i hc Quc gia, Hanoi, VN Thi Minh Huyen Nguyen, Laurent Romary, Xuan Luong Vu 2003 Une ộtude de cas pour l'ộtiquetage morpho-syntaxique de textes vietnamiens The TALN Conference, Batzsur-mer, FR Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, Xuan Luong Vu 2004 Lexical descriptions for Vietnamese language processing Proceedings of the Asian Language Resources Workshop, IJC-NLP 2004, Hainan, CN Nguyen Thi Minh Huyen, Le Hong Phuong, Vu Xuan Luong 2003 A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts Proceedings of ICT.rda'03 (The First National Symposium on Research, Development and Application of Information and Communication Technology), Hanoi, VN U ban Khoa hc Xó hi Vit Nam 1983 Ng phỏp ting Vit (Vietnamese Grammar) NXB Khoa hc Xó hi, Hanoi, VN XTAG Research Group 2001 A Lexicalized Tree Adjoining Grammar for English IRCS, University of Pennsylvania, num IRCS-01-03 94

Ngày đăng: 05/07/2016, 13:28

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan