Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI

70 403 0
Nghiên Cứu Và Xây Dựng Công Cụ Tách Từ Tự Động Trong Tiếng JRAI

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

B GIÁO D C VÀ ÀO T O I H Că ĨăN NG NGUY N THANH TH NH NGHIÊN C U VÀ XÂY D NG CÔNG C TÁCH T T NG TRONG TI NG JRAI Chuyên ngành: Khoa H c Máy Tính Mã s : 60.48.01 LU NăV NăTH CăS ăK THU T Ng iăh ng d n khoa h c: TS HU NH CÔNG PHÁP ƠăN ng - N mă2012 ii L IăCAMă OAN Tôi xin cam đoan k t qu đ t đ cá nhân đ c th c hi n d is h c lu n v n trung th c, s n ph m c a ng d n c a TS Hu nh Công Pháp Trong toàn b n i dung c a lu n v n, nh ng u đ cá nhân ho c đ c trình bày ho c c a c t ng h p t nhi u ngu n tài li u Tác gi Nguy n Thanh Th nh iii M CăL C L IăCAMă OAN ii M C L C iii DANH M C CÁC KÝ HI U, CH VI T T T vi DANH M C CÁC HÌNH vii M CH U NGă1ă- T NG QUAN V TÁCH T T NG 1.1 GI I THI U 1.2 T NG QUAN V TÁCH T T NG 1.2.1 Bài toán tách t t đ ng .4 1.2.2 B i c nh tách t t đ ng hi n 1.2.2.1 H ng ti p c n d a t v ng 1.2.2.2 H ng ti p c n d a âm ti t 1.2.3 M t s ph ng pháp tách t t đ ng hi n 1.2.3.1 Ph ng pháp Maximum Matching k t h p v i lu t kh nh p nh ng 1.2.3.2 Ph ng pháp tách t ti ng Vi t b ng FnTBL 13 1.2.3.3 Ph ng pháp tách t b ng mô hình WFST m ng Neural .16 1.2.3.4 Ph ng pháp tách tách t ti ng Vi t d a th ng kê t Internet gi i thu t di truy n ậ IGATEC 21 1.3 K T LU N 24 CH NGă2ă- TÁCH T T NG TRONG TI NG JRAI 25 2.1 GI I THI U V DÂN T C JRAI 25 2.1.1 V ng i Jrai 25 2.1.2 S khác gi a nhóm ph 2.2 NGÔN NG ng ng Jrai 27 JRAI .28 2.2.1 L ch s hình thành ch vi t 28 2.2.2 Gi i thi u v b ch cái, h th ng âm, v n ti ng Jrai 30 2.2.2.1 B ch 30 2.2.2.2 H th ng âm .30 iv 2.2.2.3 V trí c a ph âm t 31 2.2.2.4 V n .32 2.2.2.5 Ti n âm ti t 32 2.2.2.6 D u .32 2.2.3 c m c a ti ng Jrai 32 2.3 HI N TR NG TI NG JRAI TRÊN MÁY TÍNH 33 2.4 TÁCH T TRONG TI NG JRAI .36 2.4.1 Áp d ng thu t toán Maximum Matching lu t kh nh p nh ng đ tách t ti ng Jrai 37 2.4.1.1 Lý ch n ph ng pháp dùng thu t toán Maximum Matching lu t kh nh p nh ng 37 2.4.1.2 Áp d ng cho ti ng Jrai .38 2.4.2 V n đ tách t t đ ng ti ng Jrai .39 2.5 K T LU N 41 CH NGă3ă- CĨIă T VÀ TH NGHI M 42 3.1 GI I THI U 42 3.1.1 Ch ng trình ng d ng 42 3.1.2 Các công ngh công c s d ng xây d ng ng d ng 43 3.1.2.1 L p trình ng d ng n n t ng NET Framework 43 3.1.2.2 Ngôn ng l p trình C# .44 3.1.2.3 Th vi n mã ngu n m VietkeyInput.dll, VnkeyInput.dll 45 3.1.2.4 B phông ch Vnk .45 3.1.2.5 Môi tr ng phát tri n ng d ng 45 3.2 THI T K VÀ XÂY D NG CH NG TRÌNH .46 3.2.1 Công c tách t t đ ng ti ng Jrai 46 3.2.1.1 Hàm h tr x lý chu i 46 3.2.1.2 Các hàm x lý công c tách t .47 3.2.2 Ch 3.3 TH ng trình h tr ch nh s a câu sau tách t 57 NGHI M 57 v 3.4 ÁNH GIÁ 59 3.5 K T LU N 60 K T LU N 62 DANH M C TÀI LI U THAM KH O .63 QUY Tă NHăGIAOă TÀI LU NăV NăTH CăS ă(B N SAO) vi DANHăM CăCỄCăKụăHI U, CH ăVI TăT T CÁC KÝ HI U f t ns t k t thúc t CÁC CH VI T T T CLR Common Language Runtime DLL Dynamic Link Library FnTBL IGATEC MAX MI Fast Transformation-Based Learning Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese Maximum Mutual information MSIL Microsoft Intermediate Language WFST Weighted finitậstate Transducer vii DANHăM CăCÁC HÌNH S hi u hình Tên hình Trang 1.1 V trí c a tách t h d ch t đ ng 1.2 Ph 12 ng pháp Maximum Matching vƠ lu t kh nh p nh ng 1.3 Mô hình WFST m ng Neural 17 2.1 Ph n m m Taynguyenkey 34 2.2 B gõ ti ng dân t c Vi t Vnkey 35 3.1 Microsoft Visual Studio 2010 46 3.2 Giao di n tách t ch nh s a 58 3.3 Ch nh s a l i câu sau tách t đ ng 59 3.4 ánh giá 60 M ă U Lý ch năđ tài Trong th i đ i bùng n thông tin nh hi n nay, công ngh thông tin đóng m t vai trò h t s c quan tr ng trình nơng cao đ i s ng v t ch t tinh th n, gìn gi phát huy n n v n hoá tiên ti n đ m đƠ b n s c dân t c c a vùng đ ng bào dân t c thi u s mi n núi n c ta Vi t Nam có kho ng 54 dân t c anh em H u nh m i dân t c đ u có ngôn ng c a riêng mình, dân t c ng i Jrai c ng không ngo i l Dân t c Jrai m t nh ng dân t c có dân s đông, ngôn ng th c c a h ti ng Jrai H s nhi u g p khó kh n vi c ti p nh n thông tin, tri th c ti ng Vi t s tr ng i v m t ngôn ng Cho nên, vi c t ng b c xây d ng công đo n x lý ngôn ng Jrai ậ Vi t r t c n thi t đ góp ph n giúp cho dân t c ng i Jrai có th d dàng vi c ti p c n ti ng Vi t h n, t o thu n l i cho công tác nghiên c u, d ch thu t, tra c u, qu n lỦ, đƠo t o ti ng dân t c, c ng nh góp ph n vào vi c gi gìn phát huy b n s c v n hóa dơn t c thi u s th i đ i công ngh thông tin Công đo n tách đ n v t v ng t đ ng khơu đ u tiên không th thi u đ i v i h u h t l nh v c x lý t đ ng ngôn ng t nhiên Ti ng Jrai có nhi u t ph c nên ranh gi i gi t không ch kho ng tr ng, d n đ n tách t t đ ng s t b ng đ i ph c t p Gi i quy t toán tách t t đ ng ti ng Jrai s c ti n x lý t o u ki n đ ti p t c nghiên c u xây d ng h th ng x lý ti ng Jrai nh d ch thu t t đ ng, tìm ki m thông tin, … M căđíchănghiênăc u M c đích c a đ tài t p trung nghiên c u h ng ti p c n, ph ng pháp tách t t đ ng hi n m t s đ c tr ng c a ngôn ng Jrai, qua ng d ng ph ng pháp tách t t đ ng đ xây d ng công c tách t t đ ng ti ng Jrai 3.ă iăt ng ph m vi nghiên c u Nghiên c u v ti ng Jrai c ng nh đ c m c a ngôn ng thông qua tài li u ti ng Jrai, t n Jrai, Các ph ng pháp vƠ công c tách t t đ ng mang l i hi u qu cao 4.ăPh ngăphápănghiênăc u Nghiên c u lý thuy t: Các tài li u lý thuy t v tách t , báo cáo k t qu công trình nghiên c u khoa h c v tách t , báo t p chí khoa h c vƠ ngoƠi n c Tìm hi u tài li u v ti ng Jrai Nghiên c u th c nghi m: Xây d ng công c tách t t đ ng ti ng Jrai ánh giá k t qu đ t đ c c a đ tài 5.ăụăngh aăkhoaăh c th c ti n c aăđ tài tài xây d ng công c tách t t đ ng ti ng Jrai lƠ b ngôn ng Jrai máy tính Có th c ti n x lý ng d ng công c tách t t đ ng ti ng Jrai đ xây d ng h th ng x lý ti ng Jrai nh d ch t đ ng, tìm ki m thông tin, … C u trúc c a lu năv n Lu n v n g m có ph n m đ u, k t lu n vƠ ba ch Ch ng ng – T ng quan v tách t t đ ng: Trình bày n i dung t ng quan v toán tách t t đ ng Ch ng – Tách t t đ ng ti ng Jrai: Trình bày m t cách khái quát v dân t c ngôn ng Jrai, đ c m c a lo i hình ngôn ng nƠy, sau l a ch n ph ch ng pháp tách t thích h p đ áp d ng cho ti ng Jrai Ch ng – Cài đ t th nghi m: T nh ng lý thuy t đư nghiên c u ng tr c, ti n hành xây d ng ng d ng tách t t đ ng ti ng Jrai CH Ch NGă1ă- T NGăQUANăV ăTỄCHăT ăT ă NG ng đ u tiên gi i thi u khái quát v toán tách t t đ ng l nh v c x lý ngôn ng t nhiên Chúng trình bày v vai trò c a tách t m t s ph ng pháp tách t t đ ng đư mang l i nh ng thành công nh t đ nh, t có nh ng đánh giá v u m, nh c m c a t ng ph ng pháp 1.1 GI IăTHI U X lý ngôn ng t nhiên m t l nh v c nghiên c u nh m giúp cho h th ng máy tính có th x lỦ đ c ngôn ng ph c t p c a ng i Trong d ch t đ ng m t nh ng ng d ng c a x lý ngôn ng t nhiên vƠ đơy c ng lƠ bƠi toán g p nhi u khó kh n ngôn ng c a ng i đa d ng ph c t p D ch t đ ng m t trình ph c t p, g m nhi u giai đo n khác nh tách t t đ ng, gán nhãn t lo i, phân tích cú pháp, chuy n đ i cú pháp, x lý ng ngh a, … Các giai đo n nƠy đ u nh h ng r t l n đ n k t qu c a trình d ch t đ ng Tách t t đ ng m t công đo n ti n x lý h t s c quan tr ng d ch t đ ng nói riêng c ng nh x lý ngôn ng t nhiên nói chung Nó có nh h ng l n đ n giai đo n sau c ng nh lƠ k t qu c a cu i c a h d ch t đ ng Tách nh ng đ n v t v ng xác không ch nh h d ch t đ ng mà nh h ng đ n k t qu c a toán ng l n đ n toán khác x lý ngôn ng t nhiên nh bƠi toán tìm ki m thông tin, phân lo i v n b n, toán t t v n b n, l p ch m c… V trí c a tách t h d ch t đ ng: 49 { bi n: i, t, w //db t n, hv m ng hình v , start v trí b t đ u c a hình v , end v trí hình v cu i B1: i = start B2: { N u i < = end sang B3 Ng c l i sang B8 } B3: N u i> start+ ho c hv[i] có kí t đ c bi t nh y sang B8 B4: { N u i = = start t = t+ hv[i] Ng c l i t = t+ “ ” + hv[i] } B5: N u có hình v t có t n db đ a vƠo m ng w B6: i++ B7: Quay l i b c B2 B8: N u m ng w ch a có ph n t m ng w[0] = hv[start] B9: Tr v k t qu ws = w } Hàm tword(ArrayList db, ArrayList hv, int start, int end): Hàm có tác d ng l y nh ng b ba t có th có t v trí hình v th start Các t đ c phân cách v i b ng kí t ắ/” Ví d : u vào: M ng hv [ “Sang”, “k dlông”, “hrup”, “hang”, “Jrai”, 50 “H drung”] Là m ng đ u vào, li u db, v trí b t đ u start 0, k t thúc end hv.count-1 = u ra: M ng tword tword[0] = “sang/k dlông/hrup”, tword[1] = “sang k dlông/hrup/hang”, tword[2] = “sang k dlông/hrup hang/Jrai” Thu t toán: u vào: t n, m ng hình v hv, t v trí hình v th start m ng hv u ra: Các b ba t b t đ u t hình v M ng tword(db,hv,start,end) { bi n: i, t, 1, w1, w2, w3, wt, C, //db t n, hv m ng hình v , start v trí b t đ u c a hình v , end hình v cu i B1: S d ng hàm ws, w1= ws(db,hv,start,end), t có th có t v trí hình v th start B2: N u s ph n t w1> sang B3, Ng c l i sang B23 B3: i= B4: i [...]... ng quan v tách t t đ ng Trong ch nƠy, chúng tôi trình bƠy s l ng c v dân t c Jrai, ngu n g c và s phát tri n c a ngôn ng Jrai Phân tích nh ng đ c đi m c a ngôn ng này đư cho th y r ng ranh gi i c a các t trong ch vi t Jrai không ch là kho ng tr ng, cho nên ph i l a ch n ph ng pháp phù h p đ tách t t đ ng trong ti ng Jrai 2.1 GI IăTHI UăV ăDÂNăT C JRAI 2.1.1 V ăng Ng i Jrai i Jrai là m t trong nh ng... nhi u t nh thành trong c n mang tính đ a ph k L k m t vài t nh thành khác i Jrai c trú t p trung t i t nh Gia Lai là 372.302 ng toàn t nh và 90 % t ng s ng i c và b n s c v n hóa c phân thành n m nhóm c ng đ ng i Jrai Chor: Nhóm Jrai Chor hay còn g i làm Jrai phun (Jrai g c ) Nhóm Jrai nƠy c trú Thi n và m t s ng Th xã Ayun Pa, huy n Ia Pa, huy n Phú i Jrai sinh s ng Gia Lai Ðây là nhóm Jrai gi đ phía... ng đư mang l i nhi u thƠnh công đáng k , nh ng ch a đ t đ n đ chính xác 100% Ti ng Vi t và ti ng Jrai v n có m t s đi m t ng đ ng nh t đ nh cho nên vi c v n d ng các nghiên c u thành công trong ti ng Vi t vào áp d ng tách t t đ ng trong ti ng Jrai thì s có đ 1.2.2.1 H H c k t qu nh t đ nh ng ti p c n d a trên t v ng ng ti p c n d a trên t v ng v i m c tiêu lƠ tách đ ch nh trong câu V i h ng ti p c n... s ng th c t dân t c Jrai ch có hai nhóm chính [4]: Jrai Chor vƠ Jrai M thur g p l i thành m t nhóm ( Jrai nhóm 1 hay CM ); Jrai H drung, Jrai T buan, Jrai Arap g p l i thành m t nhóm ( Jrai nhóm 2 hay HTA) Khác nhau v ti n âm ti t: Jrai (ti n t ) ợ ng nhiên, Jrai nhóm 1 th ng gi l i đ y đ các ti n âm ti t nhóm 2 c ng có m t s t ng mang ti n âm ti t, nh ng không nhi u b ng so v i Jrai nhóm 1 Ðây là tiêu... tr ng d n đ n vi c tách t tr nên t c xác đ nh m c nhiên b ng kho ng ng đ i khó kh n Do v y mà khi ta tách t ch d a vào kho ng tr ng không thôi thì ch tách ra đ c các âm ti t, có th nó là m t t có ngh a ho c không mang Ủ ngh a nào 1.2.2 B iăc nh tách t t ăđ ng hi nănay Trong nh ng n m g n đơy thì đư có nhi u công trình nghiên c u đ gi i quy t 5 các khó kh n c a bài toán tách t t đ ng và đư mang l i nhi... đi n hoàn ch nh đ có th tách đ c đ y đ các t ho c ng trong v n b n, trong khi đó h ng ti p c n thành ph n l i s d ng t đi n thành ph n V i t đi n hoàn ch nh thì ch a t t c các t và ng trong ngôn ng , trong khi t đi n thành ph n l i ch ch a thành ph n c a t ho c ng nh hình v ho c nh ng t đ n gi n trong ngôn ng V ih kh p t , h ng ti p c n d a vào t đi n thì vi c so kh p tùy vào cách ch n đ so ng ti... d ch Tách t Hình 1.1: V trí c a tách t trong h d ch t đ ng 1.2 T NGăQUANăV ăTỄCHăT ăT ă NG 1.2.1 Bài toán tách t ăt ăđ ng Tách t t đ ng lƠ b c ti n x lý không th thi u đ i v i h u h t các l nh v c c a x lý t đ ng ngôn ng t nhiên i v i các ngôn ng châu Âu thì vi c tách t này có ph n đ n gi n là ch y u là d a vào kho ng tr ng Nh ng v i các ngôn ng chơu Á trong đó có Vi t Nam nh ti ng Vi t, ti ng Jrai, ... Bahnar-Vi t-Pháp, và t đi n ắDictionnaire bahnar-francais” in t i H ng Kông n m 1889 c ng đư đ nh hình m u t và m t s phiên âm ti ng Bahnar ra ch vi t Ti p sau đó lƠ b ch vi t Jrai T p tài li u đ u tiên b ng ti ng Jrai đ m c Nicolas so n th o t i Habâu - Tiên S n vƠo n m 1915 vi t Jrai đư đ c công b vƠ đ c linh n n m 1922, b ch c s d ng r ng rãi trong c ng đ ng ng i Jrai Tuy 29 nhiên d a vào ti ng nói,... i đ i di n cho cho m t t Các cá th trong qu n th đ t đ c kh i t o ng u nhiên, trong đó m i c gi i h n trong kho ng 4 Gi i thu t di truy n sau đó th c hi n các b cđ t bi n và lai ghép nh m m c đích làm c i thi n đ thích nghi c a cá th trong qu n th đ đ t đ c cách tách t t t nh t có th [5], [9] c ánh giá V i Ph ng pháp tách t ti ng Vi t d a trên th ng kê t Internet và gi i thu t di truy n, chúng ta không... nh lƠ t n s xu t hi n c a t v ng trong t p d li u hu n luy n ban đ u H ng ti p c n nƠy đ c bi t d a vào t p ng li u hu n luy n, cho nên trong m t s tr ng h p h ng ti p c n này t ra r t linh ho t và h u d ng 6 b H ng ti p c n d a trên t đi n Th ng đ c s d ng trong tách t t đ ng H nh ng t ho c c m t đ nh ng h ng ti p c n này là so kh p c tách ra t v n b n v i nh ng t có trong t đi n V i ng ti p c n khác ... ti n c aăđ tài tài xây d ng công c tách t t đ ng ti ng Jrai lƠ b ngôn ng Jrai máy tính Có th c ti n x lý ng d ng công c tách t t đ ng ti ng Jrai đ xây d ng h th ng x lý ti ng Jrai nh d ch t đ ng,... ng Jrai, t n Jrai, Các ph ng pháp vƠ công c tách t t đ ng mang l i hi u qu cao 4.ăPh ngăpháp nghiên c u Nghiên c u lý thuy t: Các tài li u lý thuy t v tách t , báo cáo k t qu công trình nghiên. .. t s đ c tr ng c a ngôn ng Jrai, qua ng d ng ph ng pháp tách t t đ ng đ xây d ng công c tách t t đ ng ti ng Jrai 2 3.ă iăt ng ph m vi nghiên c u Nghiên c u v ti ng Jrai c ng nh đ c m c a ngôn

Ngày đăng: 10/04/2016, 20:00

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan