Tìm hiểu hiện tượng nhập nhằng trong tiếng việt và khả năng khắc phục trong soạn thảo văn bản

26 459 0
Tìm hiểu hiện tượng nhập nhằng trong tiếng việt và khả năng khắc phục trong soạn thảo văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

-1- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG ĐINH TH M H NH TÌM HI U HI N TƯ NG NH P NH NG TRONG TI NG VI T VÀ KH NĂNG KH C PH C TRONG SO N TH O VĂN B N Chuyên ngành Mã s : KHOA H C MÁY TÍNH : 60.48.01 TĨM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011 -2- Cơng trình đư c hồn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS PHAN HUY KHÁNH Ph n bi n 1: PGS.TS Võ Trung Hùng Ph n bi n 2: TS Trương Công Tu n Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19 tháng năm 2011 * Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng -3- M Đ U Lý ch n ñ tài Trong h th ng ngôn ng th gi i hi n nay, ti ng Vi t ñư c xem m t nh ng ngơn ng có s phong phú đa d ng Chính s phong phú ph c t p c a ti ng Vi t d n đ n nh ng khó khăn cho c ngư i s d ng theo cách thơng thư ng x lý máy tính Do nh ng nh hư ng c a l ch s hình thành phát tri n, ti ng Vi t có tính lai t p v m t ngơn ng г t cao, ñ c bi t nh hư ng t ti ng Hán ti ng Pháp S ña nghĩa ti ng Vi t m t ñ c ñi m n i b t Ngồi ra, thói quen s d ng c a m i ngư i ho c m i vùng mi n, ti ng Vi t l i có nh ng s bi n ñ i nh t ñ nh, th m chí s thi u nh t quán cách nói, cách vi t Ti ng Vi t ngày cịn b nh hư ng b i thói quen s d ng ngôn ng Internet ho c thi t b truy n thơng hi n đ i ñi n tho i di ñ ng, ñi u làm xu t hi n thêm nhi u t m i ñư c ngư i dùng Internet ho c ñi n tho i di ñ ng ch p nh n, ñ c bi t gi i tr câu “Bu i sinh nh t hôm vui wá!” S nh p nh ng nói, vi t ho c di n ñ t ý nghĩ ñã d n ñ n nh ng s hi u l m nhi u m c đ khác Và nh ng ñ c ñi m nói ñã làm cho ti ng Vi t v n ñã ph c t p l i ph c t p hơn, ñ c bi t m t s y u t ñã làm m t tính sáng giá tr t t đ p v n có c a ti ng Vi t Gìn gi s sáng c a ti ng Vi t m t yêu c u nhi m v quan tr ng, c n thi t c a c gi i phê bình, nghiên c u văn hóa, ngơn ng l n nh ng ngư i s d ng thông thư ng Xu t phát t nh ng phân tích quan sát trên, nhi m v nghiên c u c a đ tài “Tìm hi u hi n tư ng nh p nh ng -4ti ng Vi t kh kh c ph c so n th o văn b n” tìm hi u v nh ng v n đ b n x lý ngôn ng , x lý ti ng Vi t, ñ c bi t v n ñ “nh p nh ng” ti ng Vi t, t đ xu t m t gi i pháp đ kh c ph c q trình so n th o văn b n cho m t s trư ng h p c th c a hi n tư ng nh p nh ng M c tiêu c a ñ tài Đ tài t p trung nghiên c u v x lý ngôn ng t nhiên, x lý ti ng Vi t Tác gi b nhi u th i gian nghiên c u v hi n tư ng nh p nh ng thư ng x y ti ng Vi t Đ tài nghiên c u kh x lý nh p nh ng xây d ng ng d ng h tr x lý nh p nh ng ti ng Vi t m t ph m vi h p Ph m vi gi i h n c a ñ tài V n ñ nh p nh ng ti ng Vi t có r t nhi u trư ng h p, nhiên ph m vi c a ñ tài tác gi gi i h n l i m t s n i dung sau ñây: V m t lý thuy t: Tìm hi u lý thuy t v XLNN XLTV, l ch s hình thành phát tri n c a ti ng Vi t; Tìm hi u lý thuy t v v n ñ liên quan ñ n hi n tư ng nh p nh ng ti ng Vi t; Tìm hi u nh ng v n đ b n v so n th o văn b n, ph n m m so n th o văn b n; Đ xu t gi i pháp ñ gi i quy t HTNN vi t sai l i t ti ng Vi t (gi i h n nh ng l i t c p đ âm ti t) HTNN xác ñ nh sai ph m vi, ranh gi i c a t ti ng Vi t V m t chương trình: Xây d ng ng d ng h tr x lý nh p nh ng gây l i t v m t âm ti t, đ ng th i chương trình h tr vi c tách văn b n thành t ñ c l p ñ ngư i s d ng d dàng hi u n i dung văn b n K t qu c a vi c tách t s ñư c s d ng ph c v cho vi c phát tri n ng d ng, gi i quy t v n đ phân tích nh p nh ng v phân lo i t cú pháp câu -54 Phương pháp nghiên c u Thu th p, tìm hi u, phân tích tài li u thơng tin có liên quan đ n đ tài; Phân tích thi t k h th ng chương trình; Tri n khai xây d ng chương trình; Ki m th , nh n xét ñánh giá k t qu Ý nghĩa khoa h c th c ti n c a ñ tài Ý nghĩa khoa h c: Hi u ñư c nh ng v n ñ b n x lý ti ng Vi t, x lý nh p nh ng ti ng Vi t; Đ xu t ñư c gi i pháp ñ h tr x lý m t s hi n tư ng nh p nh ng so n th o văn b n ti ng Vi t Ý nghĩa th c ti n: Hi u ng d ng ñư c nh ng ki n th c n n t ng x lý ti ng Vi t ñ x lý nh p nh ng ti ng Vi t; ng d ng chương trình đ h tr x lý nh p nh ng Có th so n th o văn b n ti ng Vi t; Có ý nghĩa vi c b o t n phát huy giá tr c a ti ng Vi t B c c lu n văn M ñ u Chương 1: Cơ s lý thuy t v x lý ngôn ng t nhiên Chương 2: So n th o văn b n hi n tư ng nh p nh ng so n th o văn b n Chương 3: Đ xu t gi i pháp kh c ph c nh p nh ng K t lu n -6CHƯƠNG 1: CƠ S LÝ THUY T V X 1.1 X LÝ NGÔN NG LÝ NGÔN NG T T NHIÊN NHIÊN 1.1.1 Khái ni m 1.1.2 Các bư c x lý 1.1.3 Các toán ng d ng 1.2 TÌM HI U V TI NG VI T VÀ V N Đ X LÝ TI NG VI T 1.2.1 S hình thành c a ti ng Vi t 1.2.2 Đ c ñi m c a ti ng Vi t 1.2.2.1 Đ c ñi m ng âm 1.2.2.2 Đ c ñi m t v ng 1.2.2.3 Đ c ñi m ng pháp 1.2.3 T ti ng Vi t 1.2.3.1 Khái ni m T ñơn v nh nh t có nghĩa, có k t c u v ng âm b n v ng, hồn ch nh, có ch c g i tên, ñư c v n d ng ñ c l p, tái hi n t l i nói đ t o câu[7] 1.2.3.2 Đơn v c u t o Đơn v s ñ c u t o t ti ng Vi t ti ng, mà ng âm h c v n g i âm ti t 1.2.3.3 Phương th c c u t o 1.2.4 Bi n th c a t 1.3 HI N TƯ NG NH P NH NG TRONG X LÝ VĂN B N TI NG VI T 1.3.1 Khái ni m Nh p nh ng hi n tư ng mà nói, vi t ho c di n t nh ng t ng , ý nghĩ mơ h , khơng rõ nghĩa ho c có nhi u nghĩa làm cho -7ngư i ñ c ho c ngư i nghe không phân bi t rõ ràng, gây s hi u l m Khái ni m nh p nh ng có th hi u theo m t cách khác sau: m i lĩnh v c, v n ñ thư ng ñư c ñ c p, trình bày ho c ñư c hi u theo m t chu n nh t ñ nh, chu n có th đư c quy c b ng văn b n ho c quy c ng m đ nh Khi t t c nh ng cách hi u, cách ñ c p ho c trình bày v n đ n m ngồi ph m vi chu n đư c xem nh p nh ng 1.3.2 M t s hi n tư ng nh p nh ng 1.3.2.1 Hi n tư ng nh p nh ng vi t sai t ti ng Vi t Vi c vi t sai l i t ti ng Vi t m c đáng báo đ ng, hi n tư ng khơng nh ng di n ph bi n gi i tr , ñ c bi t gi i tr s d ng internet mà xu t hi n nhi u phương ti n thơng tin đ i chúng văn b n c a Nhà nư c Chính nh ng sai sót v t có th gây nh ng nh p nh ng vi c ti p nh p thông tin Trong c ng ñ ng s d ng m ng Internet hình thành m t l p t m i chưa có t n ti ng Vi t, ñi u d n ñ n nh ng thói quen s d ng t ng khơng t t ngư i s d ng, ñ c bi t gi i tr Có nh ng trư ng h p sai t có th d n đ n nh ng h qu x u hình thành thói quen nói sai, vi t sai hi u sai v n ñ 1.3.2.2 Hi n tư ng nh p nh ng v ph m vi, ranh gi i gi a t Trong m t s ngôn ng ti ng Anh, vi c xác ñ nh ranh gi i, ph m vi gi a t d dàng, m i t riêng l ñã mang tr n v n m t nghĩa ranh gi i c a chúng đư c xác đ nh thơng qua -8kho ng tr ng Ti ng Vi t khác, ngơn ng đơn l p nên t v ng ch y u t ghép th kho ng tr ng không ph i luôn ranh gi i xác Trong ti ng Vi t, vi c xác đ nh xác ph m vi, ranh gi i gi a t có th h tr r t nhi u cho trình kh nh p nh ng, ñ c bi t ñ i v i ngơn ng vi t Đây m c đích mà báo cáo mu n ñ c p ñ n 1.3.2.3 Hi n tư ng nh p nh ng tính đa nghĩa c a t B t c ngơn ng có t ña nghĩa, nguyên nhân r t nhi u khái ni m có s c thái ý nghĩa khơng hồn tồn trùng kh p l i có nhi u nét tương đ ng Hi n tư ng gây c n tr cho vi c d ch t đ ng, chương trình khơng bi t d ch t đa nghĩa theo nghĩa nhóm nghĩa c a 1.3.2.4 Hi n tư ng nh p nh ng ng nghĩa s d ng t ñ ng âm Hai t ñ ng âm v i nghĩa hai t có âm gi ng mang nghĩa khác nhau, cịn đ ng t hai t v m t ký t gi ng nghĩa khác Do ñ c ñi m c a ti ng Vi t t ñ ng âm thư ng t ñ ng t , ngôn ng khác hai hi n tư ng không trùng kh p Cũng ph i phân bi t t ñ ng t v i t ña nghĩa, t đa nghĩa, nghĩa đ u có chung m t ngu n g c v y ln có nét tương đ ng trong t đ ng t chúng khơng có liên h v ngu n g c v i nhau, nghĩa c a chúng khác rõ r t Ví d T “ki m” hai câu sau ñây hai t ñ ng t : Anh ta s d ng ki m r t ñiêu luy n Ki m ăn bây gi khó l m -91.3.2.5 Hi n tư ng nh p nh ng cách phân bi t t lo i T lo i m t y u t quan tr ng vi c xác ñ nh nghĩa xác c a t s p x p t thành câu hoàn ch nh d ch t ñ ng T lo i giúp kh nh p nh ng, b n thân m t s trư ng h p nh p nh ng V i ngôn ng không bi n ti ng Vi t, v n đ xác ñ nh t lo i yêu c u thu t toán ph c t p hơn, b t bu c ph i phân tích cú pháp M t khác, n i b ngành ngôn ng v n chưa có s th ng nh t v phân lo i t lo i cho ti ng Vi t 1.3.2.6 Hi n tư ng nh p nh ng s d ng ti ng Vi t không d u Ngày nay, vi c gõ ti ng Vi t không d u tr nên ph bi n hơn, ñ c bi t ng d ng Internet ho c ñi n tho i di ñ ng email, chat… Gõ ti ng Vi t không d u giúp ngư i s d ng thao tác nhanh hơn, m t s trư ng h p l i gây nh ng s hi u nh m tai h i ñ i v i ngư i ñ c 1.3.2.7 Hi n tư ng nh p nh ng v s v n d ng Cùng m t câu s d ng hoàn c nh khác c a ngơn ng nói ho c ngơn ng vi t, n u không bi t cách s d ng m t cách phù h p s gây s “nh p nh ng”, s hi u l m cho ngư i ñ c ho c ngư i nghe Hi n tư ng ñ c bi t ph bi n ti ng Vi t, ti ng Vi t v n ña nghĩa, ña s c thái có tính bi u c m r t cao Đi u địi h i ngư i s d ng ngôn ng m t s khéo léo tinh t nh t đ nh, có s hi u bi t m t m c ñ c n thi t ñ có th t n d ng h t nh ng giá tr bi u đ t c a ngơn ng - 10 1.3.2.8 Hi n tư ng nh p nh ng phân tích cú pháp ti ng Vi t Trong phân tích cú pháp ti ng Vi t, hi n tư ng nh p nh ng x y nhi u m c, t m c t , t lo i ñ n m c cú pháp câu Đi u d n ñ n m t câu có th đư c phân tích theo nhi u cách khác nhau, ch có m t vài cách phân tích s 1.4 K T LU N CHƯƠNG Chương trình bày khái ni m bư c đ x lý ngơn ng t nhiên, tốn liên quan đ n x lý ngôn ng t nhiên nh n d ng ti ng nói, t ng h p ti ng nói, d ch t đ ng, tìm ki m văn b n, tóm t t văn b n… Ngồi cịn trình bày v s hình thành, phát tri n m t s ñ c ñi m n i b t c a ti ng Vi t Chương dành m t s lư ng l n trang ñ trình bày khái ni m nh ng hi n tư ng nh p nh ng ph bi n nh t x lý văn b n ti ng Vi t - 12 tư duy, suy nghĩ có th trao đ i v i ngư i khác đ có cách trình bày v n đ xác Th hai, phát hi n HTNN trình STVB N u ch s d ng ph n m m h tr STVB ti ng Vi t (mà khơng s d ng kèm m t chương trình h tr tìm kh nh p nh ng cho văn b n ti ng Vi t khác) ch có m t cách đ phát hi n nh p nh ng ngư i s d ng ph i t làm th công Tuy nhiên cách làm s khơng đem l i nhi u hi u qu đ xác khơng cao Do nh t thi t ph i có m t chương trình h tr phát hi n kh nh p nh ng ñi kèm Th ba, phát hi n HTNN sau vi c STVB hoàn t t Nghĩa ngư i s d ng s m t p văn b n ñã so n th o, sau g i ch c phát hi n nh p nh ng ñ x lý Theo tìm hi u c a tác gi , hi n v n chưa có m t h th ng hay chương trình có th x lý ñư c t t c HTNN STVB ti ng Vi t Các k t qu có ch m i nh ng gi i pháp cho m t s trư ng h p c th 2.4 CÁC GI I PHÁP X LÝ NH P NH NG ĐÃ CÓ TRƯ C ĐÂY Trong báo “Phân tích cú pháp ti ng Vi t s d ng văn ph m phi ng c nh t v ng hóa k t h p xác xu t” [25], nhóm tác gi ñã nghiên c u bi n pháp x lý hi n tư ng nh p nh ng hi n tư ng cú pháp ph thu c t phân tích cú pháp ti ng Vi t Bài báo ñ xu t vi c xây d ng m t cơng c phân tích cú pháp d a văn ph m phi ng c nh v i lu t có ch a thơng tin v xác su t t v ng Trong tài li u [24], nhóm tác gi trình bày chi ti t th nghi m v gán nhãn t lo i cho văn b n ti ng Vi t b ng cách áp d ng b gán nhãn QTAG Công vi c gán nhãn t lo i cho m t văn - 13 b n xác ñ nh t lo i c a m i t ph m vi văn b n Khi h th ng văn b n đư c gán nhãn, hay nói cách khác đư c thích t lo i s đư c ng d ng r ng rãi h th ng tìm ki m thơng tin, ng d ng t ng h p ti ng nói, h th ng nh n d ng ti ng nói h th ng d ch máy Đ ti n hành vi c gán nhãn t lo i, nhóm tác gi ti n hành ba bư c: Phân tách xâu ký t thành t , gán nhãn tiên nghi m, quy t ñ nh k t qu gán nhãn, t c lo i b nh p nh ng Văn b n ñã ñư c phân ño n t (WORD SEGMENTED TEXT) T p lu t nh n di n POS Mơ hình gán nhãn cho t (POS Tagging Model) Kho ng li u ti ng Vi t Văn b n ñã ñư c gán t lo i (POS TAGGED TEXTS) Hình 2.1 Mơ hình t ng qt tốn gán nhãn t lo i 2.5 K T LU N CHƯƠNG Chương trình bày nh ng v n đ b n v so n th o văn b n, khái ni m v ký t , t , câu, dịng, đo n Trong chương cịn trình bày khái ni m v hi n tư ng nh p nh ng ti ng Vi t Ngồi cịn trình bày m t s hi n tư ng nh p nh ng ph bi n ti ng Vi t, qua có th th y r ng hi n tư ng nh p nh ng ph bi n r t khó đ x lý m t cách tri t ñ Ph n cu i chương, tác gi trình bày nh ng k t qu nghiên c u v v n ñ x lý nh p nh ng ngơn ng t nói riêng nhiên nói chung ti ng Vi t - 14 CHƯƠNG 3: Đ XU T GI I PHÁP KH C PH C NH P NH NG 3.1 GI I THI U VÀ PHÂN TÍCH BÀI TỐN Trong s hi n tư ng nh p nh ng mà tác gi ñã ñ c p ñ n chương 2, ph n này, tác gi ch ch n m t s hi n tư ng nh p nh ng c th ñ ñ xu t gi i pháp kh c ph c Đó nh p nh ng vi t sai l i t ti ng Vi t c p ñ âm ti t (vi t nh ng âm ti t khơng có ti ng Vi t) nh p nh ng khơng xác đ nh đư c ph m vi, ranh gi i gi a t văn b n N u xem nh ng quy t c v t ti ng Vi t mi n chu n, nh ng n m mi n chu n y ñư c ch p nh n khơng gây nh p nh ng nh ng trư ng h p vi t sai t ti ng Vi t n m mi n chu n (t c vi t sai t ) ñ u ñư c xem nh p nh ng Trong ph m vi báo cáo này, tác gi x lý m t ph n l i t ti ng Vi t có th m c ph i d n ñ n hi n tư ng nh p nh ng, x lý l i t m c âm ti t ti ng Vi t Ví d có th phát hi n l i t c a t ñưa m t lo t g i ý ñ ngư i s d ng ch nh s a l i Xét m t ví d v hi n tư ng nh p nh ng khơng xác đ nh đư c ph m vi, ranh gi i gi a t Ví d 32 Ngư i dân thu c đ a bàn th có m c thu nh p bình qn đ u ngư i cao vùng nơng thơn Trong ví d 32, m t s đ i tư ng, ví d tr em có th s xác đ nh khơng ñúng ph m vi gi a t s d n ñ n hi u sai (nh p nh ng) n i dung câu C m t thu c ñ a bàn s có hai cách phân tách, - 15 th nh t thu c/ ñ a bàn (nghĩa n m đ a bàn đó), th hai thu c ñ a/ bàn (nghĩa ngư i dân thu c ñ a bàn b c v u đó, cách phân tách sai ng c nh trên) Trong ti ng Vi t t n t i nhi u nh ng c m t tương t Do đó, xác ñ nh ñúng ph m vi t s ñ c ñúng hi u ñúng, nghĩa tránh ñư c nh p nh ng Gi i quy t ñư c tốn v xác đ nh ph m vi, ranh gi i t s s quan tr ng ñ th c hi n gán nhãn t lo i cho t , phân tích cú pháp câu ti ng Vi t Gi i quy t toán: Bài toán bây gi ñư c chia làm hai bư c x lý: - X lý l i t ti ng Vi t m c âm ti t - Phân tách văn b n thành t ñ c l p Kho d li u âm ti t ti ng Vi t Văn b n c n x lý Đ U VÀO T ñi n ti ng Vi t X lý l i t TV m c âm ti t QUÁ TRÌNH X Tách văn b n thành t riêng bi t LÝ Văn b n ñã ñư c x lý nh p nh ng (*) Đ U RA Giao di n ngư i s d ng Ngư i s d ng Hình 3.1 Mơ hình ki n trúc t ng quan c a trình x lý Gi i h n ph m vi gi i quy t c a toán: Khái ni m văn b n ñư c ñ c p ñ n báo cáo văn b n ch ch a ch , khơng ch a hình v - 16 Chương trình chưa x lý ñ nh d ng c a văn b n ñ u vào Th i ñi m x lý văn b n: Chương trình đư c tích h p ng d ng Microsoft Word chương trình s l y n i dung văn b n ñư c so n th o s n ñ x lý Ngư i s d ng có th tùy ch n ti n hành ki m l i t m c âm ti t ñ i văn b n đ u vào, sau ti n hành phân tách t Chương trình khơng đư c g i th c thi m t cách t ñ ng mà c n có thao tác c a ngư i s d ng Lo i nh p nh ng ñư c x lý: toán gi i quy t s nh ng gây sai sót v l i t ti ng Vi t nh p m c âm ti t h tr x lý nh p nh ng có th có khơng xác đ nh đư c ph m vi, ranh gi i gi a t ti ng Vi t Kho d li u ti ng Vi t: Chương trình dùng kho d li u h tr cho trình x lý: Kho d li u âm ti t ti ng Vi t: lưu 10.000 âm ti t ti ng Vi t, h tr cho ch c tìm s a l i, đ ng th i có th đư c c p nh p thêm t m i thông qua bư c x lý l i t Các âm ti t ñư c lưu b ng mã Unicode T ñi n ti ng Vi t h tr ch c tách t g m g n 24.000 t ti ng Vi t Ngồi ra, đ h tr t t cho vi c tách t , tác gi b sung vào kho d li u t ti ng Vi t m t s danh t riêng ph bi n 3.2 THI T K CƠ S D LI U VÀ CÁC THU T TỐN CHÍNH 3.2.1 Thi t k s d li u Cơ s d li u cho tốn tương đ i đơn gi n, d li u ñư c chia thành ph n riêng bi t, m t ph n ph c v cho ch c ki m l i t ti ng Vi t m c âm ti t, m t ph n ph c v cho ch c tách t văn b n - 17 3.2.1.1 D li u cho ch c ki m l i t ti ng Vi t m c âm ti t D li u cho ch c x lý nh p nh ng sai l i t ti ng Vi t m c âm ti t g m b ng AmTiet (Âm ti t) ch a t t c âm ti t có ti ng Vi t AM_TIET STT Am_Tiet Hình 3.4 D li u lưu âm ti t ti ng Vi t B ng 3.1 B ng t ñi n d li u Tên trư ng Ki u d li u Kích thư c STT Autonumber Integer Th t c a m c t Am_Tiet Text 10 Âm ti t ti ng Vi t Gi i thích 3.2.1.2 D li u cho ch c tách t văn b n Đ ph c v cho gi i thu t này, ta c n xây d ng s d li u ch a t t c t có ti ng Vi t Tác gi xây d ng kho d li u s t p tin d li u c a ph n m m VietDict c a tác gi H Ng c Đ c, t i mi n phí t i đ a ch http://vietdict.viet.net T p tin đư c lưu v i *.txt, ch a g n 24.000 t gi i thích t (Vi t – Vi t), c u trúc trình bày g n gi ng quy n t ñi n ti ng Vi t Tác gi ñã vi t m t th t c ñơn gi n ñ ti n hành tìm tách l y t t c t ti ng Vi t t p tin ñ lưu vào s d li u Đây chưa ph i t t c t có ti ng Vi t, ch d li u ñ demo chương trình D li u c a ch c tách t b ng d li u ch a t có ti ng Vi t (căn c vào t ñi n ti ng Vi t), g m trư ng d li u - 18 s th t , m c t Word kích thư c c a t Length Ví d t ban mai có Length =2, t s ch sành sanh có Length =3 Trư ng Length dùng ph c v cho m t s gi i thu t c a chương trình TuTV stt Word Lenght Hình 3.5 D li u ch a t ti ng Vi t M i b ng đ u có trư ng d li u: B ng 3.2 T ñi n d li u Tên trư ng Ki u d li u Kích thư c stt Autonumber Integer Th t m c t Word Text 30 T ti ng Vi t Length Number Byte Kích thư c t Gi i thích B ng d li u ch có m c đích lưu tr d li u D li u ñư c lưu b ng mã Unicode, ki u gõ Telex ñ th ng nh t v i d li u c a ph n ki m l i t ti ng Vi t trình bày ph n c a báo cáo 3.2.2 Các gi i thu t 3.2.2.1 Gi i thu t tìm h tr s a l i t ti ng Vi t m c âm ti t 3.2.2.2 Thu t toán xác ñ nh t văn b n 3.2.2.3 Thu t tốn tách đo n văn b n thành t riêng bi t Đây ch c c a chương trình Trư c trình bày gi i thu t tách t c a mình, tác gi xin trình bày sơ qua m t s gi i thu t mà tác gi tìm hi u đư c liên quan ñ n v n ñ - 19 Theo tài li u [23], nhóm tác gi ñã ti n hành xây d ng otomat ñoán nh n t v ng, ph c v cho vi c tách t v ng văn b n ti ng Vi t Tư tư ng c a thu t toán tách t v ng quy vi c phân tách câu v vi c tìm đư ng m t đ th có hư ng, khơng tr ng s Gi s câu ban ñ u m t dãy g m n+1 âm ti t s0, s1, , sn Ta xây d ng m t đ th có n+2 ñ nh v0, v1, , vn, vn+1, s p th t m t ñư ng th ng t trái sang ph i; đó, t đ nh vi ñ n ñ nh vj có cung (i < j) n u âm ti t si, si+1, , sj-1 theo th t l p thành m t t Khi m i cách phân tách câu khác tương ng v i m t ñư ng ñi ñ th t ñ nh ñ u v0 ñ n ñ nh cu i vn+1 Trong th c t , cách phân tích câu đ n nh t thư ng ng v i đư ng qua cung nh t ñ th Trong trư ng h p câu có s nh p nh ng đ th s có nhi u m t đư ng ñi ng n nh t t ñ nh ñ u ñ n ñ nh cu i, ta li t kê tồn b đư ng ng n nh t đ th , t đưa t t c phương án tách câu có th đ ngư i dùng quy t ñ nh s ch n phương án nào, tuỳ thu c vào ng nghĩa ho c văn c nh Ví d , xét m t câu có c m "thu c đ a bàn", ta có đ th hình 3.7 sau: thu c đ a thu c đa bàn đ a bàn Hình 3.7 Otomat đốn nh n c m t “thu c đ a bàn” C m có s nh p nh ng gi a thu c ñ a ñ a bàn ta s có hai k t qu phân tách "thu c ñ a / bàn" "thu c / đ a bàn" Ta có th ch r t nhi u nh ng c m nh p nh ng ti ng Vi t, ch ng - 20 h n "t h p âm ti t", "b ng ch ng c ", Trư ng h p câu có âm ti t khơng n m t n rõ ràng ơtơmát âm ti t khơng đốn nh n đư c âm ti t K t qu ñ th ta xây d ng t câu khơng liên thơng D a vào tính ch t này, ta th y r ng n u đ th khơng liên thơng d dàng phát hi n r ng ñơn v âm ti t khơng đốn nh n đư c khơng n m t n âm ti t, t c b vi t sai t ho c m t ñơn v âm ti t (t v ng) m i Đ tri n khai đư c thu t tốn nói c n có m t s d li u l n hồn ch nh, đ c bi t c n xây d ng ñư c ñ th n i gi a t ti ng Vi t V i s lư ng g n 74.000 t ti ng Vi t, m t cơng vi c ñòi h i s ñ u tư th i gian trí tu c a nhi u ngư i Do ñó, th i gian h n ch c a vi c th c hi n lu n văn t t nghi p, tác gi ch n m t gi i pháp khác ñ ñ m b o xây d ng đư c m t chương trình demo h tr x lý m t s hi n tư ng nh p nh ng c th Trên s ý tư ng c a thu t tốn đư c đ c p tài li u Error! Reference source not found., tác gi xây d ng cho m t gi i thu t khác, gi i thu t d a tính ch t “cách phân tách t i ưu nh t tách ñư c nh ng t có nhi u âm ti t nh t” Trư c tiên chương trình s ti n hành ki m tra l i t m c âm ti t ñ ñ m b o r ng văn b n đư c vi t t ti ng Vi t m c th p nh t m c âm ti t, sau thay ti n hành ñ c vào t ng âm ti t ki m tra tính liên thơng (như thu t tốn đ c p trên) s đ c vào m t âm ti t (g i âm ti t X) âm ti t ñ u tiên c a ph n văn b n s ñư c x lý, sau ki m tra s t n t i c a c m t dài nh t ch a âm ti t v a ñ c (g i t Y) có t n t i ti ng Vi t hay không, n u t n t i xem cách tách t t i ưu nh t không chia nh c m t Y, n u không t n t i thu t toán s - 21 ti n hành ki m tra tương t v i t ng n (b ng cách chia nh c m t Y) Xét c m t “thu c ñ a bàn”, X = “thu c”, MaxLen (c a t b t ñ u b ng âm ti t “thu c”) = 2, ta l y ñư c t “thu c ñ a”, theo trình t trình bày đây, âm ti t ti p theo ñư c xét s “bàn”, th ta ñã b qua t “ñ a bàn”, k t qu khơng t i ưu Do đó, thu t toán ph i lưu v t hi n t i quay v xét trư ng h p có th x y v i t “ñ a” Chương trình s đưa t t c kh có th sau đánh giá xem k t qu t i ưu nh t s t ch a nhi u âm ti t có đ ưu tiên cao Trong m t s trư ng h p mà chương trình khơng th t ñưa quy t ñ nh phân tách ñư c, t “thu c ñ a” “ñ a bàn” đây, chương trình s đưa g i ý đ ngư i s d ng l a ch n tùy theo ng c nh c a văn b n Theo thu t tốn trình bày đây, s khơng x y trư ng h p xu t hi n âm ti t khơng có t n ti ng Vi t, văn b n đ u vào c a thu t toán bu c ph i ki m tra l i t ti ng Vi t m c âm ti t r i 3.3 CÀI Đ T 3.3.1 Môi trư ng làm vi c 3.3.2 Khái quát v n t t v VB6 3.3.2.1 Đi u n ng d ng Microsoft Office 3.3.2.2 T o m t COM Add-In v i Visual Basic 3.3.2.3 Ki m tra COM Add-In 3.4 GI I THI U GIAO DI N CHƯƠNG TRÌNH VÀ HƯ NG D N S D NG 3.4.1 Giao di n c a chương trình 3.4.2 Ch c ki m l i t ti ng Vi t m c âm ti t - 22 Ngư i s d ng ch n ch c KI M TRA ñ b t ñ u ki m l i t ti ng Vi t m c âm ti t Trong ph n T sai, nh ng t khơng có d li u âm ti t ti ng Vi t s ñư c bơi xanh, đ ng th i m c T g i ý s ñưa danh sách t g i ý ñ thay th , ñây nh ng t ñư c l y t s d li u c a chương trình Ngư i s d ng s l a ch n nút l nh ñ th c hi n s a l i ho c b qua t b l i Hình 3.9 Giao di n c a chương trình 3.4.3 Ch c tách t Đ s d ng ch c tách t cho văn b n, ñ u tiên ngư i s d ng ph i l y ph n văn b n mu n tách ñưa vào ph n N i dung ki m tra, sau b m nút Tách t N u ño n văn b n c n tách khơng có trư ng h p có nhi u cách phân tách (như trư ng h p c m t “thu c ñ a bàn” nêu trên) chương trình s t đ ng tách ñưa ph n văn b n ñã ñư c tách thành t riêng bi t ph n Văn b n ñã ñư c tách t (xem hình 3.10) - 23 Ngư c l i, n u văn b n xu t hi n nh ng c m t có th phân tách theo nhi u cách khác nhau, chương trình s d ng l i c mt đưa t t c cách phân tách có th ph n L a ch n cách tách t (xem hình 3.11), lúc ñó ngư i s d ng s l a ch n cách tách phù h p v i ng c nh văn b n b m nút Ch n phương án đ ch p nh n, chương trình s lưu l a ch n ti p t c x lý ph n văn b n l i Hình 3.10 Giao di n ch c tách t (giao di n ti ng Anh) - 24 - Hình 3.11 Ngư i s d ng l a ch n phương án tách văn b n 3.5 K T LU N CHƯƠNG Chương c a báo cáo t p trung trình bày nh ng đ xu t ñ kh c ph c HTNN STVB Trong ph n tác gi ñã nh c l i nh ng k t qu mà m t s công trình nghiên c u đ t đư c lĩnh v c x lý nh p nh ng ti ng Vi t, ñ ng th i ñưa m t mơ hình t ng quan đ x lý toán Ph m vi x lý h tr kh c ph c hi n tư ng nh p nh ng gây nh ng l i t ti ng Vi t c p ñ âm ti t, ñ ng th i h tr x lý nh p nh ng khơng xác đ nh đư c ranh gi i gi a t - 25 - K T LU N Đánh giá k t qu chương trình Sau m t th i gian nghiên c u th c hi n ñ tài, tác gi ñã ñ t ñư c m t s k t qu v m t lý thuy t ng d ng, c th sau: Cơ s lý thuy t Nghiên c u ñư c nh ng v n ñ b n liên quan đ n x lý ngơn ng t nhiên nói chung x lý ti ng Vi t nói riêng Nghiên c u v nh ng hi n tư ng nh p nh ng thư ng xu t hi n ti ng Vi t, tìm hi u nh ng n i dung v so n th o văn b n hi n tư ng nh p nh ng so n th o văn b n Tìm hi u v cơng trình, báo nghiên c u v x lý nh p nh ng ngơn ng t nhiên nói chung ti ng Vi t nói riêng Xây d ng ng d ng Xây d ng ñư c m t chương trình h tr x lý nh p nh ng v i m t s ch c sau: S a l i t ti ng Vi t cho văn b n m c ñ âm ti t; Ch c chính: tách đo n văn b n cho trư c thành t riêng bi t, ch c ñã gi i quy t ñư c nh ng nh p nh ng v ranh gi i t văn b n, ñ ng th i k t qu có th dùng ti p cho ng d ng phát tri n v sau V s d li u: Tác gi ñã xây d ng ñư c m t kho d li u g m kho ng 10.000 âm ti t ti ng Vi t D li u ph c v cho ch c ki m l i t ti ng Vi t m c âm ti t Ngồi đ ph c v cho ch c tách t văn b n ti ng Vi t, tác gi ñã xây d ng ñư c m t kho d li u g m kho ng 24.000 t có ti ng Vi t b sung m t s danh t riêng ph bi n - 26 Nh n xét Ưu m: Chương trình đư c tích h p s n ng d ng Microsoft Word nên ngư i s d ng d g i th c thi Giao di n chương trình đơn gi n, thân thi n nên d s d ng, h th ng menu nút l nh ñư c thi t k rõ ràng, logic giúp ngư i dùng d thích nghi K t qu th hi n rõ ràng, g i ý h tr c th M t s h n ch : Chương trình ch m i h tr x lý hi n tư ng nh p nh ng v ph m vi, ranh gi i t m t ph n c a hi n tư ng nh p nh ng gây sai t ti ng Vi t ch chưa gi i quy t ñư c t t c hi n tư ng nh p nh ng c a ti ng Vi t K t qu th c thi cịn mang tính ch t h tr ch chưa gi i quy t tri t ñ hi n tư ng nh p nh ng Kho d li u t ti ng Vi t chưa ñ y ñ dù tác gi ñã b sung danh t riêng ph bi n khơng có t ñi n ti ng Vi t chưa th ñ y ñ t t c nên m t ch ng m c đó, k t qu chương trình v n chưa xác 100% Chương trình chưa h tr x lý tr c ti p ñang so n th o văn b n chưa x lý ñ nh d ng văn b n Hư ng phát tri n c a đ tài Hồn thi n kho d li u t ti ng Vi t đ k t qu phân tích c a chương trình có đ xác cao Phát tri n ng d ng có kh l y x lý đư c ñ nh d ng c a văn b n X lý thêm trư ng h p l i t ti ng Vi t c p đ cao V i t ñã phân tách ñư c, tác gi s ti n hành gán nhãn t lo i, h tr phân tích cú pháp câu ti ng Vi t Tr giúp ngư i s d ng trình so n th o văn b n ... ng nh p nh ng ph bi n nh t x lý văn b n ti ng Vi t - 11 CHƯƠNG 2: SO N TH O VĂN B N VÀ HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N 2.1 M TS V N Đ V SO N TH O VĂN B N 2.1.1 Đ t v n ñ 2.1.2 Khái... 2.1.4 M t s quy t c gõ văn b n b n 2.1.5 Ph n m m so n th o văn b n 2.2 HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N Nh ng m c ñ nh p nh ng STVB: Trong trình so n th o văn b n, hi n tư ng nh... TS Trương Công Tu n Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19 tháng năm 2011 * Có th tìm hi u lu n văn t i: - Trung tâm Thông

Ngày đăng: 31/12/2013, 10:01

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan