Xây dựng Hệ thống dịch tự động Việt- Khmer trơ giúp dự báo thời tiết tại các Đài Phát thanh Truyền hình

48 389 0
Xây dựng Hệ thống dịch tự động Việt- Khmer trơ giúp dự báo thời tiết tại các Đài Phát thanh Truyền hình

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG KIM PI SÍCH XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT - KHMER TRỢ GIÚP DỰ BÁO THỜI TIẾT TẠI CÁC ĐÀI PHÁT THANH TRUYỀN HÌNH Chun ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Phan Huy Khánh Đà Nẵng - Năm 2014 Footer Page of 126 Header Page of 126 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp PGS.TS Phan Huy Khánh Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả Kim Pi Sích Footer Page of 126 Header Page of 126 ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC BẢNG vii DANH MỤC HÌNH vii MỞ ĐẦU CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG 1.1.1 Lịch sử dịch máy 1.1.2 Vấn đề dịch tự động tiếng Việt 1.1.3 Một số phương pháp dịch máy 1.1.4 Một số dịch vụ dịch máy có 12 1.2 XỬ LÝ CÂU TIẾNG VIỆT 13 1.2.1 Tách câu 13 1.2.2.Tách từ 15 1.3 TÌM HIỂU TIẾNG KHMER 21 1.3.1 Giới thiệu dân tộc Khmer 21 1.3.2 Lịch sử hình thành tiếng Khmer 23 Footer Page of 126 Header Page of 126 iii 1.3.3 Chữ viết Khmer 24 1.3.4 Đặc điểm ngữ âm tiếng Khmer 28 1.3.5 Đặc điểm từ vựng tiếng Khmer 30 1.3.6 Đặc điểm ngữ pháp tiếng Khmer 31 1.4 NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER 31 1.4.1 Những đặc điểm tương đồng 31 1.4.2 Những nét dị biệt 32 1.4.3 Khả xây dựng hệ thống dịch tự động 34 1.5 HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY 34 1.5.1 Hiện trạng 34 1.5.2 Một số kết có 35 1.5.3 Nhu cầu xử lý ngôn ngữ tiếng Khmer 36 1.6 NGỮ LIỆU SONG NGỮ 37 1.6.1 Khái niệm 37 1.6.2 Vấn đề thu thập liệu song ngữ 37 1.6.3 Công cụ xây dựng kho ngữ liệu song ngữ 38 1.6.4 Một số liệu song ngữ Việt – Khmer 38 CHƯƠNG GIẢI PHÁP XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT KHMER 40 2.1 PHÂN TÍCH BẢN TIN DỰ BÁO THỜI TIẾT 40 2.1.1 Phân loại tin dự báo thời tiết 40 2.1.2 Phân tích tin dự báo thời tiết 41 Footer Page of 126 Header Page of 126 iv 2.1.3 Phân tích mẫu câu dự báo thời tiết 52 2.2 MÔ HÌNH KIẾN TRÚC HỆ THỐNG DỊCH VIỆT – KHMER 53 2.2.1 Mơ hình kiến trúc hệ thống 53 2.2.2 Phương pháp dịch 54 2.2.3 Phương tách từ 55 2.2.4 Dịch tin 57 2.2.5 Dịch số dấu câu 58 2.2.6 Dịch giờ, ngày tháng 60 2.3 XÂY DỰNG CẤU TRÚC KHO NGỮ LIỆU SONG NGỮ 63 2.3.1 Tổng quan trình xây dựng kho ngữ liệu 63 2.2 Cấu trúc kho ngữ liệu 64 2.2.3 Kỹ thuật chuyển đổi liệu 66 CHƯƠNG TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG DỊCH VIỆT – KHMER 68 3.1 CHỌN MÔI TRƯỜNG, CÔNG CỤ XÂY DỰNG HỆ THỐNG 68 3.2 THU THẬP DỮ LIỆU VÀ CẬP NHẬT KHO NGỮ LIỆU SONG NGỮ 68 3.2.1 Chọn nguồn liệu 68 3.2.2 Thu thập liệu 69 3.2.3 Cập nhật liệu cho kho ngữ liệu song ngữ 69 3.3 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 87 3.3.1 Giao diện hệ thống 87 Footer Page of 126 Header Page of 126 v 3.3.2 Kịch sử dụng hệ thống thử nghiệm 88 3.3.3 Phương pháp đánh giá chất lượng hệ dịch 89 3.3.4 So sánh dịch thủ công đánh giá kết 92 KẾT LUẬN 97 TÀI LIỆU THAM KHẢO 98 PHỤ LỤC Footer Page of 126 Header Page of 126 vi DANH MỤC CÁC TỪ VIẾT TẮT XLNNTN Xử lý ngôn ngữ tự nhiên CSDL Cơ sở liệu CN Chủ Ngữ VN Vị Ngữ BN Bổ Ngữ DN ĐN Danh Ngữ Động Ngữ TT Tính Từ DT Danh Từ TN ĐT Trạng Từ Động Từ ALPAC Automatic Language Processing Advisory Committee EBMT Example-Based Machine Translation SMT Statistical-Based Machine Translation CBMT Corpus-Based Machine Translation BLEU Bilingual Evaluation Understudy NIST National Institute of Standards and Technology UNL Universal Networking Language MM Maximum Matching FMM Forward Maximum Matching BMM Backward Maximum Matching WFST Weighted Finit State Transducer TBL Transformation based Learning XML Extensible Markup Language HTTP Hypertext Transfer Protocol HTML HyperText Markup Language Footer Page of 126 Header Page of 126 vii DANH MỤC CÁC BẢNG Bảng 1.1 Bảng chữ Phụ âm giọng O 24 Bảng 1.2 Bảng chân Phụ âm giọng O 24 Bảng 1.3 Bảng chữ Phụ âm giọng Ô 25 Bảng 1.4 Bảng chân Phụ âm giọng Ô 25 Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O 25 Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O 26 Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô 26 Bảng 1.8 Bảng Nguyên âm độc lập 26 Bảng 1.9 Bảng số cách đếm tiếng Khmer 28 Bảng 2.1 Bản tin dự báo thời tiết ngày Việt – Khmer 41 Bảng 2.2 Bản tin dự báo thời tiết bão Việt – Khmer 43 Bảng 2.3 Bản tin dự báo thời tiết lũ Việt – Khmer 45 Bảng 3.1 Các tháng tiếng Khmer 63 Footer Page of 126 Header Page of 126 viii DANH MỤC HÌNH Hình 1.1 Giao diện dịch máy Google Translate 12 Hình 1.2 Giao diện dịch máy Systran 13 Hình 1.3 Cách gõ chữ Khmer gõ Khmer Unicode NiDA 36 Hình 2.1 Mơ hình kiến trúc hệ thống 54 Hình 2.2 Mơ hình tổng qt xây dựng kho ngữ liệu 64 Hình 2.3 Sơ đồ chuyển đổi kho ngữ liệu Word thành kho ngữ liệu XML 66 Hình 2.4 Kho ngữ liệu VietKhmer.xls 67 Hình 2.5 Kho ngữ liệu VietKhmer.xml 67 Hình 3.1 Giao diện hệ thống dịch Việt - Khmer 87 Hình 3.2 Kịch sử dụng hệ thống dịch 88 Footer Page of 126 Header Page 10 of 126 MỞ ĐẦU Lý chọn đề tài Việt Nam quốc gia 54 dân tộc chung sống hòa thuận, dân tộc điều có văn hóa mang đặc sắc riêng gắn liền với truyền thống phong tục riêng dân tộc đó, văn hóa tương đối thống hài hòa với tạo nên phong phú, đa dạng thể thống văn hóa dân tộc Việt Nam Dân tộc Khmer có dân số khoảng 1382 ngàn người (năm 2009) tập trung tỉnh, thành phố thuộc Đồng Sông Cửu Long số thành phố Hồ Chí Minh miền Đơng Nam bộ[12], dân tộc thiểu số có số dân đơng cộng đồng dân tộc thuộc nhóm ngữ hệ Mơn - Khmer Việt Nam Đa phần đời sống kinh tế đồng bào dân tộc Khmer phụ thuộc chủ yếu vào nông nghiệp, sống đồng bào cịn gặp nhiều khó khăn, biến động thời tiết sương mù, sương muối, lũ lụt, mưa bão, triều cường không phát sớm có biện pháp để phịng tránh, ứng phó kịp thời, biến động thời tiết gây ảnh hưởng lớn đến đời sống sinh hoạt người dân, hoa màu, trồng bị phá hoại, suất, chất lượng sản phẩm nông sản bị giảm làm cho sống đồng bào khó khăn cịn khó khăn Chủ trương Đảng Nhà nước tăng cường đẩy mạnh thực tuyên truyền sâu rộng công tác văn hóa – thơng tin [25], để đưa thơng tin hữu ích khoa học kỹ thuật, dự báo thời tiết, chăm sóc sức khoẻ, bảo tồn phát huy giá trị văn hoá đặc sắc dân tộc, tuyên truyền đường lối, chủ trương, sách Đảng Nhà nước nhằm giúp đồng bào nâng cao tay nghề, ứng dụng tiến khoa học - kỹ thuật vào sản xuất, thích ứng với chế thị trường, giữ vững an ninh trật tự xã hội Footer Page 10 of 126 Header Page 34 of 126 Phiên âm 25 Thô Nô Pô Phô Mô Dô Rô Lô Vô Bảng 1.3 Bảng chữ Phụ âm giọng Ô Chân phụ âm Khmer Phiên âm Chân phụ âm Khmer Phiên âm ្គ ្្ ឃ ្ង ្ជ ្ឈ ្ញ Chân Chân Chân Chân Chân Cô Khô Ngô Chô Chhô ្ធ ្ន ្ព ្ភ Chân Chân Chân Chân Thô Nô Pô Phô ្ឌ ្ឍ ្ទ Chân Châ Chân Châ Nhô nĐô Thô n Tô ្ម ្យ Chân Mô Chân Dô ្្ ្ល ្វ Châ Chân Châ nRô Lô n Vô Bảng 1.4 Bảng chân Phụ âm giọng Ơ + Ngồi 33 phụ âm kể cịn có phụ âm bổ sung Dùng dấu ្ (răng chuột) để phụ âm giọng Ô để biến thành phụ âm giọng O Phụ âm giọng Ô Phụ âm giọng Ô biến thành Phụ âm giọng O Phiên âm phụ âm giọng O ង ញ ម យ រ វ ង ញ ម យ រ៉ វ៉ Ngo Nho Mo Do Ro Vo Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O Còn phụ âm bỏ dấu្ không đổi giọng ប (Bo) thành ប (Po) Dùng dấu ្ để phụ âm giọng O để biến thành phụ âm giọng Ô Phụ âm giọng O ប ស ហ អ Phụ âm giọng O ប ស ហ អ biến thành Phụ âm giọng Ô Phiên âm phụ âm Bơ Sơ Hơ Ơ giọng Ơ - Ngun âm: có loại nguyên âm thường, nguyên âm độc lập + Nguyên âm thường: nguyên âm phải ráp với phụ âm có nghĩa, gồm 24 chữ Nhưng phát âm chữ có giọng âm Footer Page 34 of 126 Header Page 35 of 126 26 khác Tức ráp vần với phụ âm O đọc khác, ráp vần với phụ âm giọng Ơ đọc khác Ngun âm Khmer Phiên âm ្ ្ ្ ្ ្ ្ ្ ្ ើ្ a ế ây ấ ố ô ua Nguyên âm Khmer ើ្ ើ្ ើ្ ែ្ ៃ្ ើ្ ើ្ Phiên âm Nguyên âm Khmer Phiên âm ưa Ia ê e ay ao au ếs és ốs ós ្ um om ្ ăm ắs Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O Nguyên âm Khmer Phiên âm Nguyên âm Khmer Phiên âm ្ ្ ្ ្ ្ ្ ្ ្ ើ្ Ia Í i ứ ú u ua ើ្ ើ្ ើ្ ែ្ ៃ្ ើ្ ើ្ ្្ ្ Ưa Ia ê ê ây ô âu um um ís ếs ús uás Nguyên âm Khmer Phiên âm ្ Oăm Iás Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô + Nguyên âm độc lập: nguyên âm không ráp vần với phụ âm có nghĩa (vì thân có nghĩa), gồm 13 chữ Nguyên âm Khmer ឥ ឦ ឩ Phiên âm ế ây ú u ឯ ឰ ឱ ឳ e ay ao au Nguyên âm Khmer Phiên âm ឳ ឫ ឬ ឭ ឮ âu rứ rư lứ lư Bảng 1.8 Bảng Nguyên âm độc lập Footer Page 35 of 126 Header Page 36 of 126 27 1.3.3.2 Số cách đếm tiếng Khmer Số tiếng Khmer Chữ viết ០ ១ ២ ៣ ៤ ៥ ៦ ៧ ៨ ៩ ១០ ១១ ១២ ១៣ ១៤ ១៥ ១៦ ១៧ ១៨ ១៩ ២០ ៣០ ៤០ ៥០ ៦០ សនយ មយ ពរ ប បន ្រ ្រមយ ្រពរ ្រប ្របន ដប់ ដប់មយ ដប់ពរ ដប់ប ដប់បន ដប់្រ ដប់្រមយ ដប់្រងពរ ដប់្រងប ដប់្របន ៃមភ សាមសប ែសសប ហាសប ហកសប Footer Page 36 of 126 Cách đọc Sôn Số tiếng Việt Mui Pi Bây Buôn Po-răm Prăm mui Prăm pi Prăm bây Prăm bn Đóp 10 Đóp mui 11 Đóp pi 12 Đóp bây 13 Đóp bn 14 Đóp po-răm 15 Đóp po-răm mui 16 Đóp po-răm pi 17 Đóp po-răm bây 18 Đóp po-răm bn 19 Mô-phây 20 Sam sấp 30 Se sấp 40 Ha sấp 50 Hốc sấp 60 Header Page 37 of 126 28 ៧០ ៨០ ៩០ ១០០ ១០១ ចតសប ែបតសប ើៅសប មយរយ មយរយមយ ១,០០០ Chất sấp 70 Pet sấp 80 Cau sấp 90 Mui rôi 100 Mui rôi mui 101 មយពន់ Mui poon 1.000 ១០,០០០ មយើមន Mui mơn 10.000 ១០០,០០០ មយែសន Mui sen 100.000 ១,០០០,០០០ មយលាន Mui liên 1.000.000 ១០,០០០,០០០ មយើោដ Mui côt 10.000.000 ១,០០០,០០០,០០០ មយពន់ើោដ Mui poon liên 1.000.000.000 Bảng 1.9 Bảng số cách đếm tiếng Khmer 1.3.4 Đặc điểm ngữ âm tiếng Khmer Trong tiếng Khmer, âm tiết đơn vị phát âm nhỏ chuỗi lời nói Âm tiết tiếng Khmer không túy đơn vị trống nghĩa, Âm tiết tiếng Khmer khơng có vỏ ngữ âm mà cịn có ý nghĩa cụ thể Ví dụ: ពនយល់ (pơon dơol) =giải thích, âm tiết thứ ពន (pôon), âm tiết thứ hai យល់ (dôol) Theo quan niệm truyền thống âm tiết thứ xem khơng có nghĩa, thực có nghĩa, nghĩa tiềm tàng, nghĩa khu biệt Khi kết hợp với âm tiết thứ hai để tạo thành tổ hợp ពនយល់ (pơon dơol) nghĩa thể Trong tiếng Khmer từ đơn có hai hình thức ngữ âm thể nó: từ đơn đơn tiết từ đơn song tiết Một từ đơn song tiết gồm hai âm tiết: âm tiết mạnh (main-syllable) có người cịn gọi âm tiết chính, âm tiết tỏ, … âm tiết yếu (pre-syllable) có người cịn gọi tiền âm tiết, âm tiết phụ, âm tiếtofmờ, Footer Page 37 126 Header Page 38 of 126 29 Âm tiết mạnh tiếng Khmer âm tiết mang trọng âm có khả đứng để cấu tạo từ, tồn độc lập với chức làm hình thức ngữ âm từ Âm tiết yếu âm tiết không mang trọng âm, kèm với âm tiết mạnh (khơng có khả đứng để cấu tạo từ), thân âm tiết yếu không mang nghĩa Trong nhiều trường hợp phát âm, vắng mặt âm tiết yếu khơng làm thay đổi nghĩa từ Đó xu hướng giản lượt hóa âm tiết - xu hướng phổ biến tích cực phát âm Về cấu tạo âm tiết: + Âm tiết đơn: Âm tiết đơn tiếng Khmer gồm có hai loại: âm tiết đơn mở âm tiết đơn khép Về cấu tạo âm tiết đơn âm đầu cộng vần mở; cấu tạo âm tiết khép âm đầu cộng vần Xét cấu tạo âm vị phụ âm nguyên âm âm tiết đơn có mơ hình âm tiết sau: Cấu tạo âm tiết mở = CV CCV (trong đó, C phụ âm, V nguyên âm) Ví dụ: តា (ta) = ơng, ែកក (chke) = chó, ផារ (phxa) = chợ, ខល (khlây) = ngắn, ផ្កក (phka) = hoa, ែខស (khxe) = dây Cấu tạo âm tiết khép = CVC Ví dụ: ើកណឌ (ken) = tập hợp, ងក់ (ngook)=ngủ gật, ខយង (khjoong) = ốc, ើោល (chool) = bỏ, ដង (đooong) = múc, ណាយ (nai) = chán, តម (tom) = kiêng, … + Âm tiết ghép: Âm tiết ghép tiếng Khmer cấu tạo âm tiết đơn mang trọng âm cộng với CV VC không mang trọng âm trước mà Footer Page 38 of 126 Header Page 39 of 126 30 phụ âm đơn, V nguyên âm trung hịa /Ơ/ Mơ hình âm tiết khép có dạng sau: COWCV, ƠCCƠV COWCVC [14] Ví dụ: Âm tiết ghép mở: រងារ (rơnghia) = lạnh, ្កប (krơbây) = trâu, ទទល ្បោន់ ្បើៅ (towtl) = đón,… Âm tiết ghép khép: ្បសប់ (prơxop) = rành), (prơkăn) = chấp, (prơđau) = dạy, ្តជាក់ (trơchat) = lạnh, សមបក (xơmbok) = vỏ, … 1.3.5 Đặc điểm từ vựng tiếng Khmer Trong tiếng Khmer, số từ thành lập âm tiết, số từ thành lập lưỡng vần Thông thường, từ thành lập hai âm tiết Âm tiết thứ với âm tiết sau tạo thành từ có nghĩa tách hai âm tiết ra, âm tiết khơng mang nghĩa Từ tiếng Khmer tạo thành theo phương thức ghép phương thức láy Các từ ghép tạo thành nhờ kết hợp từ với cách láy toàn hay phận hình vị gốc Phần lớn tiếng Khmer từ đơn âm tiết sesquisyllabic (từ có âm tiết yếu có âm tiết mạnh) từ vay mượn Sanskrit Paly có nhiều âm tiết Cấu trúc sesquisyllabic gồm tiền âm tiết khơng có trọng âm với ngun âm bị nhượt hóa âm tiết yếu hay âm tiết phụ; âm tiết trước âm tiết có trọng âm có ngun âm đầy đủ Vì hình thái tiếng Khmer cịn có tiền tố trung tố, khơng tồn hậu tố, trừ từ ngữ có nguồn gốc Indic, âm tiết phận bền vững từ Âm tiết yếu chứa đựng hình vị hóa thạch với chức khơng rõ ràng, thường nhược hóa lời nói nhanh, thường khơng bền vững Footer Page 39 of 126 Header Page 40 of 126 31 Từ tiếng Khmer thường có nhiều tổ hợp phụ âm đầu từ, khơng có tổ hợp phụ âm cuối từ Âm tiết cuối từ kết thúc nguyên âm phụ âm đơn.[14] 1.3.6 Đặc điểm ngữ pháp tiếng Khmer Từ tiếng Khmer không biến đổi hình thái Từ tiếng Khmer ln có hình thức ổn định đảm nhiệm chức ngữ pháp, quan hệ ngữ pháp khác hay phục thuộc từ loại khác Vì từ tiếng Khmer khơng biến đổi hình thái nên chức ngữ pháp quan hệ ngữ pháp từ không biểu thân cảu từ Phương thức ngữ pháp chủ yếu tiếng Khmer phương thức trật tự từ phương thức hư từ Ngoài ngữ pháp tiếng Khmer sử dụng ngữ điệu phương thức ngữ pháp.[19] Trật tự từ sở tiếng Khmer S – V – O (Subject Verb Object) Trong ngữ danh ngữ (danh ngữ), danh từ trước, từ phụ sau (kể số từ), yếu tố phụ khác tính từ, từ sở hữu mệnh đề quan hệ thường đứng Ngoại lệ số từ thường trước danh từ Một cấu trúc khác: danh từ + số từ + loại từ lượng, theo trật tự thường gặp ngữ danh từ, việc sử dụng cấu trúc không bị bắt buộc, loại từ lượng khơng đóng vai trị quan trọng tiếng Khmer ngôn ngữ Đông Nam Á khác.[22] 1.4 NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER 1.4.1 Những đặc điểm tương đồng Tiếng Việt tiếng Khmer, nguồn gốc, có quan hệ họ hàng trình bày Vì thế, hai ngơn ngữ tất nhiên có điểm giống định ba bình diện ngơn ngữ chúng Thứ nhất, hệ thống âm vị hai ngơn ngữ có nhiều âm vị tương ứng Cụ thể như: Footer Page 40 of 126 Header Page 41 of 126 32 Về phụ âm đầu: / k, χ, ŋ, c, ɲ, đ, th, n, b, f, m, d, ʐ, l, S, h/ Về âm cuối: gồm số phụ âm hai bán âm + Các phụ âm cuối, tiếng Việt tiếng Khmer có âm vị âm cuối phụ âm: /c, ŋ, c, ɲ, n, t, m/ + Bán nguyên âm / -w/, / -j/ Thứ hai, tiếng Việt tiếng Khmer điều thuộc điều thuộc loại hình ngơn ngữ đơn lập, khơng biến đổi hình thái Từ ln ổn định mặt hình thức Thứ ba, âm tiết tiếng Việt, âm tiết tiếng Khmer không túy đơn vị trống nghĩa Đa số từ tiếng Việt tiếng Khmer cấu tạo từ âm tiết, tức đa số từ tiếng Việt tiếng Khmer từ đơn tiết có từ đa tiết Các từ tạo chủ yếu nhờ phương thức ghép phương thức láy Thứ tư, mặt ngữ pháp, hai ngôn ngữ điều có trật tự ngữ pháp sở S-V-O (Subject Verb Object), với phương thức ngữ pháp chủ yếu phương thức trật tự từ phương thức hư từ.[14] 1.4.2 Những nét dị biệt Bên cạnh nét tương đồng, hai ngơn ngữ có nét khác biệt, nét riêng, có ngơn ngữ mà khơng có ngôn ngữ kia, ngược lại Thứ nhất, hệ thống âm vị phụ âm tiếng Khmer cịn có điểm khác với tiếng Việt chỗ, tiếng Việt, tất phụ âm điều phát âm theo vần /ơ/, tiếng Khmer, số phụ âm phát âm với vần /o/, số âm phát âm với vần /ô/ Sự khác phụ âm mang vần /o/ phu âm mang vần /ô/ thể tạo âm kết hợp với nguyên âm để tạo tiếng Footer Page 41 of 126 Header Page 42 of 126 33 Thứ hai, tiếng Khmer có số âm cuối mà tiếng Việt khơng có như: /d, ʐ, w, χ/ Tiếng Khmer khơng có âm cuối /p/ mà có âm cuối /f/ Thứ ba, tiếng Việt thể hiển rõ đặc điểm loại hình tính phân tiết tính, âm tiết đơn vị phát âm tự nhiên nhỏ nhất, có cấu tạo phân giới rạch ròi với âm tiết trước sau Tiếng Khmer chưa phải ngôn ngữ đơn âm tiết triệt để là ngơn ngữ cận âm tiết tính Bởi lẽ tiếng Khmer tượng âm tiết chưa có phân ranh giới rõ ràng Đó trường hợp âm tiết ghép tiếng Khmer Các âm tiết ghép cấu tạo âm tiết đơn mang trọng âm, cộng với CV hay VC (trong đó, C phụ âm, V nguyên âm) khơng mang trọng âm phía trước Thứ tư, tiếng Việt có điệu với thanh, cịn tiếng Khmer ngơn ngữ khơng có điệu, âm tiết tiếng Khmer cịn tượng có tổ hợp phụ âm đầu Thứ năm, cấu tạo âm tiết tiếng Việt, nguyên âm thành tố tạo nên âm tiết, nghĩa là, âm tiết thiết phải có ngun âm, chí âm tiết ngun âm làm thành âm tiết Các mơ hình cấu tạo âm tiết tiếng Việt có thể: CVVC, CVC, CV, VC, V (trong đó, C phụ âm, V nguyên âm – nguyên âm đơn ngun âm đơi) Cịn tiếng Khmer âm tiết tạo nên có phụ âm mà khơng thiết phải có ngun âm Như vậy, đảm nhiệm âm tiếng Khmer khơng nguyên âm mà phụ âm Thứ sáu, phương diện ngữ pháp tiếng Việt tiếng Khmer giống nhau, từ từ loại đến cấu trúc ngữ pháp Tuy nhiên cần lưu ý đặc điểm khác biệt sau: Cấu tạo cụm danh từ tiếng Việt gồm thành tố chính, ba thành tố phụ trước hai thành tố phụ sau Cụ thể: Đại từ tổng lượng + Định từ + Định từ “cái” + Danh từ + Định ngữ miêu tả + Định ngữ xuất Ví dụ: Tất tên đẹp đẽ Footer Page 42 of 126 Header Page 43 of 126 34 Như cấu tạo cụm danh từ tiếng Việt, ta thấy phụ từ số lượng đứng trước danh từ làm thành tố Cụm danh từ tiếng Khmer có cấu tạo: danh từ trước, từ phụ sau (kể số từ), yếu tộ phụ khách tính từ, từ sở hữu mệnh đề quan hệ thường đứng giữa, Một cấu trúc khác: Danh từ + Định từ + Đại từ số lượng, theo trật tự thường gặp ngữ danh từ.[14] Vídụ: Tiếng Việt Tất ba bị Tiếng Khmer bò ba tất 1.4.3 Khả xây dựng hệ thống dịch tự động Dựa vào phân tích đặc điểm tương đồng nét dị biệt hai ngôn ngữ tiếng Việt tiếng Khmer, ta thấy tiếng Việt tiếng Khmer có nguồn gốc quan hệ họ hàng với nhau, hai điều thuộc điều thuộc loại hình ngơn ngữ đơn lập, khơng biến đổi hình thái, từ ln ổn định mặt hình thức, đa số từ từ đơn tiết có từ đa tiết, từ tạo chủ yếu nhờ phương thức ghép phương thức láy, mặt ngữ pháp, hai ngơn ngữ điều có trật tự ngữ pháp sở S-V-O (Subject Verb Object) Về nét dị biệt hai ngôn ngữ chủ yếu âm vị, điệu khác biệt khác không lớn Từ đặc điểm trên, việc xây dựng hệ dịch tự động hai ngôn ngữ tiếng Việt – tiếng Khmer hoàn toàn thực 1.5 HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY 1.5.1 Hiện trạng Tiếng Khmer đưa vào giảng dạy trường tiểu học, trường Trung học sở dạy trường Trung học phổ thông trường dân tộc Footer Page 43 of 126 Header Page 44 of 126 35 nội trú nhằm giúp học sinh dân tộc Khmer hình thành phát triển kỹ giao tiếp tiếng mẹ đẻ Hiện nay, tỉnh có đơng đồng bào dân tộc Khmer sinh sống có chương trình phát thanh, truyền hình, báo, ấn phẩm tiếng Khmer, tin học đưa vào ứng dụng việc biên soạn sách giáo khoa, tài liệu, biên soạn ấn phẩm báo chí, sản xuất chương trình phát truyền hình phục vụ cho đồng bào dân tộc Khmer 1.5.2 Một số kết có Đã có số kết ứng dụng tin học vào phục vụ đời sống đồng bào Khmer - Font tiếng Khmer, có nhiều loại font Unicode hỗ trợ tiếng Khmer như: Khmer OS, Khmer Limon, NiDA, Zero-Space, itCity, … font khơng tích hợp sẵn hệ điều hành Windows, muốn sử dụng phải cài đặt Nếu không muốn cài đặt font người dùng sử dụng font “DaunPenh” font Unicode hỗ trợ tiếng Khmer Microsoft cài đặt sẵn hệ điều hành: Windows Vista, Windows 7, Windows 8, Windows Server 2008 Có nhiều gõ hỗ trợ font Unicode như: Khmer Unicode NiDA, Khmer Limon, Khmer Unicode Microsoft,… gõ điều có cách gõ khác nhau, khơng thống với nhau, tùy theo thói quen mà người sử dụng chọn gõ phù hợp Footer Page 44 of 126 Header Page 45 of 126 36 Hình 1.3 Cách gõ chữ Khmer gõ Khmer Unicode NiDA - Website tiếng Khmer, có website hỗ trợ tiếng Khmer nhằm đưa thông tin tới đồng bào: website báo cần thơ (http://www.baocantho.com.vn/khmer/), website cổng thông tin điện tử Trà Vinh (http://www.travinh.gov.vn/wps/portal/khmer), website trường Đại học Trà Vinh (http://kh.tvu.edu.vn/) 1.5.3 Nhu cầu xử lý ngôn ngữ tiếng Khmer Hiện nay, nhu cầu việc xử lý ngôn ngữ tiếng Khmer lớn Việc xử lý ngôn ngữ giúp xây dựng nhiều ứng dụng phục vụ mục đích học tập, nghiên cứu bảo tồn chữ viết Khmer từ điển đa ngữ, giáo trình điện tử hỗ trợ dạy học tiếng Khmer, chương trình dịch tự động Việt Khmer phục vụ cho đài phát thanh, truyền hình nhằm giúp đồng bào có nhiều thơng tin hữu ích, nhận thức đầy đủ chủ trương Đảng, sách Nhà nước Footer Page 45 of 126 Header Page 46 of 126 37 1.6 NGỮ LIỆU SONG NGỮ 1.6.1 Khái niệm Thuật ngữ “ngữ liệu” tạm dịch từ thuật ngữ tiếng Anh “corpus”, có nghĩa “kho liệu, kho sưu tập tài liệu, ” (theo Từ điển Anh-Việt, ĐH Ngoại ngữ, NXB GD-2000 trang 368) “Ngữ liệu” xem “dữ liệu, liệu ngôn ngữ”, tức chứng thực tế sử dụng ngôn ngữ Ngữ liệu gồm văn ngôn ngữ gọi ngữ liệu đơn ngữ ngữ liệu nhiều ngôn ngữ gọi ngữ liệu đa ngữ Ngữ liệu song ngữ ngữ liệu tồn ngôn ngữ chúng dịch nhau.[2] 1.6.2 Vấn đề thu thập liệu song ngữ Trong nghiên cứu dịch máy, ngữ liệu song ngữ thành phần thiết yếu quan trọng thiếu Chất lượng ngữ liệu song ngữ đóng vai trị định đến chất lượng đầu hệ dịch Hệ dịch cho kết tốt ngữ liệu song ngữ sử dụng trình huấn luyện có chất lượng khơng tốt cho dù áp dụng phương pháp học máy tiên tiến Ngữ liệu song ngữ thu thập từ nhiều nguồn bao gồm Tổng quát, chia nguồn thành hai loại, nguồn ngữ liệu dạng giấy viết nguồn ngữ liệu dạng điện tử Ngữ liệu song ngữ dạng giấy viết tìm thấy dễ dàng sách học ngoại ngữ, sách truyện, tài liệu song ngữ từ điển song ngữ Việc tìm kiếm loại ngữ liệu đơn giản, nhiên q trình nhập liệu vào máy tính tốn nhiều thời gian công sức Với phát triển bùng nổ công nghệ thông tin Internet, ngữ liệu song ngữ dạng điện tử tồn phong phú nhiều dạng Một nguồn ngữ liệu thường khai thác để xây dựng ngữ liệu song ngữ Footer Page 46 of 126 Header Page 47 of 126 38 trang web song ngữ Với phát triển bùng nổ Internet, số lượng trang web song ngữ ngày lớn việc sử dụng kĩ thuật web-mining để trích rút ngữ liệu song ngữ từ trang web song ngữ nhiều nhóm nghiên cứu giới quan tâm [19] 1.6.3 Công cụ xây dựng kho ngữ liệu song ngữ Hiện có nhiều cơng cụ cho phép lưu trữ khai thác liệu để xây dựng kho liệu song ngữ XML, HTML, hệ quản trị MS Access, SQL Server, MS Word, Oracle, Theo khuyến cáo nhà tin học công ty phần mềm hàng đầu XML xem chuẩn tốt dành cho liệu đa ngữ Đặc điểm XML có cấu trúc mềm dẻo, dễ sử dụng khai thác nhiều hệ thống máy tính khác (nó lưu trữ dạng tập tin liệu dạng text), dung lượng nhỏ dễ chuyển đổi sang dạng thức khác.[2] Vì vậy, XML phù hợp để xây dựng kho ngữ vựng Việt – Khmer phục vụ cho hệ thống dịch đề tài 1.6.4 Một số liệu song ngữ Việt – Khmer Kho liệu song ngữ hay đa ngữ thường sử dụng với nhiều mục đích khác như: từ điển, dịch tự động, tìm kiếm thơng tin xun ngơn ngữ, nghiên cứu ngôn ngữ học, học ngoại ngữ, Hiện nay, việc nghiên cứu giới thực với cặp ngôn ngữ phổ biến như: Anh-Pháp, Anh-Nga, Anh-Nhật, Anh-Hoa, Về tiếng Việt, kho liệu xây dựng với đa số ngôn ngữ nước khác Việt – Anh, Việt – Pháp, Việt – Hoa, hay Việt – Anh – Pháp, Nhật – Anh – Việt, Hàn – Anh – Việt… Vấn đề số hóa cho tiếng dân tộc thiểu số Việt Nam bắt đầu năm gần đây, số lượng cơng trình Đa số từ điển nghiên cứu thực biên soạn từ điển giấy Footer Page 47 of 126 Header Page 48 of 126 39 Hiện nay, có từ điển song ngữ tiếng Khmer biên soạn chủ yếu từ điển giấy, từ vựng Việt – Khmer khoảng 16.000 từ Khmer – Việt khoảng 15.000 từ tác giả Ngô Chân Lý nhà xuất Thông Tấn xuất bản, từ điện điện tử có từ điển trực tuyến đa ngôn ngữ địa (http://vi.glosbe.com) từ điển có khoảng 3.697 từ, chưa có từ điển điện tử khác cơng nhận, có số số nghiên cứu thuộc luận văn kỹ sư, thạc sĩ mang tính nghiên cứu, chưa nghiệm thu công nhận áp dụng thực tế Footer Page 48 of 126 ... từ vựng từ tin dự báo thời tiết để xây dựng kho ngữ liệu Việt - Khmer phục vụ cho hệ thống dịch Xây dựng ứng dụng Xây dựng hệ thống dịch Việt – Khmer phục vụ dịch tin dự báo thời tiết hỗ trợ cho... câu dự báo thời tiết Tài liệu Việt - Khmer thu thập từ chuyên gia từ Internet Sách, giáo trình, từ điển song ngữ Việt -Khmer Tập hợp tin dự báo thời tiết Việt, Khmer đài phát thanh, truyền hình Các. .. MT) Dịch máy dựa thống kê SMT: Statistical-Based Machine Translation) cách tiếp cận dịch máy dựa thống kê để xây dựng từ điển quy luật dịch cách tự động, thay xây dựng từ điển, quy luật dịch

Ngày đăng: 04/05/2017, 21:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan