Mô hình văn phạm liên kết tiếng Việt

188 555 1
Mô hình văn phạm liên kết tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mô hình văn phạm liên kết tiếng Việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: GS TS NGUYỄN THÚC HẢI GS.TS NGUYỄN THANH THỦY Hà Nội - Năm 2013 MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 4  DANH MỤC CÁC HÌNH VẼ 5  DANH MỤC BẢNG BIỂU 8  DANH MỤC CÁC KẾT NỐI QUAN TRỌNG 9  MỞ ĐẦU 11  CHƯƠNG 1  TỔNG QUAN VỀ CÁC MƠ HÌNH VĂN PHẠM CHO NGÔN NGỮ TỰ NHIÊN 20  1.1 Cách tiếp cận cấu trúc văn phạm phi ngữ cảnh 20  1.1.1 Văn phạm phi ngữ cảnh biểu diễn ngôn ngữ tự nhiên 20  1.1.2 Văn phạm phi ngữ cảnh xác suất 23  1.1.3 Văn phạm phi ngữ cảnh xác suất từ vựng hóa 26  1.1.4 Văn phạm kết nối 28  1.2 Tiếp cận qua cấu trúc nét văn phạm hợp 29  1.3 Cách tiếp cận phụ thuộc 30  1.3.1 Một số khái niệm 30  1.3.2 Tính chất phụ thuộc 33  1.4 Văn phạm liên kết 35  1.4.1 Khái niệm văn phạm liên kết 35  1.4.2 Các định nghĩa hình thức văn phạm liên kết 39  1.5 Kết luận 41  CHƯƠNG 2  MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 45  2.1 Văn phạm liên kết cho tiếng Việt 45  2.1.1 Cấu trúc từ điển liên kết 45  2.1.2 Xây dựng liên kết cho danh từ 49  2.1.3 Các liên kết cho động từ 57  2.1.4 Các liên kết cho tính từ 62  2.1.5 Liên kết mệnh đề câu ghép đơn giản 63  2.2 Mở rộng từ điển văn phạm liên kết 65  2.2.1 Giải thuật mở rộng từ điển 67  2.2.2 Ứng dụng giải thuật mở rộng từ điển tiếng Việt 69  2.2. Kết luận 69  CHƯƠNG 3  PHÂN TÍCH CÚ PHÁP TRÊN VĂN PHẠM LIÊN KẾT 72  3.1 Bộ phân tích cú pháp liên kết 72  3.1.1 Giải thuật phân tích cú pháp 72  3.1.2 Lược tỉa 74  3.1.3 Kết thử nghiệm phân tích câu đơn câu ghép đơn giản 76  3.2 Phân tích cú pháp cho câu ghép 79  3.2.1 Xây dựng diễn ngôn 83  3.2.2 Giải thuật phân tích cú pháp câu ghép 92  3.2.3 Tìm từ để kết nối mệnh đề 94  3.2.4 Kết thử nghiệm phân tích câu ghép 96  3.2.5 Độ phức tạp tính tốn 99  3.3 Khử nhập nhằng 99  3.3.1 Khử nhập nhằng thành phần 100  3.3.2 Khử nhập nhằng liên hợp 106  3.4 Kết luận 110  CHƯƠNG 4  HỆ THỐNG DỊCH MÁY SỬ DỤNG DẠNG TUYỂN CÓ CHÚ GIẢI 112  4.1 Tổng quan dịch máy 112  4.1.1 Tình hình phát triển dịch máy Việt Nam 112  4.1.2 Phương pháp đánh giá chất lượng dịch máy 114  4.2 Khác biệt ngôn ngữ Việt - Anh 115  4.2.1 Khác biệt hình thái 115  4.2.2 Khác biệt trật tự từ 118  4.3. Hệ thống dịch máy sử dụng dạng tuyển có giải 119  4.3.1.Tìm nghĩa từ từ điển ADJ 121  4.3.2 Xây dựng luật dịch 122  4.3.3 Hoàn thiện câu dịch 129  4.3.4 Kết thử nghiệm với dịch dựa dạng tuyển có giải 129  4.4 Kết luận 134  KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 136  Tóm tắt 136  Các đóng góp luận án 136  Về mặt khoa học 136  Về mặt thực tiễn 137  Hạn chế hướng phát triển 138  CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ 139  TÀI LIỆU THAM KHẢO 140  TIẾNG VIỆT 140  TIẾNG ANH 142  TIẾNG NGA 150  CÁC WEBSITE 150  PHỤ LỤC 1: CHI TIẾT CÁC CÔNG THỨC CHỦ YẾU TRONG LIÊN KẾT TIẾNG VIỆT 151  PHỤ LỤC 2: KẾT QUẢ PHÂN TÍCH LIÊN KẾT CỦA MỘT SỐ CÂU ĐƠN VÀ CÂU GHÉP HAI MỆNH ĐỀ 169  PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH 178  Luật xác định thuộc tính 178 Luật dịch cụm từ 179 Luật chuyển đổi cấu trúc 182 PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU 183  DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT HMM Hidden Markov Model: Mơ hình Markov ẩn BNF Backus Naur Form: Công thức siêu ngữ Backus ADJ Annotated Disjunct: Dạng tuyển có giải RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn CCR Chunks/Constituents/Relation SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ SVM Support Vector Machine: Máy vectơ hỗ trợ CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện EDU Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm EBNF Extended Backus Naur Form: Công thức siêu ngữ Backus mở rộng DANH MỤC CÁC HÌNH VẼ Hình 1.1 Cây ngữ cấu câu “Tơi thích chân gà” 21  Hình 1.2 Hai ngữ cấu câu “Họ không chuyển hàng xuống thuyền vào ngày mai” 22  Hình 1.3 Văn phạm phi ngữ cảnh xác suất ngữ cấu câu “Last week IBM bought Lotus” 27  Hình 1.4 Phân tích câu “John loves a woman” mơ hình văn phạm phụ thuộc 31  Hình 1.5 Đồ thị phụ thuộc câu “Economic news had little effect on financial market” 32  Hình 1.6 Câu ngữ pháp “Tại cậu không tới” 36  Hình 1.7 Kết nối lớn từ “và” 38  Hình 1.8 Chu trình phân tích câu 39  Hình 1.9 Nút liên kết 41  Hình 2.1 Cấu trúc danh ngữ với đầy đủ thành tố 50  Hình 2.2 Liên kết cụm từ “những bàn” 53  Hình 2.3 Liên kết cụm từ “cái giường lò xo” 55  Hình 2.4 Liên kết cụm từ “cái bàn gỗ” 56  Hình 2.5 Liên kết cụm từ “cái bàn tôi” 56  Hình 2.6 Hai cách liên kết cho cụm từ “cái bàn gỗ tơi” 56  Hình 2.7 Các liên kết xoay quanh danh từ trung tâm “ghế” 57  Hình 2.8 Thành tố phụ trước động từ 58  Hình 2.9 Liên kết cụm từ “vẫn làm” 59  Hình 2.10 Liên kết cụm từ “khơng hay đọc sách này” 59  Hình 2.11 Liên kết cụm từ “đang sợ” 61  Hình 2.12 Liên kết cụm từ “ sâu hai ngàn mét” 63  Hình 2.13 Liên kết câu ghép hai mệnh đề với liên từ 64  Hình 2.14 Liên kết câu ghép hai mệnh đề với liên từ đầu dấu phảy 65  Hình 2.15 Liên kết câu ghép với liên từ có mặt hai mệnh đề 65  Hình 2.16 Một đoạn từ điển văn phạm liên kết 66  Hình 2.17 Ánh xạ trực cảm 68  Hình 2.18 Quy trình xây dựng từ điển văn phạm liên kết tiếng Việt 70  Hình 3.1 Giải thuật phân tích 72  Hình 3.2 Lời giải cục 72  Hình 3.3 Giải thuật phân tích cú pháp liên kết 73  Hình 3.4 Hàm COUNT cho số phân tích câu 73  Hình 3.5 Cây cho công thức (NN- &{NN+}) or ({PqNt-} & {NN+}) 75  Hình 3.6 Số lượng dạng tuyển sau lược tỉa lược tỉa mạnh 76  Hình 3.7 Kêt phân tích liên kết câu “Chúng muốn giành danh hiệu” 77  Hình 3.8 Kêt phân tích liên kết câu “Mỗi mùa trắng tay khó nuốt trơi” 77  Hình 3.9 Kết phân tích liên kết câu “Phần lớn bọ ngựa ăn côn trùng” 78  Hình 3.10 Cây phân tích diễn ngơn câu “[trời mưa to vàA1] [gió mạnh nênB1] [tơi phải nghỉ học,C1] [mẹ phải nghỉ làm.D1]” 83  Hình 3.11 Giải thuật phân đoạn diễn ngơn (có khử nhập nhằng) 88  Hình 3.12 Hàm isClause 89  Hình 3.13 Các dạng cấu trúc diễn ngôn 92  Hình 3.14 Giải thuật phân tích cú pháp cho câu ghép 93  Hình 3.15 Hàm Insert_Link_From_RST_Tree 94  Hình 3.16 Minh họa cách lưu trữ phân tích liên kết câu “Tơi mua hoa” 95  Hình 3.17 Phân tích câu “Tơi mua bơng hoa” 95  Hình 3.18 Phân tích cụm từ “một bút tốt” 96  Hình 3.19 Kết phân tích câu “Trời mưa to gió mạnh nên phải nghỉ học, mẹ phải nghỉ làm” 97  Hình 3.20 Hai phân tích câu “Tôi mua hoa” 101  Hình 3.21 Giải thuật kiểu Viterbi để dự đốn phân tích có xác suất cao 102  Hình 3.22 Mơ tả cách tính xác suất PrO ⊲ left L, W, l ⊳, ⊲ leftd 104  O Hình 3.23 Minh họa mối liên kết để tính 105  Hình 3.24 Phân tích câu “Tơi thích bánh kẹo, anh thích rượu bia” 108  Hình 3.25 Một phân tích với kết nối F cho từ “và” 109  Hình 3.26 Kết nối G nối nhiều dấu phảy từ “và” 110  Hình 4.1 Sắp xếp lại trật tự từ 118  Hình 4.2 Kiến trúc hệ dịch dựa dạng tuyển có giải 121  Hình 4.3 Thay đổi trật tự từ cho dịch câu “Cô gái nhỏ xinh” 126  Hình 4.4 Quá trình dịch câu “Báo săn loại động vật nhanh giới” 131  Hình 4.5 So sánh điểm BLEU hệ thống 133  DANH MỤC BẢNG BIỂU Bảng 1.1 Ví dụ từ điển 36  Bảng 2.1.Các loại từ tiếng Việt 47  Bảng 2.2 Các tiểu loại từ tiếng Việt 47  Bảng 3.1 Chi tiết ngữ liệu mẫu cho phân tích cú pháp liên kết 78  Bảng 3.2 Kết phân tích liên kết cho tập mẫu 78  Bảng 3.3 Kết thử nghiệm phân tích diễn ngơn (chưa kết hợp phân tích cú pháp) 81  Bảng 3.4 Các biểu thức quy biểu diễn số dấu hiệu diễn ngôn tiềm tàng84  Bảng 3.5 Hành động ứng với số dấu hiệu diễn ngôn 85  Bảng 3.6 Chi tiết tập mẫu câu ghép 97  Bảng 3.7 Kết phân tích tập mẫu câu ghép 98  Bảng 3.8 So sánh kết phân tích diễn ngơn 108  Bảng 4.1 Những khác biệt quan trọng hình thái tiếng Việt tiếng Anh 116  Bảng 4.2 Đại từ xưng hô tiếng Anh 117  Bảng 4.3 Đại từ xưng hô tiếng Việt 117  Bảng 4.4 So sánh kết hệ thống dịch 132  DANH MỤC CÁC KẾT NỐI QUAN TRỌNG CLI Kết nối chất liệu (ẩn giới từ) DI Kết nối động từ “đi” với động từ khác DpN Kết nối định từ số nhiều với danh từ DpNt Kết nối định từ số nhiều với danh từ cụ thể DsN Kết nối định từ số với danh từ DT_LA Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là” ĐT_XONG Kết nối động từ động từ “xong” EoPp Kết nối giới từ “của” với đại từ xưng hô EpNt Kết nối giới từ vị trí danh từ cụ thể EsNt Kết nối danh từ cụ thể giới từ phạm vi LA_DT Kết nối động từ “là” với danh từ McNu Kết nối số từ danh từ đơn vị NcNt1 Kết nối danh từ loại với danh từ cụ thể người NcNt2 Kết nối danh từ loại với danh từ cụ thể động vật NcNt3 Kết nối danh từ loại với danh từ cụ thể thực vât NcNt4 Kết nối danh từ loại với danh từ cụ thể đồ dùng, vật dụng NcNt5 Kết nối danh từ loại với danh từ cụ thể tượng NcNt6 Kết nối danh từ loại với danh từ cụ thể khái niệm NEo Kết nối danh từ giới từ sở hữu NN Kết nối danh từ danh từ, thể quan hệ nội dung, địa điểm… NtEm Kết nối danh từ cụ thể giới từ chất liệu NtEs Kết nối giới từ phạm vi danh từ cụ thể NtPd Kết nối danh từ cụ thể với đại từ định NuNt Kết nối danh từ đơn vị danh từ cụ thể NHAT_DT Kết nối từ “nhất” với danh từ đứng sau O Kết nối động từ bổ ngữ trực tiếp RcV Kết nối động từ với phụ từ so sánh RfA Kết nối phụ từ thời gian (tương lai) tính từ # + O -+ # + -SV + O + SDT1-+-F-+ -F -+ | # | | | | | | | # anh.p có.v từ_điển.n Việt Anh.p khơng.n # +-CHỨ+ # | | # Có.v # + -CL -+ # | + -SV + -O + # + TĐT2_1-+ +-NtPd-+ + -O -+ | # | | | | | | | # Khơng biết.v máy_tính.n có.v tốt.n khơng.n # + TT_ĐT-+-LA_ĐT-+-CHỨ+ # | | | | # Tất_nhiên.a là.v nhớ.v # + XH + # + -SV -+ CHỨ + | # | + TĐT4-+ -O +-NtPd+ | | # | | | | | | | # Bác quen.v cô.n # + -DT_LA + + -VTd -+ # +-NtPd-+ + LA_DT-+ NNp-+ + -CHỨ2 -+ -VPd + -NNp + # | | | | | | | | | # anh.p là.v người.n Nhật không_phải người.n Hàn_Quốc # + -DT_LA + VTl + # +-NtPd-+ + -LA_DT + + -CHỨ2 + VPl-+ LA_TT -+ # | | | | | | | | # Máy.n là.v máy_giặt.n đâu_phải là.v máy_điều_hòa.a 173 # + XH + # + -XH + | # + -ĐT_TT -+ | | # + SV -+ ĐT_GTt -+ | | | # + CC0d +-CCTd+ CCPd-+ -NN + + TT_ĐT +ĐT_GT+ -GT_DT -+ + -McN +-TT_TTt-+ | | | # | | | | | | | | | | | | | | | # Cả cháu.n nhà.n cháu.n đều.a chuyển.v vào Vũng_Tàu.n năm.n nay.a bác # + -XH -+ # + XH -+ | # + SV + ĐT_TT-+ | | # | | | | | # Bộ_Kế_hoạch_và_Đầu_tư ở.v đâu.a hở em # + XH -+ # + SV + ĐT_TT + | # + ĐV-+-SDT4-+ GT_DT-+ + ĐT_TT-+ | | # | | | | | | | | # Cái túi.n tao.p ở.v đâu.a hở # + -SA + # | + CC0 + CCTt + -CCPt + # +-NtPd-+ +-KHƠNG_NHỮNG-+ + -F + -F + +-MÀ_CỊN-+ + -TTT2_2 + TT_TT-+ # | | | | | | | | | | | | # Anh.p khơng thơng_minh.a , học_giỏi.a mà cịn rất.a khiêm_tốn.a nữa.a # + EV + -CL + # + -ĐT_TT + | + -GT_ĐTt + # + ĐT_GTt -+ | | | + -TT_ĐT -+ # +-ĐT_GT+ GT_DT-+ | | | | | +-TT_ĐT+ # | | | | | | | | | | # Nghe_nói.v anh.p lâu.n mà hơm_nay.n mới.a được.a gặp.v 174 # + -SV -+ -XH -+ # | + TĐT2_1-+ O -+-NtPd+ | # | | | | | | # Anh không biết.v chuyện.n # + -GT_ĐTt -+ -CL -+ # | + SV + + -SV -+ # | | + TT_ĐT-+ +-NtPd-+ + -O + # | | | | | | | | # Hôm_nay.n tôi.p mới.a biết.v anh.p là.v thầy_giáo.n # + ĐT_LA + # + SV +-ĐT_GT+ GT_DT-+-NtPd+ +-LA_TT-+-XH-+ # | | | | | | | | # Anh mua.v với giá.n là.v đắt.a # + -SV -+ -CL -+ ĐT_GTv -+ # +-NtPd-+ | + -SV + ĐI + + SAv-+ NNp + # | | | | | | | | | # Anh.p rủ.v tôi.p đi.v du_lịch.v đồng_bằng.n sông.n Cửu_Long # + CL -+ EV + CL + -ĐT_TT -+ # +-GT_DT-+ + -O -+ | + -SV +-ĐT_XONG-+ +-TT_TT-+ # | | | | | | | | | | # Trong lúc.n học.v tiếng_Việt.n , tôi.p học.v nhiều.a điều.a # + CL -+ # + EV + + -SV + # + TĐT2_1-+ -O + | + -SHA + +-SAt-+-SA-+-TT_ĐT+ # | | | | | | | | | | # Không hiểu.v sao.n , sức_khỏe.n mình.p càng.n ngày.n càng.a xuống 175 # + QHT + CL + # + CL + | + -SV -+ # | + SA-+ | | + TĐT2_1 + ĐT_TT-+ # | | | | | | | | # Vì thời_tiết.n xấu.a nên máy_bay.n khơng hạ_cánh.v được.a # + -CL -+ # + -QHT -+ + -SA + # + CL + O -+ | | + TTT4 -+ # | + -SV + + DpNtm-+ | | | + -TTT2_1 + # | | | | | | | | | | # Dù nó.p có.v nhiều tiền.n nó.p khơng hạnh_phúc.a # + DT_LA -+ # + -SDT5 -+ | # | + -SV + | # + ĐV-+ | +-TT_ĐT+ +-LA_DT-+-SH +-NtPd+ # | | | | | | | | | # Cuốn sách.n anh.p đang.a đọc.v là.v của.n cô.p # + SDT5 + # + SV + O -+ + -SV + # | + RpV-+ + -ĐV -+ -MA -+ +-NtPd-+ | # | | | | | | | | | # Tôi đọc.v tiểu_thuyết.n mà anh.p viết.v # + QHT + # + -CL -+ + CL -+ # | + SV + | + SV + # | +-SDT4-+ GT_DT-+ + O -+ | + -F + F + + RpV-+ # | | | | | | | | | | | | # Sở_dĩ nhà_máy.n Loan hết.v việc.n là_do thiết_bị.n phụ_tùng.n hết.v # # # # # + -CL -+ + -CL -+ + PH -+ + -EV -+ + SV -+ + -ĐT_TT -+ + GT_DT + | + SA-+-STT-+ | | + TĐT2_1-+ CL + -O -+ NN-+ | | | | | | | | | | | | | | | Ở chợ.n , quần_bò.n nhiều.a , tôi.p không biết.v chọn.v loại.n nào.n cả.a 176 # + GT_ĐTt + -ĐT_TT + # | + SV -+ -O -+ SDT4 -+ | # +-TT_TTt+ | + TĐT2_1-+-ĐT_XONG+ + -NN + + GT_DT-+-NtPd+ | # | | | | | | | | | | | | # Lâu.n tôi.p khơng nhận.v tin_tức.n gì.n cơ.n cả.a # + -SV -+ -ĐT_TT -+ # | + TĐT2_1-+ -O +-SDT4+ GT_DT-+-NtPd+ | # | | | | | | | | # Tôi chưa hiểu.v gì.n cơ.n cả.a 177 PHỤ LỤC 3: MỘT SỐ LUẬT DỊCH ĐIỂN HÌNH Phụ lục trình bày dạng lưu trữ thực tệp văn luật nêu chương Do hình thức trình bày có khác biệt Trong luật này, Ký hiệu * từ () dãy kết nối Ký hiệu $1 vị trí từ cụm từ áp dụng luật Ví dụ: *()(DT_THI)*(DT_THI)(THI_ĐT)*(THI_ĐT)() >$1$2:copy-feature($3,number,$1) Có nghĩa từ thứ cụm từ có kết nối DT_THI với từ thứ hai, từ thứ hai có kết nối THI_ĐT với từ thứ ba chép thuộc tính number từ thứ sang từ thứ ba Chẳng hạn cụm từ “tơi học” thỏa kết nối trên, thông tin số từ đại từ “tôi” sang động từ “học” Luật xác định thuộc tính *()(DpNt) *(DpNt)() > $1 :set-feature($2, number, PLURAL) *()(VT DT_THI) *(VT)() *(DT_THI)(THI_ĐT) *(THI_ĐT)() > $1 $2 $3 :set- feature($4, number, PLURAL) *()(CC0) *(CC0)(DT_THI) *(DT_THI)(THI_ĐT) *(THI_ĐT)() > $1 $2 $3 :set- feature($4, number, PLURAL) *()(DT_THI) *(DT_THI)(THI_ĐT) *(THI_ĐT)() > $1 $2 :copy-feature($3, number, $1) *()(VT SV) *(VT)() *(SV)() > $1 $2 :set-feature($3, number, PLURAL) *()(CC0) *(CC0)(SV) *(SV)() > $1 $2 :set-feature($3, number, PLURAL) *()(SV) *(SV)() > $1 :copy-feature($2, number, $1) *()(VT DT_LA) *(VT)() *(DT_LA)() > $1 $2 :set-feature($3, number, PLURAL) *()(CC0) *(CC0)(DT_LA) *(DT_LA)() > $1 $2 :set-feature($3, number, PLURAL) *()(DT_LA) *(DT_LA)() > $1 :copy-feature($2, number, $1) *()(TĐT2_1) *(TĐT2_1)() > $1 :set-feature($2, negated, TRUE) *()(RpV) *(RpV)() > $1 :set-feature($2, tense, PAST) *()(RfV) *(RfV)() > $1 :set-feature($2, tense, FUTURE) *()(RhV) *(RhV)() > $1 :set-feature($2, form, PRESENT_PARTICIPLE) chưa()(TĐT2_1) *(TĐT2_1)() > $1 :set-feature($2, form, PAST_PARTICIPLE) *()(TĐT3h) *(TĐT3h)() > $1 :set-feature($2, form, PAST_PARTICIPLE) *()(ĐT_XONG) *(ĐT_XONG)() > :set-feature($1, form, PAST_PARTICIPLE) $2 178 *()(VT SA) *(VT)() *(SA)() > $1 $2 :set-feature($3, number, PLURAL) *()(CC0) *(CC0)(SA) *(SA)() > $1 $2 :set-feature($3, number, PLURAL) *()(SA) *(SA)() > $1 :copy-feature($2, number, $1) *()(TTT2_1) *(TTT2_1)() > $1 :set-feature($2, negated, TRUE) *()(RpA) *(RpA)() > $1 :set-feature($2, tense, PAST) *()(RfA) *(RfA)() > $1 :set-feature($2, tense, FUTURE) *()(RhA) *(RhA)() > $1 :set-feature($2, form, PRESENT_PARTICIPLE) *()(TTT3h) *(TTT3h)() > $1 :set-feature($2, form, PAST_PARTICIPLE) tôi[p]()() > :set-feature($1, person, FIRST) mình[p]()() > :set-feature($1, person, FIRST) bọ[p]()() > :set-feature($1, person, FIRST) tớ[p]()() > :set-feature($1, person, FIRST) bạn[p]()() > :set-feature($1, person, SECOND) cô[p]()() > :set-feature($1, person, THIRD) *()(SV) *(SV)() > $1 :copy-feature($2, person, $1) *()(DT_LA) *(DT_LA)() > $1 :copy-feature($2, person, $1) *()(TT_SS) hơn(TT_SS)() > :set-feature($1, is_comparative, TRUE) $2 *()(TT_SS) nhất(TT_SS)() > :set-feature($1, is_superlative, TRUE) $2 *()(VTg) *(VTg)(VPg) *(VPg)() -> $1 $2 :copy-feature(:copy-feature(:copy-feature (:copy-feature(:copy-feature( $3, number, $1), person, $1), tense, $1), negated, $1), form, $1) *()(VTt) *(VTt)(VPt) *(VPt)() -> $1 $2 :copy-feature(:copy-feature( $3, is_comparative, $1), is_superlative, $1) Luật dịch cụm từ tháng()(SDT1) giêng(SDT1)() -> :set-string($1, January) tháng()(SDT1) một(SDT1)() -> :set-string($1, January) tháng()(SDT1) mười(SDT1)(ST_ST) hai(ST_ST)() -> :set-string($1, December) tháng()(SDT1) chạp(SDT1)() -> :set-string($1, December) kết_cấu()(ĐT_GT) từ(ĐT_GT)() > :set-string($1, compose) :set-string($2, of) nhìn()(ĐT_GT) *(ĐT_GT)() > :set-string($1, look) :set-string($2, at) chạy()(ĐT_GT) khỏi(ĐT_GT)() > :set-string($1, run) :set-string($2, away) from mua()(ĐT_GT O) cho(ĐT_GT)(GT_DT) *(GT_DT)() *(O)() > $1 $3 $4 đưa()(ĐT_GT O) cho(ĐT_GT)(GT_DT) *(GT_DT)() *(O)() > $1 $3 $4 ở()(GT_DT) đây(GT_DT)() > here ở()(GT_DT) đó(GT_DT)() > there làm[v]()(O ĐT_TT) *(O)() *(ĐT_TT)() -> :set-string($1, make) $2 $3 *()(TDT2m) *(TDT2m)(SA) *(SA)() -> $1 of $2 $3 *()(TDT2m) *(TDT2m)(SDT4) *(SDT4)() -> $1 of $2 $3 của()(GT_DT) *()(TDT2p) tôi(TDT2p GT_DT)() > :set-string($1, our) của()(GT_DT) tôi(GT_DT)() > :set-string($1, my) 179 của()(GT_DT) cô(GT_DT)() > :set-string($1, her) *()(SDT4) của(SDT4)(GT_DT) *(GT_DT)() > $3 's $1 *()(SHA) *()(TDT2p) tôi(TDT2p SHA)() > $1 :set-string($2, our) *()(SHA) *()(TDT2p) minh(TDT2p SHA)() > $1 :set-string($2, our) *()(SHA) *()(TDT2p) cô(TDT2p SHA)() > $1 :set-string($2, their) *()(GT_DT) *()(TDT2p) cô(TDT2p GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(GT_DT) *()(TDT2p) bạn(TDT2p GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, you) *()(GT_DT) *()(TDT2p) nó(TDT2p GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, *()(TDT2p) họ(TDT2p GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(GT_DT) them) *()(GT_DT) cô(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, her) *()(GT_DT) nàng(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, her) *()(GT_DT) chàng(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(GT_DT) bạn(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, you) *()(GT_DT) họ(GT_DT)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) cô(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) nàng(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) anh(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) ông(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) thằng(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) chàng(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) bạn(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, you) *()(O) *()(TDT2p) nó(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) *()(TDT2p) họ(TDT2p O)(NtPd) *(NtPd)() > $1 :set-string($2, them) *()(O) cô(O)(NtPd) *(NtPd)() > $1 :set-string($2, her) *()(O) nàng(O)(NtPd) *(NtPd)() > $1 :set-string($2, her) *()(O) anh(O)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(O) ông(O)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(O) thằng(O)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(O) chàng(O)(NtPd) *(NtPd)() > $1 :set-string($2, him) *()(O) bạn(O)(NtPd) *(NtPd)() > $1 :set-string($2, you) *()(O) nó(O)(NtPd) *(NtPd)() > $1 :set-string($2, it) *()(O) họ(O)(NtPd) *(NtPd)() > $1 :set-string($2, them) cô()(NtPd) *(NtPd)() > :set-string($1, she) chị()(NtPd) *(NtPd)() > :set-string($1, she) nàng()(SDT6) *(SDT6)() > :set-string($1, she) bà()(SDT6) *(SDT6)() > :set-string($1, she) anh()(SDT6) *(SDT6)() > :set-string($1, he) thằng()(NtPd) *(NtPd)() > :set-string($1, he) 180 chàng()(NtPd) *(NtPd)() > :set-string($1, he) ông()(NtPd) *(NtPd)() > :set-string($1, he) lão()(NtPd) *(NtPd)() > :set-string($1, he) bạn()(NtPd) *(NtPd)() > :set-string($1, you) nó()(NtPd) *(NtPd)() > :set-string($1, it) họ()(NtPd) *(NtPd)() > :set-string($1, they) *()(TDT2p) tôi(TDT2p)() > :set-string($1, we) *()(TDT2p) ta(TDT2p)() > :set-string($1, we) *()(TDT2p) minh(TDT2p)() > :set-string($1, we) *()(TDT2p) cô(TDT2p)() > :set-string($1, they) *()(TDT2p) bà(TDT2p)() > :set-string($1, they) *()(TDT2p) anh(TDT2p)() > :set-string($1, they) *()(TDT2p) ông(TDT2p)() > :set-string($1, they) *()(TDT2p) hắn(TDT2p)() > :set-string($1, they) *()(TDT2p) chàng(TDT2p)() > :set-string($1, they) *()(TDT2p) bạn(TDT2p)() > :set-string($1, you) *()(TDT2p) cậu(TDT2p)() > :set-string($1, you) *()(TDT2p) nó(TDT2p)() > :set-string($1, they) *()(TDT2p) họ(TDT2p)() > :set-string($1, they) thịt()(SDT1) bò(SDT1)() > :set-string($1, beef) thịt()(SDT1) lợn(SDT1)() > :set-string($1, pork) thịt()(SDT1) gà(SDT1)() > :set-string($1, chicken) đi()(ĐI) học(ĐI)() > :set-string($1, go)()(_TO_) to(_TO_)(_I_) school[n](_I_)() đi()(ĐI) làm(ĐI)() > :set-string($1, go)()(_TO_) to(_TO_)(_I_) workl[n](_I_)() đi()(ĐI) chơi(ĐI)() > :set-string($1, go) out đi()(ĐI) *(ĐI)() > :set-string($1, go) :set-feature($2,form,PRESENT_PARTICIPLE) cả()(CC0) *(CC0)(CCT) lẫn(CCT)(CCP) *(CCP)() > both $2 and $4 cả()(CC0) *(CC0)(CCT) cả(CCT)(CCP) *(CCP)() > both $2 and $4 cả()(CC0) *(CC0)(CCT) và(CCT)(CCP) *(CCP)() > both $2 and $4 vừa()(CC0) *(CC0)(CCTt) vừa(CCTt)(CCPt) *(CCPt)() > both $2 and $4 vừa()(CC0) *(CC0)(CCTg) vừa(CCTg)(CCPg) *(CCPg)() > $2 while :set-feature($4, form, PRESENT_PARTICIPLE) *()(ĐT_ĐTp) *(ĐT_ĐTp)() > $1 :set-feature($2, form, PRESENT_PARTICIPLE) *()(ĐT_ĐTi) *(ĐT_ĐTi)() -> $1 :set-feature($2, form, BARE_INFINITIVE) *()(ĐT_ĐT) *(ĐT_ĐT)() >$1 to()(_TO_):set-eature($2,form,BARE_INFINITIVE)(_TO_)() *()(TT_SS) hơn(TT_SS)() > $1()(_MVt_) than(_MVt_)() sắp()() > :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)() sắp_sửa()() > :set-string($1, be)()(_P_) about(_P_)(_TO_) to(_TO_)() đầu_hàng()() > :set-string($1, give)()(_IDL_) up(_IDL_)() *()(LA_DT) người(LA_DT)(DT\_TTv) *(DT\_TTv)() -> $1 from $3 181 *()(THT)*()(SV)*()(TĐT2_1) *(TĐT2_1 SV THT)() >$1 :set-feature(:copyfeature(:copy-feature(:copy-feature(do, number, $4), person, $4), tense, $4), contracted-negation,TRUE)[v]()(_I_)$2:set-feature($4,form,BARE_INFINITIVE)(_I_)() *()(THT) *()(SV) *(SV THT)() > $1 :copy-feature(:copy-feature(:copy-feature( do, number, $3), person, $3), tense, $3)[v]()(_I_)$2 :set-feature($3,form, INFINITIVE)(_I_)() *()(SV) có(SV)(ĐT_TT O) *(ĐT_TT)() khơng(O)() ->:copy-feature(:copyfeature(:copy-feature(be, number, $2), person, $2), tense, $2)[v]()(_SI_ _Pa_) $1(_SI_)() $3(_Pa_)() *()(SV) có(SV)(CĨ CK) *[v](CĨ)() khơng(CK)() ->:copy-feature(:copy-feature(:copyfeature(do, number, $2), person, $2), tense, $2)[v]()(_SI_ _I_) $1(_SI_)() :set-feature($3, form, BARE_INFINITIVE)(_I_)() *()(SV) có(SV)(OO) *(O)() khơng(O)() ->:copy-feature(:copy-feature(:copy-feature( do, number, $2), person, $2), tense, $2)[v]()(_SIp_)$1(_SIp_)(_Ifd_)have(_Ifd_) (_Os_) $3(_Os_)() *()(SV) chưa()(TĐT2_1) *(TĐT2_1 SV)() ->$1()() :copy-feature(:copy-feature(have, number, $3), person, $3)[v]()(N _PP_)not(N)() :remove-feature($3,negated)(_PP_)() *()(SV) *()(RfV) *()(TĐT2_1) *(TĐT2_1 RfV SV)() -> *()(SV) *()(RpV) *()(TĐT2_1) *(TĐT2_1 RpV SV)() > $1 $2 $3 $4 $1 $2 $3 $4 *()(SV) *()(TĐT2_1) *(TĐT2_1 SV)() > $1()() :copy-feature(:copy-feature(do, number, $3), person, $3)[v]()(_PP_)$2 $3(_PP_)() Luật chuyển đổi cấu trúc *()(DT_LA) *()(TĐT2_1) *(TĐT2_1 DT_LA)() > $1 $3 $2 *()(TT_TT) *(TT_TT)() > $2 $1 *()(SA SA) *(SA)() *(SA)() > $3 $2 $1 *()(SA) *(SA)() > $2 $1 *()(ĐT_TT) *(ĐT_TT)() > $2 $1 *()(SHA) *(SHA)() > $2 $1 *()(SDT1)*(SDT1)(VT)*(VT)(VP)*(VP)(VT)*(VT)(VP)*(VP)() >$2 $3 $4 $5 $6 $1 *()(SDT1) *(SDT1)(VT) *(VT)(VP) *(VP)() *()(SDT1) *(SDT1)() > $2 $1 *()(NtPd) *(NtPd)() > $2 $1 *()(STT) *(STT)() > $2 $1 *()(SỰ) *(SỰ)() > $2 *()(RpV) *(RpV)() > $2 $1 182 > $2 $3 $4 $1 PHỤ LỤC 4: SO SÁNH KẾT QUẢ DỊCH MỘT SỐ MẪU CÂU Sentence (1): Tên Hoa > My name is bloom VEtran: My Name is Flower Google: My name is United Sentence (2): Mẹ bác_sĩ giỏi > My mother is a good doctor VEtran: My mother is a jurisprudent physician Google: My mother is a good doctor Sentence (3): cần sách để đọc nhà > Need me a book sets reading at home VEtran: I need a tomes to read keep indoors Google: I need a book to read at home Sentence (4): Tất_cả thành_viên phải họp > All every members must go convening VEtran: All All members must go to meet Google: All members have to go to meetings Sentence (5): tơi có_thể cho mượn áo len > I could give borrow my wool shirt VEtran: I can lend miss my sweater Google: I can let her borrow my sweater Sentence (6): Cô > She feels wanting VEtran: She feel like Google: She felt like Sentence (7): > when not me VEtran: I never Google: I never cảm_thấy muốn khóc to cry cry crying không bao_giờ nên nghe lời ought to hear word ought to obey him heard him Sentence (8): thách anh nhảy qua tường > I defy him dances last that wall VEtran: I am challenged you overleaps that mural one Google: I challenge him to jump over the wall there Sentence (9): Anh ta muốn với cô > He wants me departs for her VEtran: He is wished I go with her Google: He wanted me to go with her Sentence 10 (10): u trái_tim > I love her by all my heart VEtran: I love her by a whole body heart Google: I love her with all my heart 183 Sentence 11 (11): biết tất_cả cô ta > I know all about her VEtran: I know all about who boil down me Google: I know all about her Sentence 12 (12): Ông ta chịu_đau can_đảm > he very courageous suffers VEtran: ông we bears aching is very manly Google: Pain he was very courageous Sentence 13 (13): Anh muốn chị tới > he wants she comes VEtran: He is wished she is next Google: He wanted her to Sentence 14 (14): tơi tặng món_q > I am presented a gift VEtran: I am giftted a gift Google: I was given a gift Sentence 15 (15): Những lỗi_lầm lớn thường kết_cấu từ lỗi_lầm nhỏ > big mistakes usually compose of young mistakes VEtran: Big lapses often frame from little lapses Google: The big mistake is often small structures from mistakes Sentence 16 (16): Con ngựa đá ngựa đá > horse kicks rocky horse VEtran: The horse stone horse kick Google: Horse stone horse Sentence 17 (17): > ant creeps up VEtran: Beef disc Google: Ants onto Kiến bò lên đĩa thịt bò beef dish rise the ox the Emmet beef Sentence 18 (18): Sự khơn_ngoan có_giá châu_ngọc > wise is valuabler than jewel VEtran: Something precious more priced advisability Google: Valuable than wisdom pearls Sentence 19 (19): Báo_săn loài động_vật nhanh thế_giới > cheetah is the quickest animal world VEtran: Cheetah is world' s fast animal the kind Google: Alert hunt is the world's fastest animal Sentence 20 (20): Sao anh dám đánh > why does you dare beat me VEtran: My britannic Asteroid dare whipped Google: How dare you hit me Sentence 21 (21): bố mẹ tơi thích xem phim > my father and mother very likes to watch film VEtran: I and my mother like to look up film very much Google: My parents love to watch movies 184 Sentence 22 (22): anh đá_bóng bơi giỏi > he very well plays football and swims VEtran: he kicked is shaded and very jurisprudent swimming Google:he's very good football and pool Sentence 23 (23): cô bé lớn xinh > the more big is little nipper pretty VEtran: more more nice-looking big little miss Google:the bigger the beautiful girl Sentence 24 (24): bố đưa cho sách > my father takes give me book VEtran: tome my father give to med Google:My father gave me a book Sentence 25 (25): anh biết tiếng_Việt tiếng_Pháp > he knows both Vietnamese and French VEtran: he know a whole french Vietnamese too Google:he knows both English French Sentence 26 (26): anh có từ_điển Việt - Anh khơng > you have Vietnamese - English dictionary You has Vietnamese dictionary- You neither you have dictionary English - I not Sentence 27 (27): Có chứ! > has! VEtran: There is final particle! Google: Yeah! Sentence 28 (28): Khơng biết máy_tính có tốt khơng > not know this computer well has not VEtran: Know this computer had well Neither Google: Do not know this computer is good Sentence 29 (29): Tất_nhiên nhớ chứ! > naturally is! VEtran: Of course it be final particle remembrance! Google: Of course, remember! Sentence 30 (30): Bác quen cô ạ? > also knows her? VEtran: Do You who also get used to her ạ? Google: Physicians also go after the letter A? Sentence 31(31): anh người Nhật không_phải người Hàn_Quốc > he is Japanese person not Korean individual VEtran: he is Japanese isn' t Korea person Google: He is Japanese, not Korean Sentence 32 (32): Máy máy_giặt đâu_phải máy_điều_hòa > that machine is washing-machine not conditioner is VEtran: That Machine is washer final particle definitely not conditioner Google: Where was the washing machine rather than air conditioning 185 is Sentence 33 (33): Cả cháu nhà cháu chuyển vào Vũng_Tàu năm bác > both niece and nephew house after transfer into Vung Tau one year VEtran: A whole grandchild everybody in the house grandchild these a years roadstead roll-in then refuse Google: Both her whole family she moved to Vung Tau for a year then North Asia Sentence 34 (34): Bộ_Kế_hoạch_và_Đầu_tư đâu hở em > Ministry of Planning and Investment where is VEtran: Younger sister where uncovered Ministry of Planning Investment Google: Ministry of Planning and Investment in the open where you and Sentence 35 (35): Anh thơng_minh , học_giỏi mà cịn khiêm_tốn > He is not only intelligent , good but also still very much more modest VEtran: He not only wit, well in school but also plenty humility as well Google: He's not only smart, good student but also very modest Sentence 36 (36): Nghe_nói > Then hears about him long VEtran: Hear tell of you then Google: Heard about him for a anh lâu mà hôm_nay gặp that today new finding long-term that new today is met long time today to meet new Sentence 37 (37): Anh chuyện > Does not know that story VEtran: You is unaware That tale Google: Do not you know that Sentence 38 (38): Hôm_nay biết anh thầy_giáo > Today I fresh realized he is teacher VEtran: Today I newly know he is instructor Google: Today I know that he is a teacher Sentence 39 (39): Anh mua với giá đắt > You gets for that cost is costly there VEtran: You bought with That cost be dearly there Google: You're purchase price was expensive Sentence 40 (40): Anh rủ > He asks me go touring Cuu Long VEtran: He hangs I tour the Mekong Google: He invites me to travel to du_lịch đồng_bằng sông Cửu_Long river delta river champaign the Mekong Delta Sentence 41 (41): Trong lúc học tiếng_Việt , học nhiều điều > For while studying Vietnamese , I thing studied many VEtran: During who learn Vietnamese, I learn talkativeness Google: While learning English, I learned a lot Sentence 42 (42): Khơng hiểu , sức_khỏe ngày xuống > Not comprehend star , my strength the more day nipper go down VEtran: Non- comprehension is stellar, health i more and more go down to Google: Somehow, his health is increasingly down 186 Sentence 43 (43): Vì thời_tiết xấu nên máy_bay khơng hạ_cánh > As bad weather so plane does not land VEtran: For dirty weather ought to plane landed Google: Because of bad weather, the plane not landing Sentence 44 (44): Dù có nhiều tiền khơng hạnh_phúc > Whether it has some moneys but still not happy it VEtran: Even if it is moneyed but it still whoes isn't blisstul Google: Although it has a lot of money but it is still not happy Sentence 45 (45): Cuốn sách anh đọc cô > Book you are reading is property that VEtran: Wind you is reading book is hers Google: The book he was reading her Sentence 46 (46): Tôi đọc tiểu_thuyết mà anh viết > I read fiction that he writes VEtran: I readed novel that he writes Google: I have read the novel that he wrote Sentence 47 (47): Sở_dĩ nhà_máy Loan hết việc là_do thiết_bị phụ_tùng hết > Loan's factory expires job because equipment and accessories finished VEtran: That's why be owing to plant and accessary finis Phoenix's factory ended Google: The reason Taiwan factory all is due to equipment and spare parts of all Sentence 48 (48): Ở chợ , quần_bị nhiều q , tơi khơng biết chọn loại > At market, too much jeans , I not know all choosing which sort VEtran: my bazaar, trousers who crept much whopping, is unaware which kind to choose is all together Google: At the market, many jeans too, I not know how to select all Sentence 49 (49): Lâu không nhận tin_tức > After long I not all accept her anything news VEtran: Long then I don' t receive news hers is all together Google: Long time since I received news of her whole Sentence 50 (50): Tơi chưa hiểu > I have not all understood anything about her VEtran: Not already My That what comprehension about her is all together Google: I not know anything about her 187 ... dịch Việt Anh nhằm tận dụng khả biểu diễn mối liên hệ trực tiếp từ mơ hình văn phạm liên kết 44 CHƯƠNG MƠ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 2.1 .Văn phạm liên kết cho tiếng Việt Từ định nghĩa hình. .. tâm, văn phạm kết nối từ vựng hóa, văn phạm phạm trù tổ hợp, văn phạm liên kết Hiện nay, xu hướng từ vựng hóa ảnh hưởng tới văn phạm tiếng Việt Các mô hình văn phạm phi ngữ cảnh từ vựng hóa kết. .. điểm khác văn phạm phụ thuộc văn phạm liên kết Liên kết có nhãn: Nếu văn phạm phụ thuộc, quan hệ phụ thuộc khơng thiết có nhãn liên kết văn phạm liên kết bắt buộc phải có nhãn Trong văn phạm phụ

Ngày đăng: 10/05/2014, 16:18

Từ khóa liên quan

Mục lục

  • BIA2_2013

  • Mucluc

  • chuong1

  • chuong2

  • chuong3

  • chuong4

  • phanconlai

Tài liệu cùng người dùng

Tài liệu liên quan