Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN VINH Xây dựng chương trình dịch tự động Anh - Việt phương pháp thống kê LUẬN VĂN THẠC SỸ Người hướng dẫn: PGS.TS Đinh Mạnh Tường Hà nội - 2005 Nguyễn Văn Vinh Luận văn thạc sĩ MỤC LỤC MỤC LỤC DANH MỤC HÌNH MỞ ĐẦU Chƣơng - TỔNG QUAN 1.1 Khái niệm dịch máy,vai trị, vị trí dịch máy 1.1.1 Khái niệm dịch máy 1.1.2 Vị trí, vai trị dịch máy 1.2 Sơ đồ tổng quát hệ dịch máy 1.3 Phân loại dịch máy 1.3.1 Theo mức độ can thiệp ngƣời 1.3.2 Theo số ngữ số chiều dịch 1.3.3 Theo cách lấy thông tin 1.3.4 Theo phạm vi ứng dụng 1.3.5 Theo ngƣời dùng 1.4 Các phƣơng pháp dịch máy 1.4.1 Các hệ dịch trực tiếp 10 1.4.2 Các hệ thống dịch chuyển đổi 10 1.4.3 Các hệ thống dịch liên ngữ 13 1.4.4 Dịch dựa liệu 17 1.5 Các hệ thống dịch máy giới 19 1.6 Các vấn đề dịch ngôn ngữ tự nhiên 21 1.6.1 Sự khác ngƣời dịch máy dịch 21 1.6.2 Các trở ngại dịch 21 1.7 Áp dụng kỹ thuật học máy dịch máy 29 Chƣơng - CORPUS VÀ GIÓNG HÀNG CÂU 30 2.1 Corpus 30 2.1.1 Corpus thô 30 2.1.2 Corpus song ngữ 32 2.2 Gióng hàng câu 32 2.2.2 Cách tiếp cận dựa vào độ dài câu 34 2.2.3 Cách tiếp cận dựa vào tƣơng ứng từ 36 2.2.4 Kết hợp hai phƣơng pháp 38 Chƣơng - DỊCH MÁY BẰNG PHƢƠNG PHÁP THỐNG KÊ 39 3.1 Tổng quan dịch thống kê 39 3.1.1 Mơ hình Kênh - Nguồn ( Source – Channel Model) 40 3.1.2 Cách tiếp cận Maximum Mơ hình Gióng hàng 40 3.1.3 Nhiệm vụ Dịch máy thống kê 41 3.1.4 Ƣu điểm phƣơng pháp tiếp cận thống kê 42 3.1.5 Chu kì phát triển hệ thống dịch thống kê 43 3.2 Mơ hình ngôn ngữ 46 3.2.1 N-gram 46 3.2.2 Mơ hình ngơn ngữ 47 3.2.3 Làm mịn (Smoothing) 48 3.2.4 Phép tính log xác suất (Log Probability Arithmetic) 49 3.3 Mô hình dịch 49 Nguyễn Văn Vinh Luận văn thạc sĩ 3.3.1 Gióng hành từ 50 3.3.2 Ý tƣởng 53 3.3.3 Các mơ hình dịch đƣợc đề xuất IBM 53 3.5 Thuật toán EM huấn luyện tham số mơ hình 59 3.5.1 Thuật toán EM (Expectation Maximization Algorithm) 59 3.5.2 Ứng dụng để ƣớc lƣợng tham số 60 3.6.Thuật toán giải mã 61 3.6.1 Giới thiệu 61 3.6.2 Mơ hình đơn giản 61 3.6.3 Điểm giả thuyết 62 3.6.4 Mơ tả thuật tốn 64 Chƣơng - XÂY DỰNG CHƢƠNG TRÌNH DỊCH ANH - VIỆT BẰNG THỐNG KÊ 66 4.1 Modul phân tích từ vựng 66 4.2 Modul phân tích hình thái 66 4.3 Modul huấn luyện bigram 68 4.4 Modul huấn luyện tham số mô hình dịch máy 69 4.4.1 Mơ hình 69 4.4.2 Mô hình 71 4.5 Modul tìm kiếm 74 4.6 Từ điển liệu 74 4.7 Tiền xử lý hậu xử lý 75 4.8 Chƣơng trình thử nghiệm 75 4.6.1 Giao diện chƣơng trình 75 4.6.2 Thử nghiệm 77 KẾT LUẬN 81 TÀI LIỆU THAM KHẢO 82 PHỤ LỤC A 85 PHỤ LỤC B 88 Nguyễn Văn Vinh Luận văn thạc sĩ DANH MỤC HÌNH Hình 1.1: Sơ đồ tổng quát hệ dịch máy Hình 1.2: Sơ đồ Hệ thống dịch chuyển đổi 12 Hình 1.3: Mơ hình dịch Liên ngữ 14 Hình 1.4: So sánh số luật 16 Hình 1.5: Sơ đồ hệ thống dịch dựa liệu 18 Hình 2.1: Sơ đồ trình tạo corpus 31 Hình 3.1: Sơ đồ hệ dịch phƣơng pháp thống kê 39 Hình 3.2: Chu kì phát triển hệ thống dịch thống kê 45 Hình 4.1 Sơ đồ chƣơng trình dịch Anh-Việt thống kê 67 Nguyễn Văn Vinh Luận văn thạc sĩ MỞ ĐẦU Dịch máy vấn đề quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên Trên giới dịch máy đƣợc nghiên cứu từ thập kỉ 50 đƣợc phát triển mạnh vào thập kỉ 80 Hiện nay, có nhiều hệ dịch máy thƣơng mại tiếng giới nhƣ Systrans, Kant, [30][13]và hỗ trợ lồi ngƣời nhiều giới với lƣợng thông tin trao đổi ngày lớn, tốc độ nhanh với nhiều ngôn ngữ khác Trong phát triển dịch máy, cách tiếp cận dịch máy dựa vào: dịch chuyển đổi, dịch liên ngữ dịch dựa vào liệu Mặt khác, với việc bùng nổ Internet nhƣ nay, có khối lƣợng văn khổng lồ Internet mà phần lớn tiếng Anh Do tính đa dạng mà việc hiểu văn hồn tồn khơng dễ chút Do việc có hệ dịch tự động Anh-Việt cần thiết Hơn nữa, Ở Việt Nam có vài nhóm nghiên cứu dịch tự động Anh-Việt Hiện có sản phẩm EVtrans đƣợc thƣơng mại hóa Tuy nhiên, chất lƣợng dịch phạm vi sử dụng sản phẩm nhiều hạn chế Thêm vào đó, cách tiếp cận nhóm dựng lại phƣơng pháp chuyển đổi (dựa luật) Với cách tiếp cận bị tƣợng “thắt nút cổ trai” trí tuệ nhân tạo đồng thời phí tốn cho việc xây dƣng trí thức dịch Vì vậy, luận văn này, tập chung nghiên cứu hƣớng dịch mới, phƣơng pháp dịch thống kê đồng thời áp dụng phƣơng pháp vào toán dịch Anh -Việt Trên giới, cách tiếp cận loại cách tiếp cận dựa vào liệu đƣợc phát triển mạnh vào năm thập kỉ 90[17][18] Có nhiều hệ dịch dựa cách tiếp cận đƣợc thƣơng mại hóa chất lƣơng dịch hệ cao nhƣ CANDIDE IBM [9], hệ dịch Trung Anh đại học Hoskin 2003 [10], Quan trọng khắc phục đƣợc nhƣợc điểm cách tiếp cận dựa luật là: tận dụng đƣợc liệu có sẵn Cách làm đỡ tốn nhiều công sức nhà ngôn ngữ nguời làm trí thức dịch Luận văn đƣợc chia làm bốn chƣơng: Nguyễn Văn Vinh Mở đầu Chƣơng 1: Tổng quan dịch máy Chƣơng 2: Corpus gióng hàng câu Chƣơng 3: Dịch máy phƣơng pháp thống kê Chƣơng 4: Xây dựng chƣơng trình dịch Anh-Việt thống kê Kết luận Luận văn thạc sĩ Nguyễn Văn Vinh Luận văn thạc sĩ Chƣơng - TỔNG QUAN 1.1 Khái niệm dịch máy,vai trị, vị trí dịch máy 1.1.1 Khái niệm dịch máy Định nghĩa: Các hệ dịch máy (machine translation system-MT) hệ thống sử dụng máy tính để dịch từ thứ tiếng (trong ngôn ngữ tự nhiên) sang vài thứ tiếng khác Ngôn ngữ văn cần dịch đƣợc gọi ngôn ngữ nguồn, ngôn ngữ văn dịch đƣợc gọi ngôn ngữ đích 1.1.2 Vị trí, vai trị dịch máy Hiện giới có khoảng 5650 ngơn ngữ khác nhau, với số lƣợng ngôn ngữ lớn nhƣ gây nhiều khó khăn việc trao đổi thông tin, giao tiếp, đồng thời ngăn cản phát triển thƣơng mại mậu dịch quốc tế Với khó khăn nhƣ ngƣời ta phải dùng đến đội ngũ phiên dịch khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nƣớc sang tiếng nƣớc khác Những công việc mang tính chất thủ cơng, nặng nhọc khối lƣợng văn cần dịch ngày nhiều Để khắc phục nhƣợc điểm ngƣời nghĩ đến việc thiết kế mơ hình tự động cơng việc dịch, từ xuất máy tính điện tử ngƣời ta tiến hành nghiên cứu dịch máy Công việc đƣa mơ hình tự động cho việc dịch đƣợc phát triển, chƣa giải đƣợc triệt để lớp ngôn ngữ tự nhiên Nhƣng đời chúng khẳng định đƣợc ích lợi to lớn mặt chiến luợc kinh tế, đồng thời vấn đề liên quan đến dịch máy chủ đề quan trọng ngành khoa học máy tính, chúng liên quan đến vấn đề xử lí ngơn ngữ tự nhiên-một vấn đề có ý nghĩa mà trí tuệ nhân tạo có khả giải Ngƣời ta tin việc xử lí ngơn ngữ tự nhiên có dịch máy giải pháp cho việc mở rộng cánh cửa đối thoại ngƣời- Nguyễn Văn Vinh Luận văn thạc sĩ máy, lúc ngƣời khơng phải tiếp xúc với máy qua dịng lệnh cứng nhắc mà giao tiếp cách trực tiếp với máy 1.2 Sơ đồ tổng quát hệ dịch máy Đầu vào hệ dịch máy văn viết ngơn ngữ nguồn Văn thu đƣợc từ hệ soạn thảo hay hệ nhận dạng chữ viết, lời nói Sau văn đƣợc chỉnh sửa lại nhờ khối soạn thảo, kiểm tra tả, trƣớc đƣa vào máy dịch Phần dịch máy chuyển văn nguồn thành văn viết ngơn ngữ đích Và qua chỉnh để cuối thu đƣợc văn tƣơng đối hồn chỉnh Trong q trình dịch máy, hệ thống thƣờng xuyên phải truy cập đến khối lƣợng lớn tri thức dịch Tri thức dịch thông thƣờng loại từ điển bao gồm: từ điển chứa luật cú pháp, từ điển từ vựng, từ điển thông tin ngữ nghĩa Trong nhiều hệ thống, có tƣơng tác ngƣời máy q trình dịch Tƣơng tác thơng thƣờng có hai chiều (ngƣời-máy) có giai đoạn Sau sơ đồ tổng quỏt ca h dch mỏy Con ng-ời Văn Soạn thảo vào kiểm tra tả Dịch máy Hiệu đính Văn Cơ sở trí thức Hỡnh 1.1: S đồ tổng quát hệ dịch máy Nguyễn Văn Vinh Luận văn thạc sĩ 1.3 Phân loại dịch máy Có nhiều cách phân loại khác nhau, tùy theo mục đích, phạm vi ứng dụng, khả kĩ thuật ta phân loại nhƣ sau: 1.3.1 Theo mức độ can thiệp ngƣời a) Hệ thống có trợ giúp người Con ngƣời can thiệp trình dịch nhiều giai đoạn:  Trƣớc đƣa vào máy: hiểu chỉnh câu, từ  Hỏi đáp trình dịch  Sau dịch: sửa đổi lại kết dịch, sửa ý, sửa từ Tùy theo mức độ tự động mà ngƣời ta lại phân mức khác b) Machine Translation(MT)- Các hệ dịch tự động hoàn toàn c) Machine-aided Translation(MAT)- Dịch máy trợ giúp Bao gồm: + Human-assisted machine translation(HAMT) Dịch máy với trợ giúp ngƣời: máy dịch chính, ngƣời giám sát giúp máy cần thiết (chọn nghĩa trƣờng hợp từ đa nghĩa) + Machine- assisted human translation(MAHT) Ngƣời dịch với trợ giúp máy: Ngƣời dịch chính, máy giúp đỡ có u cầu ngƣời (tra nghĩa từ, thành ngữ ) + Terminology-Data banks - Ngân hàng thuật ngữ: Thực chất khơng phải hệ dịch máy, nhƣng cung cấp lƣợng thuật ngữ lớn, cần thiết xây dựng cập nhật sở liệu cho máy 1.3.2 Theo số ngữ số chiều dịch Phân biệt hệ thống dịch hai ngữ hay đa ngữ, hệ thống dịch chiều hay hai chiều Ví dụ: Anh => Việt, Việt => Anh, AnhViệt Nguyễn Văn Vinh Luận văn thạc sĩ 1.3.3 Theo cách lấy thông tin a)Phần lớn hệ lấy thông tin từ ngôn ngữ học Cách lấy thơng tin có cách dịch nhƣ sau: + Dịch trực tiếp + Dịch chuyển đổi + liên ngữ + Dịch dựa liệu (translation by corpus) b) Loại không lấy thông tin từ ngôn ngữ học mà lấy thông tin dựa vào kết thống kê với dịch sẵn Đó hệ thống kê 1.3.4 Theo phạm vi ứng dụng Phân loại theo giới hạn ngôn ngữ, mức tự động, chất lƣợng dịch Các hệ Systran, Metal, Logos giới hạn cho ngôn ngữ KHKT dịch văn thô đủ hiểu tốc độ dịch gấp đến lần ngƣời dịch 1.3.5 Theo ngƣời dùng + Dành cho phiên dịch viên chuyên nghiệp: Chất lƣợng dịch phải cao +Dành cho ngƣời không chuyên nghiệp: nhu cầu cần đọc lƣớt qua nhanh loại tài liệu để nắm bắt thông tin Với nhu cầu thông thƣờng yêu cầu độ xác 1.4 Các phương pháp dịch máy Theo phân loại cách lấy thông tin, ta thấy có phƣơng pháp dịch là:  Dich trực tiếp  Dịch chuyển đổi(Dịch dựa sở luật)  Liên ngữ  Dịch dựa liệu Nguyễn Văn Vinh Luận văn thạc sĩ 77 Ngồi chƣơng trình cịn có chức hệ soạn thảo đơn giản, cho phép thao tác nhanh nhƣ cắt, dạn, chọn font chữ, 4.6.2 Thử nghiệm Chƣơng trình đƣợc thử nghiệm với Corpus 16490 mẫu câu song ngữ Anh-Việt, bao gồm: - Corpus song ngữ: Tiếng Anh Tiếng Việt Từ Corpus 127952 từ 128088 từ Từ vựng 9166 từ 8961 từ - Corpus thô: Tên corpus Báo Lao động Kích thƣớc 46 Mb Các chủ đề Khoa học, kinh tế, quốc tế, thể thao, văn hoá Thống kê Corpus thô bao gồm 46 Mb báo Lao động ta đƣợc: Tổng số 1-gram là: 35128 Tổng số xuất 1-gram là: 6918078 Tổng số 2-gram là: 1017708 Tổng số xuất 2-gram là: 5700893 Chạy mơ hình 1, với số lần lặp thuật tốn EM 3, ta có số giá trị xác suất số từ tiếng việt nhƣ: tình yêu, hạt nhân Bảng xác suất từ số từ tiếng Anh đƣợc thể nhƣ sau: a) Với mơ hình - Từ “tình u”: e all are but day everything fiona foes for t(e|v) 0.00600069 0.00392101 0.00706107 0.00497585 0.0210985 0.106289 0.00768785 0.0052714 0.0632788 Nguyễn Văn Vinh Luận văn thạc sĩ 78 friendship know love my natural 0.0052715 0.00182686 0.480974 0.0393954 0.00527129 - Từ “hạt nhân”: e is lasts lately lot many no not nuclear of only parts people power power-stations protest reactor t(e|v) 0.0229054 0.00187064 0.0122465 0.00410293 0.00606914 0.00572209 0.0018921 0.58651 0.00516309 0.00458942 0.00148803 0.00475152 0.0261725 0.0122465 0.0242362 0.00505461 Nhận xét: Chúng ta thấy xác suất đƣợc tô đậm hai bảng xác suất có giá trị lớn tức e(nuclear|hạt nhân) = 0.58, e(love|tình yêu) = 0.48 Điều có nghĩa “hạt nhân” cách dịch “nuclear” “tình yêu” “love” Điều phù hợp với từ điển “tình yêu” nghĩa từ “love”, “hạt nhân” nghĩa từ “nuclear” b) Với mơ hình 2: - Từ “tình u”: e everything for friendship is t(e|v) 0.0388639 0.127862 0.0103021 0.0145565 Nguyễn Văn Vinh Luận văn thạc sĩ 79 know love me my natural on people understand usually 0.0148172 0.16379 0.013337 0.0520682 0.00977076 0.0237324 0.0190655 0.0116255 0.0226969 - Từ “hạt nhân”: e lately lot many member most need next no not nuclear of on only our outcry own parts people power power-stations protest t(e|v) 0.0117767 0.00997049 0.00718782 0.00156135 0.00485809 0.00323279 0.00525112 0.00795312 0.00955831 0.0691014 0.022393 0.00287347 0.0186091 0.00331347 0.00558652 0.00297645 0.00477344 0.0152944 0.0254838 0.0117761 0.0228998 Nhận xét: Đối với mơ hình 2, ngồi việc dựa vào xác suất t(e|v), ta cịn phải dựa vào xác suất a(i|j,v,e) Tuy nhiên, mơ hình trƣờng đặc biệt mơ hình nên ta thấy bảng xác suất ta có giá trị xác suất lớn giống nhƣ mơ hình (đƣợc tơ đậm bảng) c) Dịch mơ hình 1, Nguyễn Văn Vinh Luận văn thạc sĩ 80 Ta dùng kết huấn luyện mơ hình (các giá trị t(e|v)) làm giá trị khởi tạo cho cho mơ hình Thử nghiệm với 100 câu đƣợc lấy Grammar In Use, kết nhƣ sau: Câu dịch Tỉ lệ Mơ hình 52 52 % Mơ hình 61 61 % Nhận xét: Các câu dịch tốt câu đơn giản Lỗi tập trung trình tìm kiếm, mơ hình mà mơ tả liệu huấn luyện Đặc biệt tập trung vào mô hình dịch Với việc cải tiến mơ hình nhƣ ta áp dụng với mơ hình 3, 4, IBM số mơ hình đƣợc cải tiến gần (đặc biệt templete alignment) chất lƣợng dịch đƣợc cải thiện lên nhiều Nguyễn Văn Vinh 81 Luận văn thạc sĩ KẾT LUẬN Vấn đề dịch máy vấn đề khó lĩnh vực xử lý ngơn ngữ tự nhiên Nó vấn đề thách thức có nhiều cơng việc cần giải nhà tin học Hƣớng tiếp cận thống kê hƣớng tiếp cận dựa vào liệu đƣợc phát triển mạnh từ thập kỉ 90 Nó khắc phục đƣợc nhƣợc điểm cách tiếp cận dựa vào luật (dịch chuyển đổi) Qua năm chƣơng, luận văn trình bày cách tiếp cận, phƣơng pháp giải cho vấn đề dịch máy SMT đồng thời áp dụng cho toán dịch Anh-Việt Mặc dù chất lƣợng dịch chƣa cao nhƣng cải tiến mơ hình dịch đồng thời huấn luyện với nhiều liệu hơn, chất lƣợng dịch đƣợc nâng cao rõ rệt Hơn ta hồn tồn áp dụng cho chiều dịch Việt-Anh 1) Các kết đạt đƣợc - Trình bày cách tiếp cận dịch máy thống kê - Xây dựng chƣơng trình gióng hàng câu tự động Anh-Việt - Áp dụng cách tiếp cận vào tốn dịch Anh-Việt - Xây dựng cơng cụ để huấn luyện mơ hình dịch Model 1, Model - Xây dựng chƣơng trình thử nghiệm dịch Anh-Việt thống kê 2) Hƣớng phát triển - Tiếp tục cải tiến mơ hình dịch cho tốn dịch Anh-Việt cách áp dụng mơ hình 4, gióng hàng mẫu - Phân tích nơng để phân tích câu thành cụm trƣớc áp dụng mơ hình - Thử nghiệm với liệu đa dạng lớn - Cải tiến thuật toán giải nén (decoding) hiệu - Áp dụng cho chiều dịch từ Việt - Anh Nguyễn Văn Vinh Luận văn thạc sĩ 82 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Hộ (2001), Xác suất thống kê, Nhà xuất giáo dục [2] Hoàng Phê (chủ biên) (2002), Từ điển tiếng Việt, Nhà xuất Đà Nẵng [3] Đinh Mạnh Tƣờng (2002), Trí Tuệ Nhân Tạo, Nhà xuất khoa học kĩ thuật [4] Nguyễn Phƣơng Thái (2003), Kiểm lỗi tả cảm ngữ cảnh tiếng Việt, Luận văn thạc sỹ, Đại học Quốc Gia Hà Nội [5] Nguyễn Văn Vinh, Đinh Mạnh Tƣờng, Nguyễn Phƣơng Thái (2004), Chương trình gióng hàng câu tự động Corpus song ngữ Anh-Việt, Hội thảo toàn quốc CNTT, Đà Nẵng, Việt Nam Tiếng Anh [6] Aho, A.V., Ullman J D (1972), The Theory Of Parsing, Translation and Compiling”, Vol I : Parsing, Prentice-Hall, Englewood Cliffs N.J [7] Alfred V.Aho, Ravi Shethi, Jeffrey D.Ullman (1986), Compilers principles, Teachniques, and Tools, Addison-Wesley Publishing Company 1986 [8] Brown, P., Cocke, J., Pietra, S D., Jelinek, J., Lafferty and Roossina, P (1990), “A statistical approach to machine translation”, Computational Linguistics, 16(2), pp 79-85 [9] Brown, P.F., Dellta Pietra, S.A., Della Pietra, V J., Mercer, R.L (1993), “The Mathematics of Statistical Machine Translation: Parameter Estimation”, Computational Linguistics, Vol 19, No 2, pp 263-311 [10] Byrne W et al (2003), The Johns Hopkins University 2003 Chinese-English Machine Translation System, In Machine Translation Summit IX The Association for Machine Translation in the Americas [11] Christopher D.Manning, Hinrich Shütze (2001), Foundation of Statistical Natural Language Processing, The Mit Press Cambridge, pp 466-484 Nguyễn Văn Vinh 83 Luận văn thạc sĩ [12] Daniel J., James H Martin (2000), Introduction to Natural Language Processing, Computational Linguistics, and Speed Recognition, Prentice-Hall, Inc [13] Eric H Nyberg, Teruko Mitamura (1992), THE KANT SYSTEM: FAST, ACCURATE, HIGH-QUALITY TRANSLATION IN PRACTICAL DOMAINS, Proceedings of COLING-92, Nantes, France, July 1992 [14] Gale, W.A, Church, K.W (1993), „A Program for Aligning Sentences in Bilingual Corpra‟, Computational Linguistics, Vol 19, No 1, pp 75-102 [15] Germann U., Jahr M., Knight K., Marcu D., and Yamada K.(2001), Fast Decoding and Optimal Decoding for Machine Translation [16] Gremanm, U (2003), Greedy Decoding for Statitical Machine Translation in Almost Linear Time, Proceedings of HLT-NAACL 2003, Edmonton, Canada [17] Hutchins W.John (1995), “MACHINE TRANSLATION: A BRIEF HISTORY”, Concise history of the language sciences: from the Sumerians to the cognitivists, Oxford: Pergamon Press, 1995, pp 431-445 [18] Knight, K (1997), “Automating Knowledge Acquisition for Machine Translation”, AI Magazine, 18(4), pp 225-242 [19] Knight, K (1999), A Statistical Machine Translation Tutorial Workbook, Tech Rep., USC/ISI (available at www.clsp.jhu.edu/ws/projects/mt/wkbk.rtf) [20] Knight, K (1999), “Decoding complexity in wordreplacement translation models”, Computational Linguistics, 25(4), pp 607-615 [21] Lappon ,R.Tang (2000), Intergrating Statistical and Relation learning for Semantic Parsing: Application to learning natural languge Interfaces for database, Phd Thesis [22] Och, F J., Useffing, N., Ney, H (2001), An efficent A* search algorithm for statistical machine translation, Proceedings of the ACL 2001 Workshop on DataDriven Methods in Machine Translation, Toulouse, France, pp 55-62 Nguyễn Văn Vinh 84 Luận văn thạc sĩ [23] Och, F J (2002), Statistical Machine Translation: From Single-Word Models to Alignment Templates, PhD thesis, RWTH Aachen, Germany [24] Och, F J., Ney, H (2003), “A Systematic Comparison of Various Statistical Alignment Models”, Computational Linguistics, 29(1), pp 19-51 [25] Robert C.Moore (1998), Fast and Accurate Sentence Alignment of Bilingual Corpora, The proceedings of the 5th conference of the Association for Machine Translation in the Americas [26] Sergei Nirenburg, Machine translation, theoretical and ethodological issues, Cambridge university Press, 1987 [27] Simad, M., Plamondon, P (1998), “Bilngual Sentence Alignment: Balancing Robustness and Accuracy”, Machine Translation, Vol 13, No 1, pp 59-80 [28] Stuart J Russel, Peter N (2003), Artifiticial Intelligence: A Mordel Approach, Pearson Educaton, Inc [29] Tom M.Mitchell (1997), Machine Learning, Mit press and the McGraw-Hill company, In [30] Trang Web: http://www.systransoft.com [31] Wang, Y.-Y and Waibel, A (1997), Decoding algorithm in statistical translation, In Pro 35th Annual Conf of the ACL, pp 366-372, Madrid, Spain [32] Wang Y.-Y (1998), Grammar Inference and Statistical machine translation, CMU LTI-98-160, Phd.Thesis [33] Zeynep, O S (1998), Confidence Factor Assignment to translation template, Thesis master Nguyễn Văn Vinh 85 Luận văn thạc sĩ PHỤ LỤC A Bao gồm cấu trúc liệu để lƣu xác suất mơ hình ngơn ngữ mơ hình dịch Do số lƣợng giá trị xác suất mô hịnh dịch mô hình ngơn ngữ lớn: mơ hình dịch (1267010 giá trị), mơ hình ngơn ngữ (1017708 2-grams) Do vậy, xây dựng cấu trúc liệu để lƣu chúng phải thỏa mãn số tiêu chí sau: - Tìm kiếm giá trị nhanh - Bộ nhớ để lƣu giữ chúng tối ƣu Chúng sử dụng Suffix Tree để lƣu giá trị mơ hình ngơn ngữ, bảng vector (tmodel) để lƣu mơ hình dịch Các cấu trúc đƣợc thể ngôn ngữ Visual C++ nhƣ sau: Lớp CSuffixTree: class CSuffixTree{ protected: typedef struct Node1 { TCHAR node; NodeIndex left, right, child; unsigned int count; }Node; public: CSuffixTree(); ~CSuffixTree(); int InsertItem(const TCHAR *item); int ScanFiles(const TCHAR *cName, TCHAR style); int PushItemToFile(const TCHAR *fileName,int Sequence = 0); void FreeTree(); int InitTree(); int ErrorMessage(int errorCode, const TCHAR *addMsg = ""); int FindKey(const TCHAR* str); int LoadFromFile(const TCHAR *filename); int SaveTreeInFile(const TCHAR *filename); NodeIndex maxNode, currentNode; int lengMaxLine; unsigned int numItem; // number of scanned item Node *tree; NodeIndex memSize; unsigned int N; // number of word instances in corpus unsigned int V; // number of words in vocabulary private: NodeIndex CreateNew(TCHAR c); int ReadWord(ifstream *inputFile); int ReadSentence(ifstream *inputFile); int ScanItem(Node *currentNode,int Sequence); Nguyễn Văn Vinh 86 Luận văn thạc sĩ int SearchKey(Node *currentNode, const TCHAR *str); }; Lớp tmodel: template class tmodel{ typedef LpPair CPPair; public: int noEnglishWords; // Tong so tu tieng Anh int noVietnameseWords; // Tong so tu tieng Viet int sophantu; vector< vector* > lexmat; void Erase(WordIndex v, WordIndex e) { CPPair *p = Find(v,e); if(p) *p = CPPair(0,0); }; CPPair*Find(int v,int e) { pair *be=&(*lexmat[v])[0]; //int aaa = (*lexmat[v]).size(); pair *en=&(*lexmat[e])[0]+(*lexmat[v]).size(); pair *x= mbinary_search(be,en,e); if( x==0 ) { //cerr

Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

DANH MỤC HÌNH

MỞ ĐẦU

Chương 1 - TỔNG QUAN

1.1. Khái niệm về dịch máy,vai trò, vị trí của dịch máy

1.1.1 Khái niệm về dịch máy

1.1.2 Vị trí, vai trò của dịch máy

1.2. Sơ đồ tổng quát của một hệ dịch máy

1.3. Phân loại dịch máy

1.3.1. Theo mức độ can thiệp của con người

1.3.2. Theo số ngữ và số chiều dịch

1.3.3. Theo cách lấy thông tin

1.3.4. Theo phạm vi ứng dụng

1.3.5. Theo người dùng

1.4. Các phương pháp dịch máy cơ bản

1.4.1. Các hệ dịch trực tiếp

1.4.2. Các hệ thống dịch chuyển đổi

1.4.3. Các hệ thống dịch liên ngữ.

1.4.4. Dịch dựa trên dữ liệu

1.5. Các hệ thống dịch máy trên thế giới

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan