Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản Tiếng Việt

44 383 0
Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản Tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

-o0o - Sinh viên thực hiện: Đinh Văn Toản Giáo viên hƣớng dẫn: Mã số sinh viên: 110584 CHƢƠNG 1: THÔNG TIN LỜI CẢM ƠN Đầu tiên em xin chân thành cảm ơn đến thầy cô khoa Công nghệ thông tin Trƣờng Đại học dân lập Hải Phòng tận tình dạy bảo cho em suốt thời gian học tập trƣờng Em xin gửi lời biết ơn sâu sắc đến Ths.Nguyễn Thị Xuân Hƣơng dành nhiều thời gian tâm huyết hƣớng dẫn nghiên cứu giúp em hoàn thành luận văn tốt nghiệp Mặc dù em có nhiều cố gắng hoàn thiện luận văn tất nhiệt tình lực mình, nhiên tránh khỏi thiếu sót, nên em mong nhận đƣợc đóng góp quý báu thầy cô bạn Hải Phòng, tháng 07 năm 2011 Sinh viên Đinh Văn Toản DANH MỤC HINH VẼ CHƢƠNG 1: 10 1.1.1 Phát biểu toán 10 1.1.2 Đặc điểm 10 1.2 Giới thiệu công trình có 11 1.2.1 AMPad 11 1.2.2 VietPad 11 1.2.3 viAccent 12 1.2.4 VietMarker 13 1.2.5 14 CHƢƠNG 2: 15 2.1 Giới thiệu 15 2.2 Nguyên lý thành phần: 17 2.2.1 18 2.3 Mô hình dịch: 21 2.3.1 Sự gióng hàng (alignment): 21 2.4 Giải mã (Decode) 28 2.4.1 Translation Options 29 2.4.2 Thuật toán (Core Algorithm) 30 2.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) 31 2.4.4 32 (Beam Search) 2.4.5 CHƢƠNG 3: - (N-Best Lists Generation) THỰC NGHIỆM 36 38 3.1 Cấu hình hệ điều hành 38 3.2 Các công cụ sử dụng 38 3.2.1 Bộ công cụ xây dựng mô hình ngôn ngữ - SRILM: 38 3.2.2 Bộ công cụ xây dựng mô hình dịch máy thống kê – MOSES: 38 3.2.3 Các bƣớc huấn luyện dich kiểm tra 39 3.2.4 Chuẩn hóa liệu 40 3.2.5 Xây dựng mô hình ngôn ngữ 40 3.2.6 Huấn luyện mô hình: 40 3.2.7 41 3.2.8 Đánh giá kết dịch 42 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 DANH MỤC HINH VẼ Hinh 1.2.1-1 Thêm dấu tiếng Việt tự động AMPad 11 Hình 1.2.2-2 Gõ tiếng Việt không dấu VietPad 12 Hình 1.2.3-3 Văn sau thực chức thêm dấu tiếng Việt VietPad 12 Hình 1.2.3-4 : Gõ tiếng việt không dấu viAccent 13 Hình 1.2.4-5 Văn sau thực chức thêm dấu Vietmarker 14 2.1.1-6 Tăng kích cỡ LM cải thiện điểm BLEU 16 2.2.1-7 Kiến trúc hệ thống SMT 17 Hình 2.2-8 Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 18 Hình 2.3.1-9 Sự tƣơng ứng - câu tiếng Anh câu tiếng Pháp 21 Hình 2.3.1-10 Sự tƣơng ứng câu tiếng Anh với câu tiếng Tây Ban Nha cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh 22 Hình 2.3.1-11 Sự tƣơng ứng - nhiều câu tiếng Anh với câu tiếng Pháp 22 Hình 2.3.1-12 Sự tƣơng ứng nhiều - nhiều câu tiếng Anh với câu tiếng Pháp 22 L Chữ viết tiếng Việt có ẦU có xuất dấu dấu ký tự Điều giúp cho tiếng Việt “thêm thanh, thêm điệu” Tuy nhiên, việc “thêm thanh, thêm điệu” làm cho việc gõ tiếng Việt trở nên tốn nhiều thời gian đƣợc nhiều e-mail r Chúng ta thật vất vả phải vừa đọc vừa đoán nội dung Chính phát triển công cụ giúp thêm dấu tiếng Việt vào văn không dấu việc cần thiết thú vị : VietPad chƣơng trình text editor Việt Unicode phát triển Quân Nguyễn nhóm phát triển http://vietpad.sourceforge.net viAccess, phần mềm bỏ dấu tiếng việt online địa chỉ: http://vietlabs.com/vietizer.html AMPad Trần Triết Tâm nâng cấp chƣơng trình “AutoMark” chuyển đổi xác đến khoảng 80% hơn.VietMarker, đƣợc phát triển nhóm nghiên cứu giảng viên sinh viên Học viện Công nghệ Bƣu Viễn thông, đạt đƣợc độ tài hƣớng đến việc giải toán thêm dấu tiếng việt theo mô hình dịch máy thống kê Dịch máy phƣơng pháp thống kê (Statistical Machine Translation) T xây dựng từ điển, luật chuyển đổi tay, hệ dịch tự động xây dựng từ điển, quy luật dựa kết thống kê có đƣợc từ liệu Chính vậy, dịch máy dựa vào thống kê có tính khả chuyển cao, có khả áp dụng đƣợc cho cặp ngôn ngữ Luận văn đƣợc tổ chức thành chƣơng với nội dung nhƣ sau: Chƣơng 1: Chƣơng 2: , Chƣơng , CHƢƠNG 2: 2.1.1 Phát biểu toán Bài toán đƣợc phát biểu nhƣ sau: Input: Cho văn tiếng Việt không dấu OutPut: Chuyển văn không dấu thành có dấu Sử dụng phƣơng pháp dịch máy thống kê để biên dịch 2.1.2 Đặc điểm xuất dấu nhƣ dấu ký tự làm phong phú thêm cho ngôn từ tiếng Việt, góp phần tăng độ biểu cảm tiếng Việt Dấu phần “bất khả phân” âm tiết tiếng Việt Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm hay nhiều âm tiết kết hợp với nhau, trở nên khó khăn dễ gây hiểu lầm Để thêm dấu, trƣớc tiên, ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ văn tiếng Việt có dấu việc thử thách, dấu, việc nhận diện ranh giới từ tiếng Việt nhƣ số ngôn ngữ Châu Á khác, từ tả không tƣơng ứng với “từ” văn Đối với thứ tiếng Châu Âu, ta dễ dàng nhận từ, từ đƣợc phân cách khoảng trắng Điều lại không với tiếng Việt Trong tiếng Việt, tiếng_hay gọi âm tiết_đƣợc phân cách khoảng trắng, từ Sau nhận diện đƣợc ranh giới từ, ta cần phải xác định cho từ có dấu có dạng thể không dấu nhƣ Việc xác định gây nhiều khó khăn, từ từ không dấu có nhiều từ có dấu tƣơng ứng với Ví dụ 1-1 : Từ không dấu “me” có từ có dấu tƣơng ứng “mẹ”, “mẻ” “mè” Do đó, sau giải xong toán tách từ tiếng Việt không dấu, ta cần phải giải thêm toán xác định từ có dấu thích hợp với từ không dấu 10 3.4.2 Thuật toán (Core Algorithm) (beam search algorithm), câu tiếng Anh đầu đƣợc sinh từ trái sang phải dạng giả thiết Tiến trình đƣợc minh họa hình sau: Bắt đầu từ giả thuyết đầu tiên, mở rộng từ tiếng nƣớc Maria, đƣợc dịch Mary Từ tiếng nƣớc đƣợc đánh dấu đƣợc dịch (đánh dấu dấu hoa thị) Chúng ta mở rộng giả thuyết việc dịch từ nƣớc ví dụ nhƣ lựa chọn từ bruja Chúng ta sinh giả thuyết từ giả thuyết mở rộng Cho giả thuyết mở rộng ta sinh giả thuyết cách dịch từ no did not Trạng thái khởi tạo từ tiếng nƣớc đƣợc dịch sang từ tiếng Anh đƣợc sinh Một trạng thái đƣợc tạo cách mở rộng từ tiếng Anh đầu với dịch cụm từ từ đầu vào tiếng nƣớc chƣa đƣợc dịch 30 n dịch cụm từ đƣợc thêm vào Mỗi trạng thái tìm kiếm (giả thuyết) đƣợc thể bởi: Một liên kết ngƣợc trở lại với trạng thái trƣớc tốt (cần thiết cho việc tìm kiếm dịch tốt câu giải thuật quay lui thông qua trạng thái tìm kiếm) Các từ tiếng Anh cuối đƣợc sinh ( cần thiết cho việc tính toán mô hình ngôn ngữ tiếp theo) (cần thiết tính toán cho chi óp méo tƣơng lai) (đƣợc tính toán trƣớc lƣu trữ phù hợp) khả dịch Phần mô tả làm tối ƣu việc tìm kiếm cách loại bỏ giả thuyết mà phần đƣờng dẫn không cho dịch tốt Chúng ta giới thiệu khái niệm trạng thái so sánh đƣợc, cho phép định nghĩa cụm giả thuyết tốt cắt bỏ giả thuyết không phù hợp cụm 3.4.3 Kết hợp lại giả thuyết (Recombining Hypotheses) Kết hợp lại giả thuyết cách tốt để giảm không gian tìm kiếm hai giả thuyết đƣợc kết hợp lại thỏa mãn : Hai từ tiếng Anh cuối đƣợc sinh 31 , ví dụ Giả thuyết phần đƣờng dẫn cho dịch tốt loại bỏ Chú ý giả thuyết cấp thấp phần đƣờng dẫn cho dịch tốt thứ hai điều quan trọng việc sinh danh sách n giả thuyết tốt 3.4.4 Tìm kiếm ch m (Beam Search) Chúng ta ƣớc lƣợng có giả thuyết đƣợc sinh trình tìm kiếm Xem xét giá trị cho thuộc tính giả thuyết nhất, ƣớc lƣợng cận số giả thuyết N Trong nf số từ tiếng nƣớc |Ve| kích thƣớc từ vựng tiếng Anh Thực tế số từ tiếng Anh đƣợc sinh nhỏ nhiều so với |Ve| Vấn đề bùng nổ hàm mũ đƣợc bao trùm giả thuyết xác định khả từ tiếng nƣớc số lƣợng từ tiếng nƣớc cắt bỏ giả thuyết cấp dƣới Chúng ta dựa việc xem xét giả thuyết cấp dƣới nằm đánh giá giả thuyết Tuy nhiên việc nhìn chung tiêu chuẩn tồn nghiêng tìm kiếm dịch dễ tìm thấy phần đầu câu Ví dụ có ba cụm từ tiếng mà dễ dàng dịch sang cụm từ tiếng Anh t tiếng Anh Việc phâ 32 nhân tố ((vd , ( vd: n = 100) Lƣu ý kiểu cắt tỉa rủi ro (trái ngƣợc với tái tổ hợp) Nếu chi phí tƣơng lai không đủ, giả thuyết đƣờng dẫn đến tốt Trong phiên đặc biệt chi phí tƣơng lai , nghĩa không chi phí tƣơng lai không đủ Trong thực tế, loại cắt tỉa giảm không gian tìm kiếm Hình dƣới đƣa giả mã cho thuật toán sử dụng cho tìm kiếm Đối với số từ nƣớc , chồng giả thuyết tạo Giả thuyết ban đầu đƣợc đặt ngăn xếp cho Bắt đầu với giả thuyết này, dụng giả thuyết nƣớc đƣợc sinh sử Mỗi giả thuyết có nguồn gốc đƣợc đặt ngăn xếp dựa số lƣợng từ nƣớc 33 initialize hypothesisStack[0 nf]; create initial hypothesis hyp_init; add to stack hypothesisStack[0]; for i=0 to nf-1: for each hyp in hypothesisStack[i]: for each new_hyp that can be derived from hyp: nf[new_hyp] = number of foreign words covered by new_hyp; add new_hyp to hypothesisStack[nf[new_hyp]]; prune hypothesisStack[nf[new_hyp]]; find best hypothesis best_hyp in hypothesisStack[nf]; output best path that leads to best_hyp; đƣợc c Để loại trừ giả thuyết từ chùm xem xét chi phí , mà ƣớc lƣợng chi phí tƣơng lai Trong tính toán chi phí rẻ tƣơng lai cho giả thuyết, tính toán đánh bại mục đích việc tìm kiếm chùm 34 Chi phí tƣơng lai gắn liền với từ nƣớc chƣa đƣợc dịch Trong khuôn khổ mô hình cụm từ, từ đơn lẻ đƣợc dịch riêng lẻ, mà liên tiếp nhƣ cụm từ Mỗi hoạt động dịch mang chi phí dịch, Đối với mô hình dịch chi phí mô hình ngôn ngữ, tƣơng lai, xem xét ngôn ngữ Chi phí mô hình ngôn ngữ thƣờng đƣợc tính mô hình ngôn ngữ trigram Tuy nhiên, từ tiếng Anh trƣớc cho dịch Vì vậy, gần chi phí cách tính toán c mô hình ngôn ngữ cho từ tiếng Anh tạo Điều có nghĩa, có từ tiếng Anh đƣợc sinh xác suất unigram Nếu hai từ đƣợc tạo ra, xác suất unigram từ xác suất bigram từ thứ hai, Đối với chuỗi nƣớc tính toán chi phí cho tùy chọn dịch Cách rẻ để phí cho tuỳ chọn cho khái niệm Các tùy chọn đƣờng mang theo tùy chọn : Cij Chi phí dịch c01c12c25 = 1,9578 *10-7 35 3.4.5 - (N-Best Lists Generation) Thông thƣờng, hy vọng giải mã cung cấp cho dịch tốt cho đầu vào theo mô hình Nhƣng số ứng dụng, quan tâm dịch tốt thứ hai, dịch tốt thứ ba,… Một phƣơng pháp phổ biến nhận dạng giọng nói, xuất sử dụng hệ thống giải mã nhƣ mô hình sở để sinh tập hợp dịch ứng cử cho câu đầu vào Sau đó, đƣợc sử dụng để Một danh sách - dịch dịch ứng cử Nhƣ tập hợp dịch đại diện đồ thị từ (Ueffing et al., EMNLP 2002) rừng phân tích cú pháp (Langkilde, EACL 2002) Những cấu trúc liệu thay cho phép đại diện nhỏ gọn tập hợp lớn nhiều ứng cử Tuy nhiên, điều khó khăn nhiều để phát cấu trúc liệu Các cung đồ thị Tìm kiếm Trong trình mở rộng Các giả thuyết mở rộng liên kết tạo thành đồ thị ƣờng dẫn nhánh chọn dịch cho giả thuyết mà từ nhiều giả thuyết đƣợc sinh Đƣờng dẫn tham gia giả thuyết đƣợc kết hợp lại Thông thƣờng, kết hợp lại giả thuyết, đơn giản loại bỏ giả thuyết , phần đƣờng tốt thông qua đồ thị tìm kiếm (nói cách khác dịch tốt nhất) Nhƣng kể từ đơn giản quan tâm đến dịch tốt thứ hai, thông tin giả thuyết Nếu làm điều này, đồ thị tìm kiếm chứa đƣờng dẫn cho giả thuyết giả thuyết cuối ( giả thuyết tất từ nƣớc ngoài) 36 Nếu lƣu trữ thông tin nhiều cách để đạt đƣợc giả thuyết, số lƣợng đƣờng nhân thông qua đồ thị Để giữ cho thông tin kết hợp nhƣ , lƣu giữ hồ sơ : nhận dạng giả thuyết trƣớc nhận dạng giả thuyết chi phí thấp chi phí từ trƣớc đến chi phí giả thuyết cao Hình dƣới cho ví dụ cho hệ vòng cung nhƣ vậy: trƣờng hợp này, tƣơng đƣơng tìm kiếm heuristic Do đó, giả thuyết Nhƣng muốn giữ cho thông tin đƣờng dẫn từ giả thuyết 2, vòng cung Cung chi phí thêm từ Lƣu ý chi phí từ giả thuyết giả thuyết không đƣợc lƣu trữ, đƣợc từ cấu trúc liệu giả thuyết 37 CHƢƠNG 4: THỰC NGHIỆM 4.1 Cấu hình hệ điều hành CPU Core i3 2.1 GHz RAM 2G Hệ điều hành Ubuntu 11.04 SWAP 5G 4.2 Các công cụ sử dụng 4.2.1 Bộ công cụ xây dựng mô hình ngôn ngữ - SRILM: SRILM công cụ để xây dựng áp dụng mô hình ngôn ngữ thống kê , chủ yếu để sử dụng nhận dạng tiếng nói, gắn thẻ thống kê phân khúc, dịch máy thống kê Bộ công cụ đƣợc phát triển “Phòng thí nghiệm nghiên cứu công nghệ giọng nói SRI” từ năm 1995, chạy tảng Linux nhƣ Windows SRILM bao gồm thành phần sau: Một tập hợp thƣ viện C++ giúp cài đặt mô hình ngôn ngữ, hỗ trợ cấu trúc liệu chức tiện ích nhỏ Một tập hợp chƣơng trình thực thi thực nhiệm vụ xây dựng mô hình ngôn ngữ, đào tạo thử nghiệm mô hình ngôn ngữ liệu, gắn thẻ phân chia văn bản, Bộ công cụ SRILM có nhiều chƣơng trình con, để xây dựng mô hình thêm dấu cho văn tiếng việt ta sử dụng chƣơng trình sau : 4.2.1.1 Ngram-count: Chƣơng trình Ngram-count thống kê tần số xuất cụm Ngram Kết việc thống kê đƣợc ghi lại vào tệp sử dụng chúng để xây dựng mô hình ngôn ngữ 4.2.2 Bộ công cụ xây dựng mô hình dịch máy thống kê – MOSES: Moses hệ thống dịch máy thống kê cho phép ngƣời dùng xây dựng mô hình dịch cho cặp ngôn ngữ với đầu vào tập hợp văn song ngữ, đƣợc nhiều trƣờng đại học 38 - tệp moses.ini chứa tham số cho giải mã nhƣ: đƣờng dẫn đến tệp phrase-table, đƣờng dẫn đến tệp chứa mô hình ngôn ngữ, số lƣợng tối đa cụm từ ngôn ngữ đích đƣợc dịch cụm từ ngôn ngữ nguồn, Để xây dựng đƣợc mô hình dịch thống kê, ta sử dụng script: trainmodel.perl với số tham số sau: root-dir cài đặt thƣ mục gốc nơi lƣu trữ tệp đầu corpus tên tệp văn huấn luyện (bao gồm ngôn ngữ nguồn đích) e đuôi mở rộng tệp văn huấn luyện ngôn ngữ đích f đuôi mở rộng tệp văn huấn luyện ngôn ngữ nguồn lm language model: :: : thiết lập file cấu hình mô hình ngôn ngữ theo định dạng trình bày phần max-phrase-length độ dài lớn cụm từ lƣu trữ tệp phrase-table Công cụ gióng hàng GIZA++ 4.2.3 Các bƣớc huấn luyện dich kiểm tra Chuẩn hóa liệu Dữ liệu đƣợc chia làm loại Dữ liệu song ngữ : Văn tiếng Việt không dấu Văn tiếng Việt có dấu Dữ liệu đơn ngữ Văn tiếng Việt có dấu Xây dựng mô hình ngôn ngữ Xây dựng mô hình dịch Dịch máy Đánh giá kết dịch 39 4.2.4 Chuẩn hóa liệu Bộ công cụ Tokenizer, lowercase, , nhƣ: tách từ, tách câu, chuyển sang chữ thƣờng, … 4.2.5 Xây dựng mô hình ngôn ngữ Sử dụng công cụ SRILM để xây dựng mô hình ngôn ngữ Kết sau xây dựng mô hình ngôn ngữ tri-gam: Bảng thống kê n-gram \data\ ngram 1=6773 ngram 2=162282 ngram 3=92846 \1-grams: -2.6378 ! -0.9554 -3.523143 " -0.2592531 -4.542355 $ -0.1713233 -3.916798 % -0.2839231 -2.823495 ' -0.4149792 -2.759014 ( -0.3535762 -2.827075 ) -0.4755327 4.2.6 Huấn luyện mô hình: GIZA++ Mô hình dịch (phrase-table) 40  Kết file phrase-table : ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ! ||| ! ' ! ||| 1 1 2.718 ||| ||| 5 ! ' ' Do la mot viec ||| ! ' ' Đó việc ||| 1 0.767028 2.718 ||| ||| 1 ! ' ' Do la mot ||| ! ' ' Đó ||| 1 0.767028 2.718 ||| ||| 1 ! ' ' Do la ||| ! ' ' Đó ||| 1 0.769353 2.718 ||| ||| 1 ! ' ' Do ||| ! ' ' Đó ||| 1 0.797297 2.718 ||| ||| 1 ! ' ' Duoc , neu anh ||| ! ' ' Đƣợc , anh ||| 1 0.897503 2.718 ||| ||| 1 ! ' ' Duoc , neu ||| ! ' ' Đƣợc , ||| 1 0.924477 2.718 ||| ||| 1 ! ' ' Duoc , ||| ! ' ' Đƣợc , ||| 1 0.986842 2.718 ||| ||| 1 ! ' ' Duoc ||| ! ' ' Đƣợc ||| 1 0.986842 2.718 ||| ||| 1 ! ' ' may cung the , ||| ! ' ' mày , ||| 1 0.0870583 2.718 ||| ||| 1 ! ' ' may cung the ||| ! ' ' mày ||| 1 0.0870583 2.718 ||| ||| 1 ! ' ' may cung ||| ! ' ' mày ||| 1 0.127426 2.718 ||| ||| 4.2.7 Đầu vào : văn tiếng Việt không dấu Kết trả đƣa vào hệ thống thêm dấu Văn xác toi ngo rang co ta toi ngờ rang co ta ngờ cô ta khong noi cho toi biet không noi cho toi biết không nói cho biết su_that sự_thật thật toi bi dau bao_tu toi bi đâu bao_tử bị đau bao tử du_doi dữ_dội dội toi hoan_toan toi hoàn_toàn hoàn toàn tin tin_tuong vao tai_nang cua tin_tƣởng vào tài_năng cua tƣởng vào tài cac bac_si bác_sĩ bác sĩ toi thich luc_nao nghe_noi cung toi lúc_nào ve thích nghe_nói cung lúc ve thích nghe nói phủ 41 chinh_phu my chính_phủ my nhung co_phan mỹ nhung cổ_phần cổ phần bang anh bay_gio dang_gia bang anh bây_giờ đáng_giá bảng anh đáng giá 2.75 bang 2.75 bang 2.75 bảng 10 bang anh la du 10 bang anh la du tien xang cho cuoc tiền xăng cho hanh_trinh cua chung_toi hành_trình cua chúng_tôi 10 bảng anh đủ tiền xăng cho hành trình chúng_tôi 4.2.8 Đánh giá kết dịch Chỉ số BLEU Individual N-gram scoring 1-gram 2-gram 3-gram 4-gram 5-gram 6-gram 7-gram 8-gram 9-gram -BLEU: 0.0968 0.0006 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 "ref" # Chỉ số BlEU:Là số đánh giá chất lƣợng dịch máy dịch thống kê từ ngôn ngữ sang ngôn ngữ khác Nếu kết gần giống với cách hiểu tự nhiên chất lƣợng dịch tốt Điểm BlEU đƣợc tính cách so sánh câu cần dịch với tập hợp tham chiếu dịch tốt Sau lấy giá trị trung bình tƣơng ứng điểm số riêng lẻ Chỉ số nằm khoảng đến Nếu gần1 chất lƣợng dịch tốt (sát nghĩa) 42 KẾT LUẬN Bài toán thêm dấu tiếng Việt vào văn không dấu ƣớng tới tiếp cận khác sử dụng mô hình dịch máy thống kê cho tiếng Việt k đƣợc mục tiêu nhƣ phần giới thiệu nhƣng thời gian có hạn, nên Tuy nhiên, luận văn đạt đƣợc số kết quả: Về lý thuyết: Tìm hiểu, nghiên cứu mô hình dịch máy thống kê Về thực nghiệm: Sử dụng công cụ mã nguồn mở Moses, GIZA++, SRILM, … để xây dựng mô hình dịch máy thống kê Cài đặt ứng dụng đƣợc mô hình dịch máy thống kê cho toán bỏ dấu tiếng Việt Do thời gian có hạn, nên k Trong tƣơng lai, ê - t V 43 TÀI LIỆU THAM KHẢO Tài liệu tham khảo Tiếng Việt [1] Thắng, Tô Hồng NGRAM s.l : Khóa luận tốt nghiệp Trƣờng đại học Công Nghệ, 2007 Tài liệu tham khảo Tiếng Anh [1] Thắng, Tô Hồng Building language model for vietnamese and its application, graduation thesis 2008 [2] Brown, P F, Cocke J., Della Pietra V., Della Pietra S., Jelinek F., Lafferty J D., Mercer R L., and Roossin P S A statistical approach to machine translation s.l : Computational Linguistics, 1990 [3] http://www.statmt.org/moses/ [4] MOSES Statistical Machine Translation System User Manual and Code Guide Philipp Koehn pkoehn@inf.ed.ac.uk University of Edinburgh 44

Ngày đăng: 05/11/2016, 21:57

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan