Dịch máy anh việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Phương Thảo DỊCH MÁY ANH-VIỆT DỰA TRÊN PHƯƠNG PHÁP THỐNG KÊ TÍCH HỢP VỚI THÔNG TIN NGÔN NGỮ LUẬN VĂN THẠC SĨ Hà Nội - 2008 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Phương Thảo DỊCH MÁY ANH-VIỆT DỰA TRÊN PHƯƠNG PHÁP THỐNG KÊ TÍCH HỢP VỚI THÔNG TIN NGÔN NGỮ Ngành : Công nghệ thông tin Chuyên ngành : Khoa học máy tính Mã số : 60 48 01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC GS.TSKH Hồ Tú Bảo PGS.TS Lương Chi Mai Hà Nội – 2008 LỜI CAM ĐOAN Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chuyên môn nên làm luận văn cách nghiêm túc hoàn toàn trung thực Trong luận văn có sử dụng số tài liệu tham khảo số tác giả Tôi thích nêu phần tài liệu tham khảo cuối luận văn Tôi xin cam đoan chịu trách nhiệm nội dung trung thực luận văn tốt nghiệp Thạc sĩ mình! Hà Nội, 12/2008 Học viên Nguyễn Thị Phương Thảo LỜI CẢM ƠN Tôi xin tỏ lòng biết ơn sâu sắc tới GS TSKH Hồ Tú Bảo – người hướng dẫn khoa học - người tạo điều kiện cho có môi trường nghiên cứu tốt, hướng dẫn góp ý cho trình nghiên cứu đề tài khoa học Tôi xin chân thành cảm ơn PGS.TS Lương Chi Mai, người bảo tạo điều kiện tốt để hoàn thành khoá luận tốt nghiệp Tôi xin tỏ lòng cảm ơn sâu sắc tới thầy môn Khoa học máy tính, Đại học Công nghệ, ĐHQG Hà Nội cho môi trường nghiên cứu khoa học thuận lợi bảo, góp ý sâu sắc chuyên môn trình học tập, nghiên cứu Tôi xin chân thành cảm ơn tới tập thể nhà trường, thầy giáo, cô giáo Khoa CNTT, Ban chủ nhiệm hệ cao học Khoa Công Nghệ - ĐHQG Hà Nội Khoa sau đại học – ĐHQG Hà Nội tạo điều kiện thuận lợi cho thời gian học tập Tôi xin cảm ơn anh chị đồng nghiệp phòng Nhận dạng Công nghệ tri thức, Viện Công Nghệ Thông Tin, Viện Khoa Học Việt Nam ủng hộ giúp đỡ trình thực luận văn Đề tài hỗ trợ nhóm đề tài nhánh xây dựng hệ dịch máy thống kê Anh-Việt EVSMT1.0 (SP3.) khuôn khổ đề tài cấp nhà nước KC.01.01.05/06-10 cho xử lý ngôn ngữ tiếng nói tiếng Việt (VLSP) Tôi xin chân thành cảm ơn thành viên nhóm đề tài có góp ý cho đề tài nghiên cứu Tôi xin chân thành cảm ơn TS Nguyễn Phương Thái chia sẻ liệu cho trình thực nghiệm mô hình Cuối cùng, xin bày tỏ tình cảm sâu sắc đến gia đình, bạn bè người thân giành cho tốt đẹp 3 MỤC LỤC MỤC LỤC BẢNG CÁC TỪ VIẾT TẮT BẢNG CÁC THUẬT NGỮ ANH-VIỆT LỜI MỞ ĐẦU CHƯƠNG I - TỔNG QUAN VỀ DỊCH MÁY 1.1 Khái niệm dịch máy 1.2 Kiến trúc chung hệ dịch máy 1.3 Những khó khăn dịch máy 11 1.4 Tình hình dịch máy nước 15 CHƯƠNG II – DỊCH MÁY THỐNG KÊ 17 2.1 Giới thiệu 17 2.2 Mô hình ngôn ngữ 18 2.2.1 Mô hình N-gram 18 2.2.2 Mô hình ngôn ngữ 19 2.2.3 Làm mịn 20 2.3 Mô hình dịch 21 2.3.1 Mô hình dịch thống kê dựa đơn vị từ 22 2.3.2 Mô hình dịch thống kê dựa đơn vị cụm từ 23 2.3.3 Mô hình dịch thống kê dựa cú pháp 25 2.4 Mô hình giải mã 26 2.4.1 Các khả dịch 26 2.4.2 Giải mã kỹ thuật mở rộng không gian giả thuyết 27 CHƯƠNG III – CÁC THÀNH PHẦN TRONG HỆ DỊCH THỐNG KÊ DỰA TRÊN ĐƠN VỊ CỤM TỪ 30 3.1 Mô hình log-linear áp dụng cho toán dịch máy 30 3.2 Các đặc trưng khác sử dụng mô hình dịch phrase-based 32 CHƯƠNG IV – DỊCH MÁY THỐNG KÊ TÍCH HỢP THÊM THÔNG TIN NGÔN NGỮ 35 4.1 Hạn chế mô hình dịch thống kê dựa đơn vị cụm từ 35 4.2 Giới thiệu mô hình 36 4.2.1 Các mô hình xác suất 38 4.2.2 Xử lý hình thái 39 4.2.3 Đưa định tốt 40 4.3 Các thành phần hệ dịch FTM 43 4.4 Tình hình ứng dụng mô hình FTM 43 CHƯƠNG V – THỰC NGHIỆM 45 5.1 Công cụ ngữ liệu cho hệ dịch 45 5.1.1 Chuẩn bị ngữ liệu 45 5.1.2 Các công cụ tiền xử lý 46 5.1.3 Công cụ sử dụng thử nghiệm mô hình FTM 47 5.1.4 Công cụ đánh giá chất lượng hệ dịch 47 5.2 Các thực nghiệm 47 5.2.1 Cấu hình sở Tf1 48 5.2.2 Cấu hình Tf1 + C 50 5.2.3 Cấu hình Tf1 + Tf2 + C 50 5.2.4 Cấu hình Tf3,f4 + C 51 5.3 Kết thực nghiệm 52 5.4 Nhận xét 53 KẾT LUẬN 56 TÀI LIỆU THAM KHẢO 58 PHỤ LỤC A 61 BẢNG CÁC TỪ VIẾT TẮT Thuật Ý nghĩa ngữ POS FTM SMT part-of-speech – nhãn từ loại Factored Translation Model – Mô hình dịch dựa yếu tố ngôn ngữ Statistical Machine Translation - Dịch máy thống kê BẢNG CÁC THUẬT NGỮ ANH-VIỆT Tiếng Anh Tiếng Việt Decoder Factor Factored Translation Model Feature Function Language Model Lemma Machine Translation Morphology Part-of-speech tag Phrase Hệ giải mã Các yếu tố ngôn ngữ sử dụng hệ dịch Mô hình dịch dựa yếu tố ngôn ngữ Hàm đặc trưng Mô hình ngôn ngữ Từ gốc dạng phân tích đơn giản Dịch máy Hình thái từ Nhãn từ loại Các cụm từ mô hình dịch thống kê dựa đơn vị cụm từ Dịch máy thống kê dựa đơn vị cụm từ Kỹ thuật làm mịn Dịch máy thống kê Phrase-based SMT Smoothing Statistical Machine Translation Syntax-based SMT Translation Model Word-based SMT Dịch máy thống kê dựa cú pháp Mô hình dịch Dịch máy thống kê dựa đơn vị từ LỜI MỞ ĐẦU Những năm gần đây, dịch máy đóng vai trò quan trọng việc hỗ trợ người cập nhật thông tin từ nhiều nguồn ngôn ngữ khác cách nhanh chóng Trong phát triển dịch máy, có cách tiếp cận chủ yếu dịch chuyển đổi, dịch liên ngữ dịch dựa vào liệu Trong đó, dịch máy thống kê, phương pháp theo cách tiếp cận dựa vào liệu, hướng phát triển đầy tiềm năng, thu hút quan tâm nhà nghiên cứu Trên giới, có nhiều hệ dịch dựa thống kê thương mại hóa có chất lương dịch cao CANDIDE IBM, hệ dịch Trung - Anh đại học Johns Hopkins, Ưu điểm vượt trội phương pháp thay xây dựng từ điển, quy luật chuyển đổi tay, hệ dịch tự động thiết lập từ điển, quy luật dựa kết thống kê có từ kho ngữ liệu Chính vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng cho cặp ngôn ngữ Dịch máy thống kê theo hướng tiếp cận chính, dịch máy thống kê dựa đơn vị từ; dựa đơn vị cụm từ dựa cú pháp Trong dịch máy thống kê dựa đơn vị cụm từ cách tiếp cận thu hút nhiều quan tâm giới nghiên cứu dịch máy Tuy nhiên, cách tiếp cận thống kê nói chung phải đối mặt với hạn chế thiếu hụt thông tin ngôn ngữ Mô hình dịch thống kê chưa giải số vấn đề dịch máy trật tự từ, khả lựa chọn cụm từ phù hợp, vấn đề liệu thưa Các cải tiến làm tăng chất lượng dịch cách tích hợp thông tin ngôn ngữ vào bước tiền xử lý, hậu xử lý hay tích hợp trực tiếp vào mô hình dịch đề xuất Gần đây, với xuất phương pháp dịch máy thống kê tích hợp thêm thông tin ngôn ngữ, hạn chế cải thiện cách đáng kể Phương pháp trì ưu điểm phương pháp dịch máy thống kê dựa đơn vị cụm từ mà có thêm mạnh từ tri thức ngôn ngữ kết hợp cách linh hoạt vào mô hình dịch dạng yếu tố tương ứng với từ Đây cách tiếp cận đạt kết tốt với nhiều cặp ngôn ngữ Anh-Czech, Anh-Đức, Tuy nhiên, thực nghiệm cho thấy nhiều yếu tố ngôn ngữ thêm vào không hẳn làm tăng chất lượng hệ thống Mỗi cặp ngôn ngữ có cấu hình kết hợp yếu tố ngôn ngữ phù hợp cho Theo quan sát đánh giá đó, luận văn hướng đến việc nghiên cứu xây dựng tổ hợp yếu tố ngôn ngữ mức từ vựng phù hợp cho hệ dịch thống kê Anh-Việt Một cấu hình phù hợp với đặc trưng ngôn ngữ lĩnh vực kinh tế hội thoại cho thấy tiềm ứng dụng phương pháp cặp ngôn ngữ AnhViệt Luận văn có bố cục gồm chương chính: Chương I tổng quan dịch máy, giới thiệu đặc điểm trình dịch máy tình hình dịch máy nước Chương II giới thiệu mô hình dịch máy thống kê, phương pháp dịch máy thống kê Chương III sâu vào mô hình dịch máy thống kê có tích hợp với thông tin ngôn ngữ Chương IV nêu lên thành phần sử dụng hệ dịch thống kê có tích hợp với thông tin ngôn ngữ Chương V mô hình thực nghiệm kết thực nghiệm Cuối số kết luận hướng phát triển tương lai 56 KẾT LUẬN Bài toán dịch máy đặt từ nửa kỷ qua thu hút nhiều quan tâm nhà nghiên cứu ý nghĩa thực tiễn to lớn phát triển mạng thông tin Các cách tiếp cận khác đời đạt thành công định Trong đó, cách tiếp cận thống kê cộng đồng nghiên cứu quan tâm tính linh hoạt, mềm dẻo việc tự động học tri thức dịch dựa liệu Bên cạnh đó, cặp ngôn ngữ có đặc trưng riêng thông tin ngôn ngữ yếu tố thiếu góp phần nâng cao chất lượng dịch cho cặp ngôn ngữ cụ thể Luận văn trình bày phương pháp dịch máy thống kê có tích hợp thêm thông tin ngôn ngữ dạng factor gắn với từ liệu Thực nghiệm với cấu hình factor khác tìm cấu hình phù hợp với đặc trưng cặp ngôn ngữ Anh-Việt Kết thực nghiệm khẳng định tầm quan trọng thông tin nhãn từ loại việc cải thiện đáng kể hạn chế việc lựa chọn từ phù hợp trật tự từ câu Do đặc điểm ngôn ngữ tiếng Việt biến đổi hình thái điều có phía tiếng Anh, thông tin hình thái chưa khẳng định nhiều vai trò trình dịch Hơn cấu hình lại đòi hỏi phân tích phức tạp, độ tính toán thời gian nhiều so với cấu hình khác Do đó, việc sử dụng thông tin nhãn từ loại phía mô hình kết hợp với thông tin từ vựng truyền thống Tf1 + Tf2 + C phù hợp với trình dịch Anh-Việt Mặc dù kết hạn chế khuôn khổ liệu nhỏ lĩnh vực luật hội thoại, nhiên kết ban đầu sở cho bước phát triển tiếp sau Đề tài thực số ràng buộc, chưa có xử lý tên riêng Hạn chế giải ta sử dụng thông tin nhận dạng tên riêng, tên địa danh factor cấu hình Ngoài ra, câu dài có cấu trúc phức tạp, thông tin ngôn ngữ gắn với mức từ chưa đủ để giải trường hợp Hơn nữa, liệu hạn chế bao trùm hết kho từ điển khổng lồ ngôn ngữ Anh-Việt Chính tiếp cận để nhận dạng từ đồng nghĩa giúp ích trường hợp 57 Với hạn chế đó, thời gian tới tiến hành tích hợp thêm thông tin tên riêng, cú pháp lớp từ đồng nghĩa nhằm cải thiện chất lượng hệ dịch Ngoài ra, tiến hành thử nghiệm mô hình FTM với chiều dịch Việt-Anh Bên cạnh đó, với hoàn thiện công cụ đề tài VLSP, sử dụng công cụ tiền xử lý liệu song ngữ Anh-Việt với số lượng lớn cho thử nghiệm 58 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, 2003, “Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda, 2003 Tiếng Anh Amittai E Axelrod, 2006, “Factored Language Models for Statistical Machine Translation”, Master of Science by Research Institute for Communicating and Collaborative Systems Division of Informatics University of Edinburgh [3] Bao T.H., Khanh P.N., Le H.T., Thao N.T.P., “Issues and First Phase Development of the English-Vietnamese Translation System EVSMT1.0”, In Proceedings of ICT-Hanoi 2008 [4] Birch A., Osborne M., and Koehn P., “CCG supertags in factored statistical machine translation”, In Proceedings of the Second Workshop on Statistical Machine Translation, pages 9–16, Prague, Czech Republic Association for Computational Linguistics, 2007 [5] Bojar O., “English-to-Czech Factored Machine Translation”, In Proc of ACL Workshop on Statistical Machine Translation, pages 232–239, Prague, 2007 [6] Brown P.F et al., “A Statistical Approach to Machine Translation” Computational Linguistics 16, 1990 [7] Brown P.F et al., “The Mathematics of Statistical Machine Translation: Parameter Estimation”, Computational Linguistics 16, 1993 [8] Byrne W et al (2003), “The Johns Hopkins University 2003 ChineseEnglish Machine Translation System”, In Machine Translation Summit IX The Association for Machine Translation in the Americas [9] Charniak E., Knight K., Yamada K., 2003, “Syntax-based Language Models for Statistical Machine Translation”, MT Summit IX [10] Collins M., Koehn P., and Kucerova I (2005) “Clause restructuring for statistical machine translation” In Proceedings of ACL [11] Dien D., Kiem H., and Hovy E., “Btl: a hybrid model in the english vietnamese machine translation system”, In Proceedings of the Machine [2] Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html [...]... việc tự động học các tri thức dịch dựa trên dữ liệu Bên cạnh đó, mỗi cặp ngôn ngữ đều có những đặc trưng riêng và thông tin ngôn ngữ là yếu tố không thể thiếu góp phần nâng cao chất lượng dịch cho một cặp ngôn ngữ cụ thể Luận văn đã trình bày phương pháp dịch máy thống kê có tích hợp thêm thông tin ngôn ngữ dưới dạng các factor gắn với các từ trong dữ liệu Thực nghiệm với các cấu hình các factor khác... lồ của 2 ngôn ngữ Anh- Việt Chính vì vậy các tiếp cận để nhận dạng những từ đồng nghĩa có thể giúp ích trong trường hợp này 57 Với những hạn chế đó, trong thời gian tới chúng tôi sẽ tiến hành tích hợp thêm các thông tin về tên riêng, cú pháp và lớp từ đồng nghĩa nhằm cải thiện chất lượng của hệ dịch Ngoài ra, chúng tôi sẽ tiến hành thử nghiệm mô hình FTM với chiều dịch Việt -Anh Bên cạnh đó, với sự hoàn... mình trong quá trình dịch Hơn nữa cấu hình này lại đòi hỏi những phân tích phức tạp, độ tính toán về thời gian nhiều hơn so với các cấu hình khác Do đó, việc sử dụng thông tin về nhãn từ loại ở cả 2 phía của mô hình kết hợp với thông tin từ vựng truyền thống Tf1 + Tf2 + C là phù hợp nhất với quá trình dịch Anh- Việt Mặc dù các kết quả vẫn còn hạn chế trong khuôn khổ dữ liệu nhỏ trên 2 lĩnh vực về luật... nhau và tìm ra cấu hình phù hợp với đặc trưng của cặp ngôn ngữ Anh- Việt Kết quả thực nghiệm đã khẳng định tầm quan trọng của thông tin về nhãn từ loại trong việc cải thiện đáng kể những hạn chế trong việc lựa chọn từ phù hợp và trật tự từ trong câu Do đặc điểm của ngôn ngữ tiếng Việt là không có sự biến đổi hình thái và điều này chỉ có ở phía tiếng Anh, chính vì vậy thông tin hình thái chưa khẳng định... triển tiếp sau này Đề tài mới chỉ thực hiện trên một số ràng buộc, chưa có xử lý tên riêng Hạn chế này có thể được giải quyết nếu ta sử dụng thông tin về nhận dạng tên riêng, tên địa danh là một factor trong cấu hình của mình Ngoài ra, đối với những câu dài và có cấu trúc phức tạp, các thông tin ngôn ngữ gắn với mức từ như trên vẫn chưa đủ để giải quyết trường hợp này Hơn nữa, dữ liệu hạn chế không thể... tài VLSP, chúng tôi sẽ sử dụng các công cụ tiền xử lý và dữ liệu song ngữ Anh- Việt với số lượng lớn hơn cho các thử nghiệm của mình 58 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, 2003, “Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt , Kỷ yếu hội thảo ICT.rda, 2003 Tiếng Anh Amittai E Axelrod, 2006, “Factored Language Models for Statistical...56 KẾT LUẬN Bài toán dịch máy đã được đặt ra từ hơn nửa thế kỷ qua nhưng vẫn đang thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu bởi ý nghĩa thực tiễn to lớn của nó trong sự phát triển của mạng thông tin Các cách tiếp cận khác nhau đã ra đời và đều đạt được những thành công nhất định Trong đó, cách tiếp cận thống kê đang được cộng đồng nghiên cứu quan tâm hơn cả... 2003 Tiếng Anh Amittai E Axelrod, 2006, “Factored Language Models for Statistical Machine Translation”, Master of Science by Research Institute for Communicating and Collaborative Systems Division of Informatics University of Edinburgh [3] Bao T.H., Khanh P.N., Le H.T., Thao N.T.P., “Issues and First Phase Development of the English-Vietnamese Translation System EVSMT1.0”, In Proceedings of ICT-Hanoi 2008... translation” In Proceedings of ACL [11] Dien D., Kiem H., and Hovy E., “Btl: a hybrid model in the english vietnamese machine translation system”, In Proceedings of the Machine [2] Thank you for evaluating AnyBizSoft PDF Splitter A watermark is added at the end of each output PDF file To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html

Dịch máy anh việt dựa trên phương pháp thống kê tích hợp với thông tin ngôn ngữ

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan