Cải tiến thuật toán gióng từ thông qua phân tích hình thái

14 309 0
Cải tiến thuật toán gióng từ thông qua phân tích hình thái

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  TRẦN TRUNG THÀNH CẢI TIẾN THUẬT TOÁN GIÓNG TỪ THÔNG QUA PHÂN TÍCH HÌNH THÁI LUẬN VĂN THẠC SỸ Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  TRẦN TRUNG THÀNH CẢI TIẾN THUẬT TOÁN GIÓNG TỪ THÔNG QUA PHÂN TÍCH HÌNH THÁI Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 60480101 LUẬN VĂN THẠC SỸ Cán hướng dẫn: PGS.TS Lê Anh Cường Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng hướng dẫn khoa học PGS.TS.Lê Anh Cường Các nội dung nghiên cứu, kết luận văn trung thực chưa công bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, luận văn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận xin hoàn toàn chịu trách nhiệm nội dung luận văn 4 MỤC LỤC LỜI CAM ĐOAN Danh mục từ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị I MỞ ĐẦU 1.1 Đặt vấn đề 1.2 Hướng tiếp cận luận văn Error! Bookmark not defined 1.3 Nội dung luận văn Error! Bookmark not defined II TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊError! Bookmark not defined 2.1 Dịch máy Error! Bookmark not defined 2.1.1 Sơ đồ tổng quan hệ dịch máy Error! Bookmark not defined 2.1.2 Các phương pháp dịch máy Error! Bookmark not defined 2.2 Dịch máy thống kê Error! Bookmark not defined 2.2.1 Mô hình dịch máy thống kê Error! Bookmark not defined 2.2.2 Mô hình ngôn ngữ Error! Bookmark not defined 2.2.3 Mô hình dịch Error! Bookmark not defined 2.2.3.1 Mô hình dịch dựa từ Error! Bookmark not defined 2.2.3.2 Mô hình dịch dựa cụm từ Error! Bookmark not defined 2.2.3.3 Mô hình dịch dựa cú pháp Error! Bookmark not defined 2.2.4 Gióng hàng từ Error! Bookmark not defined 2.2.5 Quá trình giải mã (decoding) Error! Bookmark not defined 2.2.6 Ưu điểm phương pháp dịch thống kêError! Bookmark not defined 5 2.2.7 Các phương pháp đánh giá chất lượng dịch máyError! Bookmark not defined 2.2.7.1 BLEU (BiLingual Evaluation Understudy)Error! Bookmark not defined 2.2.7.2 NIST (National Institute of Standards and Technology)Error! Bookmark not d 2.2.7.3 TER (Translation Error Rate) Error! Bookmark not defined 2.2.8 Chu kì phát triển hệ thống dịch thống kêError! Bookmark not defined 2.3 Tích hợp tri thức ngôn ngữ vào dịch máy thống kêError! Bookmark not defined 2.3.1 Sử dụng tri thức ngôn ngữ để tiền xử lýError! Bookmark not defined 2.3.2 Dùng thông tin cú pháp Error! Bookmark not defined 2.3.3 Sử dụng thông tin từ loại Error! Bookmark not defined 2.3.4 Sử dụng luật biến đổi hình thái từ Error! Bookmark not defined 2.3.5 Cách tích hợp tri thức vào hệ thống dịch máyError! Bookmark not defined 2.3.5.1 Tích hợp thông tin hình thái vào mô hìnhError! Bookmark not defined 2.3.5.2 Tích hợp thông tin cú pháp vào mô hình dịchError! Bookmark not defined 2.3.5.3 Tích hợp vào mô hình ngôn ngữ Error! Bookmark not defined III GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ Error! Bookmark not defined 3.1 Giới thiệu mô hình gióng hàng IBM Error! Bookmark not defined 3.2 Định nghĩa mô hình IBM Error! Bookmark not defined 3.3 Một vài vấn đề áp dụng cho ngữ liệu Anh-ViệtError! Bookmark not defined IV PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN Error! Bookmark not defined 4.1 Phân tích ví dụ Error! Bookmark not defined 4.2 Đề xuất Error! Bookmark not defined V THỬ NGHIỆM Error! Bookmark not defined 5.1 Các thử nghiệm gióng hàng từ Error! Bookmark not defined 6 5.1.1 Các xác suất dịch từ Error! Bookmark not defined 5.1.2 Cải tiến phép gióng từ Viterbi Error! Bookmark not defined 5.2 Hiệu dịch thử nghiệm Error! Bookmark not defined 5.3 Hướng dẫn bước thực nghiệm Error! Bookmark not defined VI KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 Danh mục từ viết tắt  EM Expectation Maximization (Cực đại kỳ vọng)  MT Machine Translation (Dịch máy)  NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)  POS Part Of Speech (Nhãn từ loại)  SMT Statistical Machine Translation (Dịch máy thống kê) Danh mục bảng  Bảng 2.1 Bảng biểu diễn gióng hàng từ dạng bảng  Bảng 5.1 Các xác suất cho từ nguồn thêm vào sau chạy IBM Models  Bảng 5.2 Số phép gióng từ gióng tập ngữ liệu khác  Bảng 5.3: điểm BLEU bốn lần thực nghiệm Danh mục hình vẽ, đồ thị  Hình 2.1: Sơ đồ tổng quan hệ dịch máy  Hình 2.2: Mô hình dịch máy thống kê  Hình 2.3: Câu đầu vào tiếng Anh dịch từ sang tiếng Việt, sau xếp lại trật tự từ  Hình 2.4 Câu đầu vào tách thành cụm từ, dịch một-một cụm từ tiếng Anh sang tiếng Việt xếp lại trật tự cụm từ  Hình 2.5: Quá trình dịch dựa cú pháp theo cách tiếp cận dịch từ chuỗi sang cú pháp, gồm bước: (1) chuyển đổi trật tự từ, (2) chèn (3) dịch  Hình 2.6: Quá trình dịch thực từ trái sang phải mở rộng không gian giả thuyết  Hình 2.7: Biểu diễn gióng hàng từ dạng liên kết  Hình 2.8 Hình minh hoạ trình cải tiến gióng hàng từ  Hình 2.9: Minh họa trình giải mã câu đầu vào e = "He does not go home" từ tiếng Anh sang tiếng Việt  Hình 4.1: Gióng từ từ tiếng Anh sang tiếng Việt  Hình 4.2: Gióng từ từ tiếng Việt sang tiếng Anh  Hình 4.3 Sự xếp đối xứng hai hướng sau tách thành phần MỞ ĐẦU I 1.1 Đặt vấn đề Dịch máy hay gọi dịch tự động người quan tâm Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán máy tính tạo ứng dụng phục vụ người thời đại công nghệ thông tin phát triển Khi việc giao tiếp việc nắm bắt thông tin nhanh chóng tạo nên nhiều hội cho người đến thành công, chương trình dịch tự động công cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh tiết kiệm công sức Dịch máy lĩnh vực thú vị, thu hút quan tâm nhiều nhóm nghiên cứu giới Tuy nhiên, thân ngôn ngữ phức tạp, thường hay có nhập nhằng Mặc khác, ngôn ngữ có khác biệt, từ từ vựng đến cấu trúc để tạo thành câu Việc xây dựng hệ dịch máy có khả hiểu ngữ cảnh, khử nhập nhằng dịch gần với người thách thức lớn Hiện giới có khoảng 5.650 ngôn ngữ khác nhau, với số lượng ngôn ngữ lớn gây nhiều khó khăn việc trao đổi thông tin.Với khó khăn người ta phải dùng đến đội ngũ phiên dịch viên khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nước sang tiếng nước khác Để khắc phục nhược điểm người nghĩ đến việc thiết kế mô hình tự động công việc dịch, từ xuất máy tính điện tử người ta tiến hành nghiên cứu dịch máy Công việc đưa mô hình tự động cho việc dịch phát triển, chưa giải triệt để lớp ngôn ngữ tự nhiên Người ta tin việc xử lí ngôn ngữ tự nhiên có dịch máy giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc người tiếp xúc với máy qua dòng lệnh cứng nhắc mà giao tiếp cách trực tiếp với máy 10 Đối với tiếng Việt, có nhiều nhóm đầu tư vào hệ dịch theo nhiều hướng tiếp cận khác nhau, xây dựng mô hình khác nhau, hệ thống cho chất lượng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào Các hệ thống dựa luật sử dụng tri thức ngôn ngữ thông tin cú pháp, ngữ nghĩa nên dịch hiệu Tuy nhiên, máy tính khó phân tích cú pháp xác cho câu có ngữ nghĩa phức tạp Mặc khác, việc xây dựng tập luật cú pháp luật chuyển đổi bao quát trường hợp khó khăn, đòi hỏi người thực phải có kiến thức sâu ngôn ngữ Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa kết thống kê từ kho ngữ liệu song ngữ Kết trung gian hệ dịch bảng thống kê từ, ngữ qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ Với phương pháp này, ngữ liệu lớn có chất lượng tốt hệ dịch hiệu Ưu điểm hệ dịch tuý thống kê nên độc lập ngôn ngữ, áp dụng cặp ngôn ngữ Mặc khác, tiền xử lý liệu đầu vào, miễn thực biến đổi đồng trình huấn luyện dịch Ngoài ra, người theo dõi can thiệp vào trình dịch thông qua bảng thống kê trung gian Chính đặc điểm mà mô hình dịch máy thống kê có tiềm lớn ứng dụng dịch máy Rất nhiều nhóm nghiên cứu tập trung khai thác phát triển hệ dịch máy mô hình Tuy nhiên trình phát triển hệ thống dịch máy, với đặc thù ngôn ngữ tiếng Việt có tính hình thái đơn giản ngôn ngữ khác tiếng Anh, tiếng Đức … nhiều, việc sử dụng mô hình cổ điển mô hình gióng hàng IBM chưa đem lại kết thực tốt Do luận văn việc tiếp cận giới thiệu hệ dịch máy thống kê tập trung vào việc phân tích, cải tiến thuật toán gióng hàng từ, cụ thể thông qua việc phân tích hình thái ngôn ngữ, đề xuất phương pháp để tăng chất lượng dịch lên đáng kể 11 TÀI LIỆU THAM KHẢO P F Brown, S A Della Pietra, V J Della Pietra, M J Goldsmith, J Hajic, R L Mercer, and S Mohanty But dictionaries are data too In Proceedings of the workshop on Human Language Technology, pages 202{205 Association for Computational Linguistics, 1993 P F Brown, V J D Pietra, S A D Pietra, and R L Mercer The mathematics of statistical machine translation: Parameter estimation Computational linguistics, 19(2):263{311, 1993 M Federico, N Bertoldi, and M Cettolo Irstlm: an open source toolkit for handling large scale language models In Interspeech, pages 1618{1621, 2008 P Koehn and H Hoang Factored translation models In EMNLP-CoNLL, pages 868{876, 2007 P Koehn, H Hoang, A Birch, C Callison-Burch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, et al Moses: Open source toolkit for statistical machine translation In Proceedings of the 45th annual meeting of the ACL on interactive poster and demonstration sessions, pages 177{180 Association for Computational Linguistics, 2007 Y.-S Lee Morphological analysis for statistical machine translation In Proceedings of HLT-NAACL 2004: Short Papers, pages 57{60 Association for Computational Linguistics, 2004 R C Moore Improving IBM word-alignment model In Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, page 518 Association for Computational Linguistics, 2004 F J Och Minimum error rate training in statistical machine translation In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics Volume 1, pages 160{167 Association for Computational Linguistics, 2003 12 F J Och and H Ney A systematic comparison of various statistical alignment models Computational linguistics, 29(1):19{51, 2003 10 K Papineni, S Roukos, T Ward, and W.-J Zhu Bleu: a method for automatic evaluation of machine translation In Proceedings of the 40th annual meeting on association for computational linguistics, pages 311{318 Association for Computational Linguistics, 2002 11 F Sadat and N Habash Combination of arabic preprocessing schemes for statistical machine translation In Proceedings of the 21st International Conference 12 Yamada,K and Knight, K (2001), A syntax-based statistical machine translation, Proceedings of ACL 13 Vogel, S (2005) Pesa: Phrase pair extraction as sentence splitting In in Proceedings: the tenth Machine Translation 14 Nhung N., Dien D., 2008 A syntactic-based Word Re-ordering for EnglishVietnamese Statistical machine translation system In Proceeding of PRICAL 2008, LNAI 5351, pp 809 – 818, 2008 15 F J Och and H Ney, 2000, Improved statistical alignment models, In Proceedings of ACL 2000 16 F Xia and M McCord 2004 Improving a statistical MT system with automatically learned rewrite pat-terns In Proceedings of COLING 2004 17 Collins, M., Koehn, P and Kucerova, I (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Assoc for Computational Linguistics (ACL), pp 531-540 18 Yuqi Zhang, Richard Zens and Hermann Ney 2007 Chunk-level reordering of source language sentence with automatically learned rules for statistical machine translation In Proceedings of SSST, NAACL-HLT 2007/AMTA Workshop on Syntax and Structure in Statistical Translation 19 F Xia and M McCord 2004 Improving a statistical MT system with Auto-matically learned rewrite pat-terns In Proceedings of COLING 2004 13 20 J May and K Knight, 2007 Syntactic Re-Alignment Models for Machine Translation In Proceeding EMNLP-CoNLL 21 Victoria Fossum, Kevin Knight and Steven Abney, 2008 Using Syntax to Improve Word Alignment Precision for Syntax-Based Machine Translation In Proceedings of ACL MT Workshop, 2008 22 M Popovic, H Ney, 2006, POS-based Word Reorderings for Statistical Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May 2006 23 Chao Wang, Michael Collins, and Phillip Koehn, 2007 Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, 2007 24 N Ueffing, and H Ney, 2003, Using POS Information for Statistical Machine Translation into Morphologically Rich Languages, In Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 347-354, Budapest, Hungary, April 2003 25 P Koehn, H Hoang, 2007 Factored Translation Models In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL), pp 868–876, Prague, June 2007 26 Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based SMT with Morpho-Syntactic Analysis and Transformation, In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, pages 138-147, Cambridge, 2006 27 Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16 28 S NieBen and H Ney, 2001, Morpho-syntactic analysis for reordering in statistical machine translation, In Proceedings of MT Summit VIII, pages 247-252, Santiago de Compostela, Galicia, Spain, September 2001 29 Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007) Getting to know Moses: initial experiments on German English factored translation In Proceedings of the 14 Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184 30 Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16 31 Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003 Syntax-based Language Models for Statistical Machine Translation In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003

Ngày đăng: 27/08/2016, 22:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan