Gióng hàng văn bản song ngữ anh việt luận văn ths công nghệ thông tin

13 348 0
Gióng hàng văn bản song ngữ anh  việt luận văn ths  công nghệ thông tin

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Duy Cường GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH – VIỆT LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính [DATE] [COMPANY NAME] [Company address] HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Duy Cường GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH – VIỆT LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính Cán hƣớng dẫn: PGS.TS Lê Anh Cƣờng HÀ NỘI - 2015 LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ công trình khác ghi rõ luận văn, công việc trình bày luận văn thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Hà Nội, ngày 30 tháng năm 2015 Nguyễn Duy Cường LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành đến PGS TS Lê Anh Cường, người tận tình hướng dẫn, giúp đỡ suốt trình thực luận văn tạo điều kiện để hoàn thành luận văn Xin cảm ơn gia đình người bạn dành cho tình thương yêu hỗ trợ tốt 4 TÓM TẮT LUẬN VĂN Ngữ liệu song ngữ chia thành nhiều mức văn khác bao gồm: văn, đoạn văn, câu, từ Dịch máy thống kê – phương pháp dịch máy – sử dụng cặp câu song ngữ liệu đầu vào để tính xác suất dịch từ Tuy nhiên, hệ thống ngữ liệu song ngữ tương đối nhỏ, có nhiều nghiên cứu tập trung vào việc trích xuất cặp câu song ngữ từ ngồn web Dù vậy, để có nguồn ngữ liệu song ngữ có độ xác cao toán khó internet chứa nhiều nhiễu (câu dịch thường không sát nghĩa bị lược bỏ phần) Trong đó, có nguồn ngữ liệu tốt sách điện tử với số lượng lớn không dịch cẩn thận nhiều lại chưa khai thác triệt để Tương tự ngữ liệu song ngữ, toán gióng hàng song ngữ chia theo mức văn tương ứng, số toán gióng hàng đoạn văn Nhiệm vụ gióng hàng đoạn tìm đoạn tương ứng dịch hai văn thuộc hai ngôn ngữ khác Trước đây, có nhiều hướng tiếp cận khác để giải toán này, theo hai xu hướng Một sử dụng mô hình xác suất, dựa sở có tương quan kích thước câu văn nguồn với câu văn đích Tuy nhiên, trình dịch thuật cấu trúc hai văn khác nên dẫn tới trường hợp: văn nguồn dịch thành nhiều phần văn đích ngược lại Khi đó, phương pháp xác suất gặp nhiều hạn chế Phương pháp thứ hai lại dựa vào ngôn ngữ, thông thường từ điển để tìm cặp từ, câu tương ứng Nhưng lại gặp phải vấn đề nhập nhằng ngữ nghĩa, đặc biệt lĩnh vực khác Ở đây, luận văn theo hướng tiếp cận thứ hai, đồng thời kết hợp với hệ thống dịch máy (SMT) áp dụng cho toán gióng hàng đoạn Bằng việc phân tích đặc điểm có đoạn văn, luận văn đưa mô hình thích hợp cho toán Sau đó, thiết lập độ đo khác phù hợp cho việc xác định độ tương tự đoạn văn cặp văn dịch Từ đặc thù toán tìm giải pháp tối ưu nhất, luận văn lựa chọn giải thuật quy hoạch động để tìm kiếm Để đánh giá thuật toán, tác giả tiến hành thực nghiệm gióng hàng đoạn trước, sau gióng hàng câu so sánh với thuật toán (Gale – Church) thuật toán gần Champollion gióng hàng câu 5 Mục lục CHƢƠNG – TổNG QUAN 1.1 1.2 1.3 1.4 1.5 GIớI THIệU Về DịCH MÁY BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ CHO SMT MụC TIÊU CủA LUậN VĂN PHạM VI CủA LUậN VĂN KếT CấU CủA LUậN VĂN 10 CHƢƠNG – DịCH MÁY THốNG KÊ ERROR! BOOKMARK NOT DEFINED 2.1 DịCH MÁY THốNG KÊ ERROR! BOOKMARK NOT DEFINED 2.2 Các thành phần hệ dịch máy Error! Bookmark not defined 2.3 Mô hình dịch Error! Bookmark not defined 2.4 Bộ giải mã Error! Bookmark not defined 2.5 Mô hình ngôn ngữ Error! Bookmark not defined 2.6 2.7 2.8 Đánh giá chất lượng dịch Error! Bookmark not defined Đặc điểm phương pháp dịch thống kê Error! Bookmark not defined Chu kì phát triển hệ thống dịch thống kê Error! Bookmark not defined CHƢƠNG – BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ ERROR! BOOKMARK NOT DEFINED 3.1 CÁC Bộ NGữ LIệU SONG NGữ LớN ERROR! BOOKMARK NOT DEFINED 3.1.1 Khối Châu Âu Error! Bookmark not defined 3.1.2 Khối Đông Nam Á Error! Bookmark not defined 3.2 CÁC PHƢƠNG PHÁP GIÓNG HÀNG HIệN TạI ERROR! BOOKMARK NOT DEFINED 3.2.1 Theo độ dài Error! Bookmark not defined 3.2.2 Hướng tiếp cận dựa vào ngữ nghĩa Error! Bookmark not defined 3.2.3 Kết hợp độ dài ngữ nghĩa Error! Bookmark not defined 3.3 VấN Đề SAI THứ Tự VÀ THIếU CÂU TRONG GIÓNG HÀNG ERROR! BOOKMARK NOT DEFINED 3.4 GIÓNG HÀNG VĂN BảN SONG NGữ ERROR! BOOKMARK NOT DEFINED 3.4.1 Phương pháp tiếp cận dựa âm tiết Error! Bookmark not defined 3.4.2 Phương pháp tiếp cận dựa từ điển Error! Bookmark not defined 3.4.3 Phương pháp tiếp cận thống kê Error! Bookmark not defined CHƢƠNG – GIÓNG HÀNG ĐOạN VĂN ERROR! BOOKMARK NOT DEFINED 4.1 BÀI TOÁN GIÓNG HÀNG ĐOạN VĂN ERROR! BOOKMARK NOT DEFINED 6 4.2 THUậT TOÁN QUY HOạCH ĐộNG ERROR! BOOKMARK NOT DEFINED 4.2.1 Giải thuật Needleman -Wunsch Error! Bookmark not defined 4.2.2 Giải thuật Smith – Waterman Error! Bookmark not defined 4.3 Độ ĐO KHOảNG CÁCH ERROR! BOOKMARK NOT DEFINED 4.3.1 Độ đo Error! Bookmark not defined 4.3.2 Độ đo đề xuất Error! Bookmark not defined 4.4 THUậT TOÁN Đề XUấT ERROR! BOOKMARK NOT DEFINED CHƢƠNG – THựC NGHIệM ERROR! BOOKMARK NOT DEFINED 5.1 CHUẩN Bị ERROR! BOOKMARK NOT DEFINED 5.1.1 Chuẩn bị liệu Error! Bookmark not defined 5.1.2 Xác định tham số Error! Bookmark not defined 5.2 KếT QUả ERROR! BOOKMARK NOT DEFINED 5.3 SO SÁNH VớI THUậT TOÁN CHAMPOLLION ERROR! BOOKMARK NOT DEFINED 5.4 ÁP DụNG VÀ ĐÁNH GIÁ TRÊN Hệ DịCH MÁY MOSES ERROR! BOOKMARK NOT DEFINED 5.5 ĐÁNH GIÁ ERROR! BOOKMARK NOT DEFINED TÀI LIỆU THAM KHẢO 11 Chƣơng – Tổng quan 1.1 Giới thiệu dịch máy Trong vài năm trở lại đây, với phát triển mạnh mẽ khoa học kỹ thuật, xử lý ngôn ngữ tự nhiên có nhiều bước phát triển mạnh mẽ, loạt hệ thống hỗ trợ ngôn ngữ đời góp phần rút gắn khoảng cách mặt ngôn ngữ văn hóa giới Cho đến nay, với xuất hệ thống dịch tự động miễn phí mạng như: Google translate, bing translation, systran, vietgle… cho thấy phát triển dịch máy ngày tiến gần tới ngôn ngữ tự nhiên Cùng với phát triển dịch máy, vào năm gần đây, mô hình dịch máy thống kê thu hút nhiều quan tâm nhà khoa học Hơn nữa, kết thực tế hệ thống dịch tốt Ngôn ngữ máy dịch ngày gần với ngôn ngữ người Ngoài với hệ thống dịch máy thống kê, sản phẩm ứng dụng ngày giúp người trao đổi thông tin dễ dàng hơn, tốc độ nhanh hỗ trợ nhiều ngôn ngữ Mặc dù phương pháp dịch thống kê dựa nhiều sở khác như: dựa sở từ, sở cụm từ hay dựa sở cú pháp cần nguồn liệu học Và đặc biệt liệu học nhiều kết dịch tốt nhiều Đây lợi lớn cho hệ thống dịch máy dành cho tiếng Việt, mà khối lượng văn tiếng Anh tiếng Việt ngày lớn thời kỳ Việt Nam hội nhập sâu rộng với quốc tế Xuất phát từ yêu cầu cấp thiết đó, phân hệ quan trọng nhà khoa học ý phát triển dịch máy thống kê việc xây dựng tập hợp ngữ liệu song ngữ chuẩn Thuật ngữ “ngữ liệu” tạm dịch từ thuật ngữ tiếng Anh “corpus”, có nghĩa “kho liệu, kho sưu tập tài liệu, ” (theo Từ điển Anh-Việt, ĐH Ngoại ngữ, NXB GD-2000 trang 368) “Ngữ liệu” xem “dữ liệu, liệu ngôn ngữ”, tức chứng thực tế sử dụng ngôn ngữ Ngữ liệu song ngữ (dịch từ tiếng Anh là: bilingual corpus, hay parallel text, hay bitext) ngữ liệu tồn hai ngôn ngữ chúng dịch Trước có nhu cầu từ dịch máy thống kê văn song ngữ tồn với phạm vi ứng dụng rộng rãi thuộc nhiều lĩnh vực khác nhau, đặc biệt giúp ích cho việc nâng cao kỹ đọc dịch Tính sẵn có số lượng lớn mẫu câu với dịch song song không cải thiện kỹ đọc, mà giúp nâng cao hàm ý dịch Ngoài ra, dựa vào văn song ngữ để tìm kiếm cụm từ tương đương mặt ngữ nghĩa hay tương đương cấu trúc ngữ pháp dịch ứng với nguồn 1.2 Bài toán gióng hàng văn song ngữ cho SMT Trong dịch máy theo phương pháp thống kê (Statistical Machine Translation), tra cứu xuyên ngôn ngữ (Cross-Lingual Information Retrieval), nghiên cứu so sánh đối chiếu điểm tương đồng dị biệt ngôn ngữ tiếng Anh tiếng Việt (English – Vietnamese contrastive linguistics), nghiên cứu lý thuyết, hay câu nghĩ ra, mà phải nghiên cứu câu có thật thực tế sử dụng Điều đòi hỏi phải có chứng ngôn ngữ, ví dụ từ thực tế nhiều người sử dụng xem ngôn ngữ chuẩn [Tony McEnery, Andrew Wilson (1996) ] Tính hữu ích tập ngữ liệu song ngữ dẫn đến số dự án quy mô lớn nhằm xây dựng kho liệu chung cho nhiều ngôn ngữ Tuy nhiên, ngữ liệu song ngữ hạn chế số lượng đa dạng ngôn ngữ Từ nhu cầu cấp thiết đó, nhánh nghiên cứu phát triển gần là: xây dựng hệ thống học máy tự động xây dựng tập ngữ liệu song ngữ từ nguồn liệu thô (bài toán gióng hàng văn bản) Gióng hàng văn song ngữ việc xếp từ, cụm từ câu ngôn ngữ ngồn với dịch tương đương ngôn ngữ khác Các tập văn thường gióng hàng mức cụm từ mức câu Bài toán gióng hàng song ngữ khả giải phương pháp đơn thuần, dịch có câu dịch hoàn hảo câu tương ứng văn nguồn Một câu ngắn dịch dài để đảm bảo đủ ý câu, câu nguồn dịch thành hai nhiều câu ngôn ngữ đích ngược lại Cá biệt, có trường hợp câu chí đoạn bị bỏ qua hoàn toàn Nhiều phương pháp đề xuất để giải toán gióng hàng văn cho ngôn ngữ châu Âu, thảo luận chương sau Tuy nhiên, hầu hết phương pháp gióng hàng áp dụng mức từ, câu chủ yếu Ngược lại, có công trình nghiên cứu áp dụng cho ngôn ngữ thuộc khu vực Đông Nam Á Không giống tiếng Anh ngôn ngữ châu Âu khác, hầu hết ngôn ngữ Đông Nam Á thường không phân rã cấp độ từ, cấu trúc ngữ pháp khác biệt hẳn so với hệ thống chữ viết Latin Kết là, thuật toán tiêu chuẩn triển khai thực cho gióng hàng văn thường không đạt kết tốt mong đợi Riêng ngôn ngữ Tiếng Việt, chưa có nhiều nhà khoa học tập trung nghiên cứu để tìm giải pháp thay đo lường, đánh giá hiệu suất gióng hàng văn ngôn ngữ Tiếng Việt nói riêng ngôn ngữ Đông Nam Á nói chung 1.3 Mục tiêu luận văn Hiện tại, có nhiều phương pháp chứng minh đánh giá hiệu cho toán gióng hàng văn vói nhóm ngôn ngữ khối châu Âu bao gồm thuật toán Gale – Church [1], Vanilla Aligner [13]), Brown,… thảo luận chương Trong luận văn này, sâu nghiên cứu đưa đề xuất giải pháp gióng hàng áp dụng cho sách văn học dịch Việt Nam, dựa phương pháp gióng hàng đoạn trước để giới hạn không gian tìm kiếm cho gióng hàng câu Sau sử dụng cặp câu gióng hàng để đưa vào huấn luyện hệ dịch máy Luận văn trình bầy bước chuẩn bị, kỹ thuật tiền xử lý cho trình chuẩn bị liệu trước thực áp dụng giải thuật đề xuất Mục tiêu là: • • • • • • Khảo sát đặc trưng tập liệu sách văn học dịch Mô hình hóa toán gióng hàng đoạn văn Đề xuất phương pháp gióng hàng văn Cài đặt đánh giá hiệu suất phương pháp dựa chiều dài Đánh giá, so sánh thuật toán đề xuất Áp dụng vào toán gióng hàng câu tự động để sinh tập ngữ liệu học cho dịch máy thống kê 1.4 Phạm vi luận văn Luận văn tập trung giải vấn đề sau: • • • • Thảo luận toán gióng hàng văn bản, vấn đề số giải thuật áp dụng cho nhóm ngôn ngữ Châu Âu Khảo sát đặc trưng toán gióng hàng đoạn văn, từ đề xuất mô hình cho toán gióng hàng đoạn văn Khảo sát thuật toán quy hoạch động, từ kết hợp với độ đo độ tương tự gióng hàng đoạn văn Tiến hành thực nghiệm đánh giá kết 10 1.5 Kết cấu luận văn Luận văn tổ chức sau: Chương 2: luận văn trình bầy sơ qua hệ thống dịch máy, bao gồm thành phần dịch máy, cách đánh giá dịch, số lợi ích hệ dịch máy Chương 3: giới thiệu hệ thống liệu lớn có giới Tiếp đó, luận văn trình bầy sơ lược số hướng tiếp cận với toán gióng hàng văn Cuối chương nêu số đặc trưng vấn đề cần phải giải toán gióng hàng văn Chương 4: giới thiệu sơ qua thuật toán quy hoạch động áp dụng vào toán để tìm lời giải tối ưu Tiếp tục sâu phân tích đặc trưng toán gióng hàng đoạn văn Từ đó, đưa mô hình thích hợp cho toán gióng hàng đoạn văn dựa đặc trưng toán Sau đưa độ đo thích hợp để tính tương độ tự hai đoạn văn song ngữ, kết hợp với thuật toán quy hoạch động để tìm tập cách gióng hàng hợp lý Chương 5: trình bầy thực nghiệm, bao gồm bước xây dựng tập liệu phục vụ trình thử nghiệm hiệu suất, đánh giá kết phương pháp đề xuất Phần cuối áp dụng liệu lấy vào hệ dịch máy 11 TÀI LIỆU THAM KHẢO [1] W A Gale and K W Church, A program for aligning sentences in bilingual corpora, Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics (ACL) Morristown, NJ, USA: Association for Computational Linguistics, 1991, tr 177–184 [2] Aligned Hansards of the 36th Parliament of Canada, September 2007 [Online] http://www.isi.edu/natural-language/download/hansard/ [3] P Koehn, Europarl: A parallel corpus for statistical machine translation, MT Summit, 2005 [Online] http://www.statmt.org/europarl/ [4] The English-Norwegian parallel corpus, September 2007 [Online] http://www.hf.uio.no/ilos/forskning/forskningsprosjekter/enpc/ [5] The English-Swedish parallel corpus, September 2007 [Online] http://www.englund.lu.se/corpus/corpus/espc.html [6] Hunglish corpus, August 2007 [Online] http://mokk.bme.hu/resources/hunglishcorpus/indexhtml [7] Xiaoyi Ma, Hong Kong Parallel Text Philadelphia: Linguistic Data Consortium, 2004 [8] SEALang (2007, October) Southeast Asian languages library [Online] http://library.sealang.net [9] Wanakam (2007, October) Wanakam world classics in Thai [Online] http://www.wanakam.com [10] M Barang (2007, October) Thai fiction in translation [Online] http://www.thaifiction.com [11] Bangkok Post, Learning Post, September 2007 [Online] http://www.bangkokpost.net/education/index.htm [12] Asia Online, October 2008 [Online] http://asiaonline.net [13] P Danielsson and D Ridings, Practical presentation of a “Vanilla” aligner, August 2007 [Online] http://nl.ijs.si/telri/Vanilla/doc/ljubljana/ 12 [14] F Nevado, F Casacuberta, and E Vidal, Parallel corpora segmentation by using anchor words, Proceedings of EACL 2003 workshop on EAMT, 11th Conference of the European Chapter of the Association for Computational Linguistics, April 2003 [15] W Aroonmanakun, Collocation and Thai word segmentation, Joint International Conference of SNLP-Oriental COCOSDA, 2002 [16] Ma, X 2006 Champollion: A Robust Parallel Text Sentence Aligner Proceedings of Fifth International Conference on Language Resources and Evaluation, p489–492 [...]...10 1.5 Kết cấu của luận văn Luận văn sẽ được tổ chức như sau: Chương 2: luận văn sẽ trình bầy sơ qua về hệ thống dịch máy, bao gồm các thành phần của dịch máy, cách đánh giá bản dịch, và một số lợi ích của hệ dịch máy Chương 3: sẽ giới thiệu về các hệ thống dữ liệu lớn đang có trên thế giới Tiếp đó, luận văn trình bầy sơ lược một số hướng tiếp cận cơ bản với bài toán gióng hàng văn bản Cuối chương nêu... quyết của bài toán gióng hàng văn bản Chương 4: giới thiệu sơ qua về thuật toán quy hoạch động sẽ được áp dụng vào bài toán để tìm lời giải tối ưu Tiếp tục đi sâu phân tích đặc trưng bài toán gióng hàng đoạn văn Từ đó, đưa ra mô hình thích hợp cho bài toán gióng hàng đoạn văn dựa trên các đặc trưng của bài toán Sau đó đưa ra một độ đo thích hợp để tính tương độ tự giữa hai đoạn văn song ngữ, kết hợp với... tập các cách gióng hàng hợp lý nhất Chương 5: trình bầy về thực nghiệm, bao gồm các bước xây dựng tập dữ liệu phục vụ quá trình thử nghiệm hiệu suất, đánh giá kết quả của phương pháp mới đề xuất Phần cuối là áp dụng bộ dữ liệu lấy được vào hệ dịch máy 11 TÀI LIỆU THAM KHẢO [1] W A Gale and K W Church, A program for aligning sentences in bilingual corpora, Proceedings of the 29th Annual Meeting of the

Ngày đăng: 27/08/2016, 11:13

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan