Gióng hàng văn bản song ngữ anh việt

61 638 2
Gióng hàng văn bản song ngữ anh  việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Duy Cường GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH – VIỆT LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính [DATE] [COMPANY NAME] [Company address] HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Duy Cường GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH – VIỆT LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính Cán hướng dẫn: PGS.TS Lê Anh Cường HÀ NỘI - 2015 LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ công trình khác ghi rõ luận văn, công việc trình bày luận văn thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Hà Nội, ngày 30 tháng năm 2015 Nguyễn Duy Cường LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thànhnhất đến PGS TS Lê Anh Cường, ngườiđã tận tình hướng dẫn, giúp đỡ suốt trình thực luận văn tạo điều kiện để hoàn thành luận văn Xin cảm ơn gia đình người bạn dành cho tình thương yêu hỗ trợ tốt TÓM TẮT LUẬN VĂN Ngữ liệu song ngữ chia thành nhiều mức văn khác bao gồm: văn, đoạn văn, câu, từ Dịch máy thống kê – phương pháp dịch máy – sử dụng cặp câu song ngữ liệu đầu vào để tính xác suất dịch từ Tuy nhiên, hệ thống ngữ liệu song ngữ tương đối nhỏ, có nhiều nghiên cứu tập trung vào việc trích xuất cặp câu song ngữ từ ngồn web Dù vậy, để có nguồn ngữ liệu song ngữ có độ xác cao toán khó internet chứa nhiều nhiễu (câu dịch thường không sát nghĩa bị lược bỏ phần) Trong đó, có nguồn ngữ liệu tốt sách điện tử với số lượng lớn không dịch cẩn thận nhiều lại chưa khai thác triệt để Tương tự ngữ liệu song ngữ, toán gióng hàng song ngữ chia theo mức văn tương ứng, số toán gióng hàng đoạn văn Nhiệm vụ gióng hàng đoạn tìm đoạn tương ứng dịch hai văn thuộc hai ngôn ngữ khác Trước đây, có nhiều hướng tiếp cận khác để giải toán này, theo hai xu hướng Một sử dụng mô hình xác suất, dựa sở có tương quan kích thước câu văn nguồn với câu văn đích Tuy nhiên, trình dịch thuật cấu trúc hai văn khác nên dẫn tới trường hợp: văn nguồn dịch thành nhiều phần văn đích ngược lại Khi đó, phương pháp xác suất gặp nhiều hạn chế Phương pháp thứ hai lại dựa vào ngôn ngữ, thông thường từ điển để tìm cặp từ, câu tương ứng Nhưng lại gặp phải vấn đề nhập nhằng ngữ nghĩa, đặc biệt lĩnh vực khác Ở đây, luận văn theo hướng tiếp cận thứ hai, đồng thời kết hợp với hệ thống dịch máy (SMT) áp dụng cho toán gióng hàng đoạn Bằng việc phân tích đặc điểm có đoạn văn, luận văn đưa mô hình thích hợp cho toán Sau đó, thiết lập độ đo khác phù hợp cho việc xác định độ tương tự đoạn văn cặp văn dịch Từ đặc thù toán tìm giải pháp tối ưu nhất, luận văn lựa chọn giải thuật quy hoạch động để tìm kiếm Để đánh giá thuật toán, tác giả tiến hành thực nghiệm gióng hàng đoạn trước, sau gióng hàng câu so sánh với thuật toán (Gale – Church) thuật toán gần Champollion gióng hàng câu Mục lục CHƯƠNG – TổNG QUAN 1.1 1.2 1.3 1.4 1.5 GIớI THIệU Về DịCH MÁY BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ CHO SMT MụC TIÊU CủA LUậN VĂN PHạM VI CủA LUậN VĂN KếT CấU CủA LUậN VĂN 10 CHƯƠNG – DịCH MÁY THốNG KÊ 11 2.1 DịCH MÁY THốNG KÊ 12 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Các thành phần hệ dịch máy 14 Mô hình dịch 15 Bộ giải mã 20 Mô hình ngôn ngữ 21 Đánh giá chất lượng dịch 23 Đặc điểm phương pháp dịch thống kê 25 Chu kì phát triển hệ thống dịch thống kê 25 CHƯƠNG – BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ 27 3.1 CÁC Bộ NGữ LIệU SONG NGữ LớN 27 3.1.1 Khối Châu Âu 27 3.1.2 Khối Đông Nam Á 28 3.2 CÁC PHƯƠNG PHÁP GIÓNG HÀNG HIệN TạI 29 3.2.1 Theo độ dài 29 3.2.2 Hướng tiếp cận dựa vào ngữ nghĩa 29 3.2.3 Kết hợp độ dài ngữ nghĩa 30 3.3 VấN Đề SAI THứ Tự VÀ THIếU CÂU TRONG GIÓNG HÀNG 31 3.4 GIÓNG HÀNG VĂN BảN SONG NGữ 32 3.4.1 Phương pháp tiếp cận dựa âm tiết 32 3.4.2 Phương pháp tiếp cận dựa từ điển 33 3.4.3 Phương pháp tiếp cận thống kê 34 CHƯƠNG – GIÓNG HÀNG ĐOạN VĂN 35 4.1 BÀI TOÁN GIÓNG HÀNG ĐOạN VĂN 35 4.2 THUậT TOÁN QUY HOạCH ĐộNG 39 4.2.1 Giải thuật Needleman -Wunsch 41 4.2.2 Giải thuật Smith – Waterman 44 4.3 Độ ĐO KHOảNG CÁCH 47 4.3.1 Độ đo 47 4.3.2 Độ đo đề xuất 48 4.4 THUậT TOÁN Đề XUấT 49 CHƯƠNG – THựC NGHIệM 51 5.1 CHUẩN Bị 51 5.1.1 Chuẩn bị liệu 51 5.1.2 Xác định tham số 52 5.2 KếT QUả 53 5.3 SO SÁNH VớI THUậT TOÁN CHAMPOLLION 55 5.4 ÁP DụNG VÀ ĐÁNH GIÁ TRÊN Hệ DịCH MÁY MOSES 56 5.5 ĐÁNH GIÁ 57 TÀI LIỆU THAM KHẢO 59 Chương – Tổng quan 1.1 Giới thiệu dịch máy Trong vài năm trở lại đây, với phát triển mạnh mẽ khoa học kỹ thuật, xử lý ngôn ngữ tự nhiên có nhiều bước phát triển mạnh mẽ, loạt hệ thống hỗ trợ ngôn ngữ đời góp phần rút gắn khoảng cách mặt ngôn ngữ văn hóa giới Cho đến nay, với xuất hệ thống dịch tự động miễn phí mạng như: Google translate, bing translation, systran, vietgle… cho thấy phát triển dịch máy ngày tiến gần tới ngôn ngữ tự nhiên Cùng với phát triển dịch máy, vào năm gần đây, mô hình dịch máy thống kê đangthu hút nhiều quan tâm nhà khoa học Hơn nữa, kết thực tế hệ thống dịch tốt Ngôn ngữ máy dịch ngày gần với ngôn ngữ người Ngoài với hệ thống dịch máy thống kê, sản phẩm ứng dụng ngày giúp người trao đổi thông tin dễ dàng hơn, tốc độ nhanh hỗ trợ nhiều ngôn ngữ Mặc dù phương pháp dịch thống kêcó thể dựa nhiều sở khác như: dựa sở từ, sở cụm từ hay dựa sở cú pháp cần nguồn liệu học Và đặc biệt liệu học nhiều kết dịch tốt nhiều Đây lợi lớn cho hệ thống dịch máy dành cho tiếng Việt, mà khối lượng văn tiếng Anh tiếng Việt ngày lớn thời kỳ Việt Nam hội nhập sâu rộng với quốc tế Xuất phát từ yêu cầu cấp thiết đó, phân hệ quan trọng nhà khoa học ý phát triển dịch máy thống kê việc xây dựng tập hợp ngữ liệu song ngữ chuẩn.Thuật ngữ “ngữ liệu” tạm dịch từ thuật ngữ tiếng Anh“corpus”, có nghĩa “kho liệu, kho sưu tập tài liệu, ” (theo Từ điển Anh-Việt, ĐHNgoại ngữ, NXB GD-2000 trang 368) “Ngữliệu” xem “dữ liệu, liệu ngôn ngữ”, tức chứng thực tế sử dụng ngôn ngữ Ngữ liệu song ngữ (dịch từ tiếng Anh là: bilingual corpus, hay parallel text, hay bitext) ngữ liệu tồn hai ngôn ngữ chúng dịch Trước có nhu cầu từ dịch máy thống kê văn song ngữ tồn với phạm vi ứng dụng rộng rãi thuộc nhiều lĩnh vực khác nhau,đặc biệt giúp ích cho việcnâng cao kỹ đọc dịch Tính sẵn có số lượng lớn mẫu câu với dịch song song không cải thiện kỹ đọc, mà giúp nâng cao hàm ý dịch Ngoài ra, dựa vào văn song ngữ để tìm kiếm cụm từ tương đương mặt ngữ nghĩa hay tương đương cấu trúc ngữ pháp dịch ứng với nguồn 1.2 Bài toán gióng hàng văn song ngữ cho SMT Trong dịch máy theo phương pháp thống kê (Statistical Machine Translation), tra cứu xuyên ngôn ngữ (Cross-Lingual Information Retrieval), nghiên cứu so sánh đối chiếu điểm tương đồng dị biệt ngôn ngữ tiếng Anh tiếng Việt (English – Vietnamese contrastive linguistics), nghiên cứu lý thuyết, hay câu nghĩ ra, mà phải nghiên cứu câu có thật thực tế sử dụng Điều đòi hỏi phải có chứng ngôn ngữ, ví dụ từ thực tế nhiều người sử dụng xem ngôn ngữ chuẩn [Tony McEnery, Andrew Wilson (1996) ] Tính hữu ích tập ngữ liệu song ngữ dẫn đến số dự án quy mô lớn nhằm xây dựng kho liệu chung cho nhiều ngôn ngữ Tuy nhiên, ngữ liệu song ngữ hạn chế số lượng đa dạng ngôn ngữ Từ nhu cầu cấp thiết đó, nhánh nghiên cứu phát triển gần là: xây dựng hệ thống học máy tự động xây dựng tập ngữ liệu song ngữ từ nguồn liệu thô (bài toán gióng hàng văn bản) Gióng hàng văn song ngữ việc xếp từ, cụm từ câu ngôn ngữ ngồn vớibản dịch tương đương ngôn ngữ khác Các tập văn thường gióng hàngở mức cụm từ mức câu Bài toán gióng hàng song ngữ khả giải phương pháp đơn thuần, dịch cómột câu dịch hoàn hảo câu tương ứng văn nguồn Một câu ngắn dịch dài để đảm bảo đủ ý câu, câu nguồn dịch thành hai nhiều câutrong ngôn ngữ đích ngược lại Cá biệt, có trường hợp câu chí đoạn bị bỏ quahoàn toàn Nhiều phương pháp đề xuất để giải toán gióng hàng văn cho ngôn ngữ châu Âu, thảo luận chương sau Tuy nhiên, hầu hết phương pháp gióng hàng áp dụng mức từ, câu chủ yếu Ngược lại, có công trình nghiên cứu áp dụng cho ngôn ngữ thuộc khu vực Đông Nam Á Không giống tiếng Anhvà ngôn ngữ châu Âu khác, hầu hết ngôn ngữ Đông Nam Á thường không phân rã cấp độ từ, vàcấu trúc ngữ pháp khác biệt hẳn so với hệ thống chữ viết Latin Kết là,các thuật toán tiêu chuẩn triển khai thực cho gióng hàng văn thường không đạt kết tốt mong đợi Riêng ngôn ngữ Tiếng Việt, chưa có nhiều nhà khoa học tập trung nghiên cứuđể tìm giải pháp thay đo lường, đánh giá hiệu suất gióng hàng văn ngôn ngữ Tiếng Việt nói riêng ngôn ngữ Đông Nam Á nói chung 1.3 Mục tiêu luận văn Hiện tại, có nhiều phương pháp chứng minh đánh giá hiệu cho toán gióng hàng văn bảnvói nhóm ngôn ngữ khối châu Âu bao gồmthuật toán Gale – Church [1], Vanilla Aligner [13]), Brown,… thảo luận chương Trong luận văn này, sâu nghiên cứu đưa mộtđề xuất giải pháp gióng hàng áp dụng cho sách văn học dịch Việt Nam, dựa phương pháp gióng hàng đoạn trước để giới hạn không gian tìm kiếm cho gióng hàng câu Sau sử dụng cặp câu gióng hàng để đưa vào huấn luyện hệ dịch máy.Luận văn sẽtrình bầy bước chuẩn bị, kỹ thuật tiền xử lý cho trình chuẩn bị liệu trước thực áp dụng giải thuật đề xuất Mục tiêu là: • Khảo sát đặc trưng tập liệu sách văn học dịch • • • • Mô hình hóa toán gióng hàng đoạn văn Đề xuất phương pháp gióng hàng văn Cài đặt đánh giá hiệu suất phương pháp dựa chiều dài Đánh giá, so sánh thuật toán đề xuất • Áp dụng vào toán gióng hàng câu tự động để sinh tập ngữ liệu học cho dịch máy thống kê 1.4 Phạm vi luận văn Luận văn tập trung giải vấn đề sau: • Thảo luận toán gióng hàng văn bản, vấn đề số giải thuật • áp dụng cho nhóm ngôn ngữ Châu Âu Khảo sát đặc trưng toán gióng hàng đoạn văn, từ đề xuất mô hình cho toán gióng hàng đoạn văn Khảo sát thuật toán quy hoạch động, từ kết hợp với độ đo độ tương tự • gióng hàng đoạn văn Tiến hành thực nghiệm đánh giá kết • 46 Hình 3.10: Ma trận sau điền đầy Mỗi ô trỏ ngược lại nhiều trỏ tới nơi số điểm cực đại thu 4.2.2.3 Bước quay lui Bước cuối thuật toángióng hàng lần ngược tìm thành phần đánh dấu.Đầu tiên phải tìm số điểm cực đại đạt toàn ma trận Giá trịcực đại có mặt nhiều ô, tức có hai nhiều xếp tốt Trong ví dụ này, thấy giá trịcực đại ma trận 18, tương ứng có hai vị trí ma trận điểm Quá trình quay lui vị trí có giá trị cao nhất, dựa vào trỏ để tìm ô đến nó, sau di chuyển với ô tiếp tục đạt giá trị (Hình 4.11) Hình 4.11: Bước quay lui cực đại ma trận điểm 47 Có thể có hai trỏ từ ô, phải cân nhắc hai cách gióng hàng Hình 4.12: Bước quay lui cực đại khác ma trận điểm Kết phương pháp gióng hàng địa phương Hình 4.13 Hình 4.13: Kết phương pháp gióng hàng địa phương Hai xếp đưa với cách cho điểm:trường hợp phù hợp 5, không phù hợp -3 khoảng cách -4 Dựa vào tổng tất điểm thành phần điểm tronggióng hàng để tính độ tương tự cặp gióng hàng tốt 4.3 Độ đo khoảng cách Để gán trọng số cho cung mô tả trên, cần phải tính toán giống hai tập đoạn văn ( ý có hai tập bao gồm đoạn) 4.3.1 Độ đo Dựa vào nhận xét rằng, phần tương ứng văn đặt khoảng cách tương đối giống tính từ đầu văn Nên khoảng cách ban đầu hai phần văn bản, sau: ngôn ngữ A ngôn ngữ B định nghĩa 48 ( , Với ( ) = | ( )– ( )| + | ( )– ) vị trí tương đối từ văn ( )| (4.3) đo tỷ lệ phần ( trăm tổng số từ văn ngôn ngữ tương ứng, tương tự cho ) Chúng ta sử dụng vị trí đoạn văn thay từ; tức tỷ lệ phần trăm tổng số đoạn văn bản; biện pháp dựa số từ công bố tốt so với việc dựa số lượng đoạn, phù hợp với quan sát 4.3.2 Độ đo đề xuất Giả sử làm việc với cặp sách điện tử song ngữ tiếng Anh tiếng Việt Cuốn sách tiếng Anh E bao gồm I đoạn văn Việt V bao gồm J đoạn tiếng ViệtV ( ) ( ,…., )là tập n-gram đoạn , = + ∗ , tương ứng Khi định nghĩa độ ∗ ( ∗ + ∗ 0≤ (trong sách tiếng Anh) Gọi sau = Trong phương trình này, sách tiếng Lấy T dịch tiếng Anh sách dịch tiếng Anh đo mức tương tự ,…, | | , ( )⋂ ( )⋃ ( , , )/ ( ( )| ( )| )/ ( , ) (4.4) , ) ma trận tương đồng hai đoạn văn, ≤ Trọng số ( , ) xác định tỉ lệ tham gia hai thành phần:  Độ dài đoạn– : thành phần mang thông tin độ dài đoạn Như phân tích phần độ dài đoạn tính số lượng từ đoạn Trong hai đoạn đoạn cố số từ tính giá trị mintương tự với giá trị max  Độ tương tự– : thành phàn xác định mức độ giao hai đoạn văn Tức hai đoạn có số từ trùng nhiều hai đoạn có khả dịch Mục tiêu nghiên cứu tìm liên kết A, nối đoạn văn sách tiếng Anh với đoạn văn tương ứng sách tiếng Việt Đối với 49 liên kết, phải phát đơn vị song song (bao gồm nhiều đoạn) Để làm công việc này, tính toán độ tương tự cho tất mẫu phù hợp (1 với 1, với 2, với 3, với 1, với 1) cách sử dụng hàm tương tự ( , ) Phương trình 4.4 Sau đó, cặp ( , ) với số điểm tương đồng tối ưu lựa chọn phương trình (4.5) Và có văn song song ( , ) từ mẫu tốt ( , ) ( ⎧ ⎪ ( , ) = arg max Với, = 1, − 2, ( ( ⎨ ⎪ ⎩ , ) , ) , ( ) , (4.5) ) ( , ) = 1, – 4.4 Thuật toán đề xuất Để tìm xác cặp đối xứng tối ưu nhất, luận văn áp dụng thuật toán lập quy hoạch trình động Thuật toán sử dụng ma trận ( 4.14 Với + 1) ( + 1)Hình số đoạn văn văn ngôn ngữ X Thuật toán hoạt động sau Đầu tiên, biểu đồ điền vào: ∶= 0, ∶= – ∞, for i from to > do: ∶= ( , ) ∶= ( , do: for j from to ∶= – ∞ ( , + ( [ + ], [ + ])) ) while ( , ) ≠ (0, 0) ⎡ ⎢ ⎢ ⎢ ⎢ ( , ) ∶= arg max ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ + , , ( + + , ′′, + , , , , ′′) + + , + + , + , + , , ′′, ( , + , , , + , ′′) + + , + , , ⎤ ⎥ ⎥ ⎥ ,⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ 50 print “paragraphs in A from + to are aligned with print “paragraphs in B from + to ” ( , ) ∶= ( , ) Ở đây, giá trị ô thứ( , ) ma trận, [ ] tập hợp đoạn văn từ vị trí thứ tới vị trí thứ ngôn ngữ X Hình 4.14: Ma trận giải thuật quy hoạch động Như thuật toán lập trình động, giá trị tổng trọng số liên kết tối ưu từ đoạn ban đầutrong văn ngôn ngữ A với đoạn ban đầu văn ngôn ngữ B Cụ thể, chấm dứt thuật toán, ô bên phải (được đánh dấu “?” hình3.14) có tổng trọng số liên kết tối ưu toàn văn Ở đây, cực đại tìm kiếm khu vực hình ┘ bên trái phía ô ( , ) Khi chấm dứt, thuật toán in (theo thứ tự ngược lại) tất cặp đoạn văn liên kết tối ưu Lưu ý cặp có hai bao gồm đoạn văn 51 Chương – Thực nghiệm 5.1 Chuẩn bị Dữ liệu sử dụng thí nghiệm luận văn, lấy từ cuốnsách điện tử song ngữTiếng Anh vàTiếng Việt:Life of Pi Cuộc đời Pi tiểu thuyết nhà văn người Canada Yann Martel, xuất năm 2001 nhà xuất Knopf Canada Năm 2002, sách giúp tác giả giành giải Man Booker Năm 2003, văn tiếng Anh, Life of Pi, chọn cho giải Canada Reads văn tiếng Pháp, L'Histoire de Pi, chọn cho giải Le combat des livres; hai giải CBC Radio Bản tiếng Việt dịch giả Trịnh Lữ chuyển ngữ Cuộc đời Pi trao giải thưởng dành cho văn học dịch Hội nhà văn Hà Nội năm 2004 Bảng 5.1 trình bày thông tin chi tiết sách Kích thước liệu rơi vào khoảng 1.41MB (chỉ có liệu văn bản) Chúng bao gồm 2.490đoạn Tiếng Anh 2.346đoạn vănTiếng Việt Tiếng Anh Tiếng Việt Số đoạn 2.490 2.346 Số câu 7.978 8.440 Số từ 110.705 137.128 Bảng5.1: Dữ liệu thực nghiệm 5.1.1 Chuẩn bị liệu Để có liệu chuẩn trước chạy thuật toán cần phải trải qua bước tiền xử lý sau: chuyển đổi từ định dạng PDF thành dạng văn Để làm công việc này, luận văn sử dụng công cụ miễn phí PDF to Text Sau chuyển đổi thành dạng chữ, liệu đầu vào chưa có định dạng ngắt dòng chuẩn (xuống dòng chưa hết câu, xuống dòng với ký tự ‘,’), cần phản chỉnh lại tay bước (luận văn có cung cấp đoạn mã nhỏ để chỉnh lại định dạng đoạn mà không cần làm tay) Trong bước tiếp theo, dịch thô – sử dụng hệ thống dịch máy Google để tạo dịch thô tiếng Anh, luận văn sử dụng Google dịch hệ thống dịch máy thống kê để dịch sách tiếng Việt sang 52 ngôn ngữ Tiếng Anh Sau này, bước dịch thay hệ dịch máy phần hệ thống gióng hàng đoạn Hiện tại, liệu vào phần dịch máy chưa có nên phải dùng hệ thống để chạy bước Phân đoạn từ: luận văn có sử dụng công cụ phân đoạn từ cung cấp VLSP Project[32] Tuy nhiên, dịch thô sau chạy qua hệ thống dịch Google xuất nhiều từ chưa dịch Cho nên, sử dụng kết hợp với số từ điển để hỗ trợ phần dịch Tuy nhiên phương pháp tiếp cận khác để phân đoạn từ có kết khác Ví dụ, “phù hợpcực đại” giải thích phần 3.2.3 có số lượng từ phân đoạn hơn, độ xác cao Với cách tiếp cận“phù hợp tối thiểu”mặc dù độ xác thấp lại cho ta nhiều từ phân đoạn tính tổng số từ Cả hai phương pháp bị ảnh hưởng từ điển làm việc, với từ điển lớn có nhiều từ xác cao hon, với loại từ điển chuyên môn nhỏ hơn, với loại văn ngành lại cho độ xác cao Loại bỏ từ dừng (stopword):câu tiếng Anh phân đoạn Tiếng Việtdùng để so sánh thường chứa từ có nội dung ngữ nghĩa, cung cấp cho xuất có hai phân đoạn tương tự Những từ định nghĩa stopwords tìm kiếm thông tin, thường xuyên loại bỏ Chúng thử nghiệm tác dụng xóa stopwords “a, an, the, of, in” câu thử nghiệm so sánh Vìsau chạy qua hệ thống dịch Google, văn dịch thô chứa số loại từ cần phải loại bỏ Tuy nhiên, thấy kết tốt sau số giới từ, trạng từ đại từ “anybody, anyone, anything, anywhere, before, behind” gỡ bỏ khỏi danh sách stopword Kết là, danh sách stopword nhỏ sử dụng bước cuối 5.1.2 Xác định tham số Như phần trình bày, thuật toán đề xuất có tham số cần phải xác định trước chạy thuật toán, là: tham số độ đo (tham số thành phần độ tương tự), (tham số thuật toán quy hạch (tham số thành phần độ dài đoạn), động xác định cặp đoạn trùng hay không) 53 Để xác định , cần phải cố định trước giá trị , luận văn tác giả = 0.3, sau thử nghiệm cho kết tối ưu chọn giá trị ban đầu ( , ) = (0.3,0.7) Chapter\parameters 0.1 – 0.9 0.2 – 0.8 0.3 – 0.7 0.4 – 0.6 0.5 – 0.5 0.6 – 0.4 0.7 – 0.3 0.8 – 0.2 0.9 – 0.1 Chapter (37para) 37 37 37 37 37 22 22 20 19 431 447 445 442 441 257 166 15 13 Chapter 99 (463para) Bảng 5.2: Số đoạn văn có thay đổi tham số , Sau có giá trị tối ưu , , ta tiếp tục tìm giá trị tối ưu cho tham số = 0.35: Chapter\Threshold 0.1 0.15 0.2 0.3 0.4 0.5 0.8 Chapter 14 15 19 37 37 21 18 Bảng 5.3: Số đoạn văn có thay đổi tham số 5.2 Kết Thực nghiệm với liệu chuẩn bị, bước chạy thuật toán với đoạn văn, sau tách câu để tiếp tục chạy thuật toán Kết thực nghiệm trình bầy Bảng 5.4, từ liệu cho thấy 80% số câu dịch thuộc loại 1-1 tìm thấy Tuy nhiên với câu dịch loại 2-1, 1-2 tỷ lệ tìm thấy thấp, gióng hàng tỷ lệ câu cao Cụ thể xem số lượng câu số lượng câu sai Hình 5.1 Paragraph (outcome/total) Sentence (outcome /total) Sentence Correct (correct /outcome) 1-1 2214 (88.91%) 7347 (92.09%) 6189 (84.23%) 1-2 & 2-1 136 (5.46%) 865 (10.84%) 398 (46.01%) 2-2 29 (1.16%) 141 (1.76%) 129 (91.89%) Bảng 5.4: Số đoạn số câu thu sau chạy thuật toán 54 Hình 5.1: Số câu theo chương Dựa việc thống ng kê câu câu sai c ng chương, giá tr trị trung bình củaa Precision Recall ssẽ xấp sỉ: − = 82.24%, = 77,69% Hình 5.2:: Giá trị tr Precision Recall theo chương Hình 5.3: giá trị F-measure theo chương = 76.22%, 55 5.3 So sánh với thuật toán Champollion Để đánh giá thuật toán đề xuất, luận văn tiến hành thực nghiệm so sánh với thuật toán gióng hàng khác,ở chọn thuật toán phát triển gần là: thuật toán Champollion Phương pháp Champollion xét đến thông tin từ vựng câu, thông qua tìm kiếm từ điển để đánh giá cặp câu có phải dịch từ hay không, từ cho kết xác Thuật toán Champollion Xiaoyi Ma [16] đưa ra, phương pháp sử dụng từ điển song ngữ, cho kết tốt với số lượng văn song ngữ Trung – Anh Ý tưởng thuật toán việc tra từ điển, tìm cặp đơn vị dịch xuất cặp câu quan sát, cặp xuất văn giá trị thông tin cao Ý tưởng mượn từ ý tưởng khái niệm tf – idf tìm kiếm thông tin Thuật toán đơn giản dùng để đối chiếu so sánh luận văn Thông thường, phương pháp sử dụng từ điển song ngữ so với phương pháp thống kê theo độ dài hao tốn thời gian, tài nguyên nhớ hơn, tính bền vững (robustness) tốt Quy mô độ xác từ điển song ngữ nhân tố quan trọng ảnh hưởng đến thuật toán, luận văn dùng từ điển trích xuất từ từ điển 139.000 từ Dữ liệu dùng để đánh giá chương liên tiếp:chương 37-38-39 có 364 câu, chương rời: chương có 160 câu, trích LifeofPi Dữ liệu vào tiền xử lý với thuật toán đề xuất Champollion Thuật toán đề xuất Precision 86,79% 82,24% Recall 64,06% 73,83% F-measure 73,71% 77,81% Bảng 5.5: Giá trị Presion – Recall chạy thuật toán Champollion thuật toán đề xuất Từ kết Bảng 5.5, giá trị Precision thuật toán đề xuất không cao thuật toán Champollion giá trị Recall lại cao Vì số câu thu lại đáng tin cậy với − = 77.81% 56 5.4 Áp dụng đánh giá hệ dịch máy moses Như phần mở đầu trình bầy, mục dích luận văn xây dựng hệ thống gióng hàng song ngữ Anh – Việt, có bước xác định điểm neo xử dụng dịch SMT Đây bước quan trọng toàn hệ thống Bởi dịch SMT mà tốt giá trị điểm neo cao, độ xác trình gióng hàng tăng Ngoài thiết kế hệ thống này, luận văn hướng tới yếu tố học máy SMT: để có dịch chất lượng SMT cần nguồn liệu lớn chuẩn Hai đặc điểm bổ sung cho nhau, vận dụng tốt cho ta hệ thống học máy hoàn chỉnh.Luận văn hướng tới để vận dụng đặc điểm SMT, cho đặt mục tiêu cuối tăng chất lượng dịch hệ dịch máy Ở luận văn xử dụng hệ dịch máy công nhận cộng đồng khoa học MOSES.Bước thực nghiệm nhằm hai mục đích:  Bước thực nghiệm trước triển khai hệ thống dịch máy lớn Qua bước thực nghiệm đảm bảo đầu thuật toán đề xuất phù hợp với liệu học hệ dịch máy Điều cần thiết để đảm bảo khâu hệ thống vận hành trơn tru  Thứ kết thực nghiệm dùng để đánh giá mức độ xác thuật toán Đây bước chuẩn bị quan trọng cho việc xây dựng hệ thống sau Bởi với hệ học máy việc đánh giá kết đầu tốt hay không, thiết phải thông qua phương pháp xác định không dựa vào người để thống kê làm phần 5.3 Các bước tiến hành thực nghiệm sau: chạy chương trình gióng hàng phương pháp (Gale – Church, Champollion phương pháp đề xuất) để tập liệu gióng hàng Từ Bảng 5.6, ta thấy số lượng câu gióng phương pháp đề xuất cao hẳn phương pháp khác Ở có ý liệu lấy câu có gióng hàng 1-1, 1-2, 2-2 trường hợp 10,2-0 bị loại ra, điều lý giải phần phương pháp Champollion lại có hiệu suất thấp Số câu gióng hàng Gale – Church Champollion Phương pháp đề xuất 3.942 7.905 8.352 Bảng 5.6: Số câu gióng phương pháp 57 Lấy kết đưa vào MOSES để huấn luyện Với hệ thống huấn luyện, tiến hành đánh giá điểm BLEU Từ số liệu Bảng 5.7, ta thấy với tập liệu đầu vào sách song ngữ “Life of Pi” phương pháp đề xuất cho ta chất lượng hẳn phướng pháp trước đó, xét chất lượng câu gióng hàng xác số lượng câu gióng hàng Có điểm đáng ý là, số câu gióng phương pháp Champollion không nhiều lại cho điểm BLEU tương tự phương pháp Gale – Church Điều lý giải có nhiều câu gióng hàng sai dẫn tới làm giảm chất lượng dịch hệ thống Gale – Church Champollion Phương pháp đề xuất 10.16 10.68 16.03 BLEU Bảng 5.7: Giá trị BLEU phương pháp 5.5 Đánh giá Bài viết trình bày công việc việc xếp đoạn văn tiếng Anh song song với sách điện tử tiếng Việt Luận văn đề xuất phương pháp kết hợp cho toángióng hàng mức đoạn văn, dựa sử dụng ấn định trước điểm neo sử dụng phương pháp kết hợp độ tương tự độ dài đoạn để xác định hai đoạn văn ngôn ngữ nguồn đích dịch Các kết thu ( − = 77,69%) so sánh với thuật toán gióng hàng câu (Gale- Church với − = 62%) cho thấy tính hiệu đề xuất Mặc dù kết thu khả quan, nhiên tồn số vấn đề mà luận văn chưa giải như:  Định nghĩa xác đoạn văn Vấn đề phát sinh với câu hội thoại, câu hội thoại xuống dòng chưa đoạn Điều dẫn tới việc đoạn ngắn đoạn trở thành câu, tính chất đoạn phân tích mục không áp dụng  Việc xác định tham số phải làm thủ công ứng với sách khác Khi chuyển sang sách thuộc lĩnh vực khác tham số không xác Cần có chế học máy để tìm tham số  Thuật toán dừng lại việc gióng hàng 2-2, trường hợp gióng hàng 3-1,3-2, 3-3,… gặp phải kéo theo đoạn 58 dài bị gióng hàng sai, có điểm neo giữ lại, làm giảm hiệu phương pháp nhiều Tóm lại, luận văn tin với thuật toán gióng hàng đề xuất làm tăng đáng kể nguồn tài nguyên song ngữ cho hệ dịch máy tiếng Việt nói riêng hệ dịch máy giới nói chung Trong tương lai gần, tác giả cố gắng hoàn thiện thuật toán để nâng cao hiệu suất lên 59 TÀI LIỆU THAM KHẢO [1] W A Gale and K W Church, A program for aligning sentences in bilingual corpora,Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics (ACL) Morristown, NJ, USA: Association for Computational Linguistics, 1991, tr 177–184 [2]Aligned Hansards of the 36th Parliament of Canada, September 2007 [Online] http://www.isi.edu/natural-language/download/hansard/ [3]P Koehn, Europarl: A parallel corpus for statistical machine translation, MT Summit, 2005 [Online] http://www.statmt.org/europarl/ [4]The English-Norwegian parallel corpus, September 2007 [Online]http://www.hf.uio.no/ilos/forskning/forskningsprosjekter/enpc/ [5]The English-Swedish parallel corpus, September 2007 [Online]http://www.englund.lu.se/corpus/corpus/espc.html [6]Hunglish corpus, August 2007 [Online]http://mokk.bme.hu/resources/hunglishcorpus/indexhtml [7]Xiaoyi Ma, Hong Kong Parallel Text Philadelphia: Linguistic Data Consortium, 2004 [8]SEALang (2007, October) Southeast Asian languages library [Online] http://library.sealang.net [9]Wanakam (2007, October) Wanakam world classics in Thai [Online]http://www.wanakam.com [10]M Barang (2007, October) Thai fiction in translation [Online]http://www.thaifiction.com [11]Bangkok Post, Learning Post, September 2007 [Online]http://www.bangkokpost.net/education/index.htm [12]Asia Online, October 2008 [Online]http://asiaonline.net [13]P Danielsson and D Ridings, Practical presentation of a “Vanilla” aligner, August 2007 [Online]http://nl.ijs.si/telri/Vanilla/doc/ljubljana/ 60 [14]F Nevado, F Casacuberta, and E Vidal, Parallel corpora segmentation by using anchor words, Proceedings of EACL 2003 workshop on EAMT, 11th Conference of the European Chapter of the Association for Computational Linguistics, April 2003 [15]W Aroonmanakun, Collocation and Thai word segmentation, Joint International Conference of SNLP-Oriental COCOSDA, 2002 [16] Ma, X 2006 Champollion: A Robust Parallel Text Sentence Aligner Proceedings of Fifth International Conference on Language Resources and Evaluation, p489–492 [...]... hoặc kích thước của văn bản đưa vào đào tạo trong quá trình xác định xác suất của n-gram hoặc của các âm tiết liền kề 35 Chương 4 – Gióng hàng đoạn văn Cho hai văn bản bằng hai ngôn ngữ khác nhau, bài toán gióng hàng văn bản song ngữlà việc quyết định một thành phần của văn bản có thành phần là bản dịch của nó trong văn bản khác Đây là vấn đề quan trọng trong bài toán tạo từ điển song ngữ và trong bài... toán gióng hàng được xem là tương đương với bài toán nhận dạng mẫu, ở việc xác định sự tương ứng của hai chuỗiđối tượng; đối tượng ở đây có thể là lời nói, văn bản và âm thanh hoặc đoạn phim được ghi từ các máy khác nhau Cả bài toán gióng hàng văn bản và phương pháp đề nghị của luận văn là khá tổng quát, tuy nhiên luận văn chỉ tập trung vào sự gióng hàng đoạn văn trong văn bản song ngữ 4.1 Bài toán gióng. .. là văn bản, đưa các từ về dạng gốc của nó, 27 Chương 3 – Bài toán gióng hàng văn bản song ngữ 3.1 Các bộ ngữ liệu song ngữ lớn Từ nhu cầu cấp thiết phải xây dựng một bộ ngữ liệu song ngữ lớn và có tính chính xác cao của các hệ thống dịch máy hiện nay, đã dẫn đến nhiều dự án quy mô lớn được triển khai trên thế giới cho nhiều loại ngôn ngữ khác nhau 3.1.1 Khối Châu Âu Một trong nhữngbộ ngữ liệusong ngữ. .. bao gồm các bản dịch từ sách công nghệ thông tin, từ vựng Longmantrích trong từ điển tiếng Anh hiện đại (phiên bản Tiếng Việt của Trần Tất Thắng), từ điển song ngữ Anh- Việt, bản dịch của bộ ngữ liệu SUSANNE, sách điện tử, bách khoa toàn thư cho trẻ em, và các cuốn sách khác Nó có tổng cộng 5 triệu từ tiếng Việt và tiếng Anh Câu được liên kết bằng tay nếu văn bản gốc ở dạng bản in đánh máy, đồng thời... 28 Bộ ngữ liệu Hunglish [6] bao gồm các văn bản tiếng Hungary và tiếng Anh thu thập từ các bài giảng, từ sách văn bản tôn giáo, văn bản pháp luật, tài liệu thuộc lĩnh vực công nghệ, phụ đề phim, tạp chí và tin tức Bộ ngữ liệu bao gồm khoảng 54,2 triệu từ 2,07 triệu câu 3.1.2 Khối Đông Nam Á Tập văn bản song ngữ Hồng Kông [7], được xây dựng bởi Linguistic Data Consortium, là sự kết hợp của ba bộ ngữ liệu... gióng hàng đoạn văn Cho một tập văn bản và bản dịch ở ngôn ngữ khác, nhiệm vụ gióng hàng văn bản bao gồm việc xác định các thành phần (chẳng hạn như từ) là bản dịch của nhau, như trong Hình 4.1, các từ là bản dịch của nhau được nối với nhau bởi đường thẳng Trong trường hợp đơn giản như vậy, nhiệm vụ gióng hàng văn bản có thể được mô hình hóa thành một đồ thị hai phía có đỉnh là những thành phần trong văn. .. tiếng Anh và 98 triệu từ Trung Quốc trong 87.590 tài liệu Bộ ngữ liệuASAHI tập hợp các bài viết từ tờ báo Asahi Shimbun của Nhật Bản Báo Asahi Shimbun là một trong những tờ báo lâu đời nhất của Nhật Bản, và được xuất bản trong cả hai phiên bản tiếng Nhật và tiếng Anh Ngữ liệu gồm 472 bài viết bằng tiếng Nhật và bản dịch song song của nó từ năm 1989 tới năm 1991 Bộ ngữ liệu Anh – Việt bao gồm các bản. .. được trong giai đoạn từ năm 1994 đến năm 1997 Bộ ngữ liệutiếng Anh – Thụy Điển [5] rất giống vớibộ ngữ liệutiếng Anh – Na Uy Bộ ngữ liệu này có 64 văn bản làtiếng Anh và bản dịch là tiếng Thụy Điển Ngoài ra, nó còn có 72 văn bản tiếng Thụy Điển và bản dịch bằng tiếng Anh Tập dữ liệu bao gồm cả tiểu thuyết và các tác phẩm phi tiểu thuyết Tổng số từ trong ngữ liệu là 2,8 triệu từ Dự án được thực hiện trong...10 1.5 Kết cấu của luận văn Luận văn sẽ được tổ chức như sau: Chương 2: luận văn sẽ trình bầy sơ qua về hệ thống dịch máy, bao gồm các thành phần của dịch máy, cách đánh giá bản dịch, và một số lợi ích của hệ dịch máy Chương 3: sẽ giới thiệu về các hệ thống dữ liệu lớn đang có trên thế giới Tiếp đó, luận văn trình bầy sơ lược một số hướng tiếp cận cơ bản với bài toán gióng hàng văn bản Cuối chương nêu... Anh 29 Asia Online [12] là một công ty tư nhân tại Bangkok, Thái Lan Hoạt động kinh doanh liên quan đến phát triển phần mềm và cung cấp dịch vụ trong các lĩnh vực dịch máy, cổng thông tin điện tử và tìm kiếm Hệ thống dịch máy của họ sử dụng ngữ liệu song ng gióng hàng tự động bằng cách dung mô hình n-gram và sau đó kiểm tra bằng tay Ngược lại với bộ ngữ liệu châu Âu, hầu hết các bộ ngữ liệu song ngữ ... gióng hàng văn bản) Gióng hàng văn song ngữ việc xếp từ, cụm từ câu ngôn ngữ ngồn vớibản dịch tương đương ngôn ngữ khác Các tập văn thường gióng hàng mức cụm từ mức câu Bài toán gióng hàng song. .. pháp đề nghị luận văn tổng quát, nhiên luận văn tập trung vào gióng hàng đoạn văn văn song ngữ 4.1 Bài toán gióng hàng đoạn văn Cho tập văn dịch ngôn ngữ khác, nhiệm vụ gióng hàng văn bao gồm việc... trị tối ưu gióng hàng Hình 4.4: Gióng hàng đoạn 39 Vì vậy, toán gióng hàng văn song ngữ việc gióng hàng mức đoạn quy toán xây dựng đồ thị nhị phân có đỉnh đoạn văn văn viết hai ngôn ngữ tương

Ngày đăng: 05/11/2015, 18:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan