Cải tiến thuật toán gióng từ thông qua phân tích hình thái

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  TRẦN TRUNG THÀNH CẢI TIẾN THUẬT TOÁN GIÓNG TỪ THÔNG QUA PHÂN TÍCH HÌNH THÁI LUẬN VĂN THẠC SỸ Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  TRẦN TRUNG THÀNH CẢI TIẾN THUẬT TOÁN GIÓNG TỪ THÔNG QUA PHÂN TÍCH HÌNH THÁI Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 60480101 LUẬN VĂN THẠC SỸ Cán hướng dẫn: PGS.TS Lê Anh Cường Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng hướng dẫn khoa học PGS.TS.Lê Anh Cường Các nội dung nghiên cứu, kết luận văn trung thực chưa công bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, luận văn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận xin hoàn toàn chịu trách nhiệm nội dung luận văn MỤC LỤC LỜI CAM ĐOAN Danh mục từ viết tắt Danh mục bảng Danh mục hình vẽ, đồ thị I MỞ ĐẦU 1.1 Đặt vấn đề 1.2 Hướng tiếp cận luận văn 11 1.3 Nội dung luận văn 11 II TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ 13 2.1 Dịch máy 13 2.1.1 Sơ đồ tổng quan hệ dịch máy 13 2.1.2 Các phương pháp dịch máy 14 2.2 Dịch máy thống kê 15 2.2.1 Mô hình dịch máy thống kê 16 2.2.2 Mô hình ngôn ngữ 18 2.2.3 Mô hình dịch 20 2.2.3.1 Mô hình dịch dựa từ 20 2.2.3.2 Mô hình dịch dựa cụm từ 21 2.2.3.3 Mô hình dịch dựa cú pháp 22 2.2.4 Gióng hàng từ 25 2.2.5 Quá trình giải mã (decoding) 31 2.2.6 Ưu điểm phương pháp dịch thống kê 32 2.2.7 Các phương pháp đánh giá chất lượng dịch máy 33 2.2.7.1 BLEU (BiLingual Evaluation Understudy) 34 2.2.7.2 NIST (National Institute of Standards and Technology) 34 2.2.7.3 TER (Translation Error Rate) 35 2.2.8 Chu kì phát triển hệ thống dịch thống kê 35 2.3 Tích hợp tri thức ngôn ngữ vào dịch máy thống kê 36 2.3.1 Sử dụng tri thức ngôn ngữ để tiền xử lý 36 2.3.2 Dùng thông tin cú pháp 37 2.3.3 Sử dụng thông tin từ loại 38 2.3.4 Sử dụng luật biến đổi hình thái từ 39 2.3.5 Cách tích hợp tri thức vào hệ thống dịch máy 41 2.3.5.1 Tích hợp thông tin hình thái vào mô hình 42 2.3.5.2 Tích hợp thông tin cú pháp vào mô hình dịch 43 2.3.5.3 Tích hợp vào mô hình ngôn ngữ 43 III GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ 45 3.1 Giới thiệu mô hình gióng hàng IBM 45 3.2 Định nghĩa mô hình IBM 47 3.3 Một vài vấn đề áp dụng cho ngữ liệu Anh-Việt 48 IV PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN 50 4.1 Phân tích ví dụ 50 4.2 Đề xuất 52 V THỬ NGHIỆM 54 5.1 Các thử nghiệm gióng hàng từ 54 5.1.1 Các xác suất dịch từ 54 5.1.2 Cải tiến phép gióng từ Viterbi 56 5.2 Hiệu dịch thử nghiệm 57 5.3 Hướng dẫn bước thực nghiệm 58 VI KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 62 Danh mục từ viết tắt  EM Expectation Maximization (Cực đại kỳ vọng)  MT Machine Translation (Dịch máy)  NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)  POS Part Of Speech (Nhãn từ loại)  SMT Statistical Machine Translation (Dịch máy thống kê) Danh mục bảng  Bảng 2.1 Bảng biểu diễn gióng hàng từ dạng bảng  Bảng 5.1 Các xác suất cho từ nguồn thêm vào sau chạy IBM Models  Bảng 5.2 Số phép gióng từ gióng tập ngữ liệu khác  Bảng 5.3: điểm BLEU bốn lần thực nghiệm Danh mục hình vẽ, đồ thị  Hình 2.1: Sơ đồ tổng quan hệ dịch máy  Hình 2.2: Mô hình dịch máy thống kê  Hình 2.3: Câu đầu vào tiếng Anh dịch từ sang tiếng Việt, sau xếp lại trật tự từ  Hình 2.4 Câu đầu vào tách thành cụm từ, dịch một-một cụm từ tiếng Anh sang tiếng Việt xếp lại trật tự cụm từ  Hình 2.5: Quá trình dịch dựa cú pháp theo cách tiếp cận dịch từ chuỗi sang cú pháp, gồm bước: (1) chuyển đổi trật tự từ, (2) chèn (3) dịch  Hình 2.6: Quá trình dịch thực từ trái sang phải mở rộng không gian giả thuyết  Hình 2.7: Biểu diễn gióng hàng từ dạng liên kết  Hình 2.8 Hình minh hoạ trình cải tiến gióng hàng từ  Hình 2.9: Minh họa trình giải mã câu đầu vào e = "He does not go home" từ tiếng Anh sang tiếng Việt  Hình 4.1: Gióng từ từ tiếng Anh sang tiếng Việt  Hình 4.2: Gióng từ từ tiếng Việt sang tiếng Anh  Hình 4.3 Sự xếp đối xứng hai hướng sau tách thành phần I MỞ ĐẦU 1.1 Đặt vấn đề Dịch máy hay gọi dịch tự động người quan tâm Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán máy tính tạo ứng dụng phục vụ người thời đại công nghệ thông tin phát triển Khi việc giao tiếp việc nắm bắt thông tin nhanh chóng tạo nên nhiều hội cho người đến thành công, chương trình dịch tự động công cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh tiết kiệm công sức Dịch máy lĩnh vực thú vị, thu hút quan tâm nhiều nhóm nghiên cứu giới Tuy nhiên, thân ngôn ngữ phức tạp, thường hay có nhập nhằng Mặc khác, ngôn ngữ có khác biệt, từ từ vựng đến cấu trúc để tạo thành câu Việc xây dựng hệ dịch máy có khả hiểu ngữ cảnh, khử nhập nhằng dịch gần với người thách thức lớn Hiện giới có khoảng 5.650 ngôn ngữ khác nhau, với số lượng ngôn ngữ lớn gây nhiều khó khăn việc trao đổi thông tin.Với khó khăn người ta phải dùng đến đội ngũ phiên dịch viên khổng lồ, để dịch văn bản, tài liệu, lời nói từ tiếng nước sang tiếng nước khác Để khắc phục nhược điểm người nghĩ đến việc thiết kế mô hình tự động công việc dịch, từ xuất máy tính điện tử người ta tiến hành nghiên cứu dịch máy Công việc đưa mô hình tự động cho việc dịch phát triển, chưa giải triệt để lớp ngôn ngữ tự nhiên Người ta tin việc xử lí ngôn ngữ tự nhiên có dịch máy giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc người tiếp xúc với máy qua dòng lệnh cứng nhắc mà giao tiếp cách trực tiếp với máy 10 Đối với tiếng Việt, có nhiều nhóm đầu tư vào hệ dịch theo nhiều hướng tiếp cận khác nhau, xây dựng mô hình khác nhau, hệ thống cho chất lượng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào Các hệ thống dựa luật sử dụng tri thức ngôn ngữ thông tin cú pháp, ngữ nghĩa nên dịch hiệu Tuy nhiên, máy tính khó phân tích cú pháp xác cho câu có ngữ nghĩa phức tạp Mặc khác, việc xây dựng tập luật cú pháp luật chuyển đổi bao quát trường hợp khó khăn, đòi hỏi người thực phải có kiến thức sâu ngôn ngữ Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa kết thống kê từ kho ngữ liệu song ngữ Kết trung gian hệ dịch bảng thống kê từ, ngữ qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ Với phương pháp này, ngữ liệu lớn có chất lượng tốt hệ dịch hiệu Ưu điểm hệ dịch tuý thống kê nên độc lập ngôn ngữ, áp dụng cặp ngôn ngữ Mặc khác, tiền xử lý liệu đầu vào, miễn thực biến đổi đồng trình huấn luyện dịch Ngoài ra, người theo dõi can thiệp vào trình dịch thông qua bảng thống kê trung gian Chính đặc điểm mà mô hình dịch máy thống kê có tiềm lớn ứng dụng dịch máy Rất nhiều nhóm nghiên cứu tập trung khai thác phát triển hệ dịch máy mô hình Tuy nhiên trình phát triển hệ thống dịch máy, với đặc thù ngôn ngữ tiếng Việt có tính hình thái đơn giản ngôn ngữ khác tiếng Anh, tiếng Đức … nhiều, việc sử dụng mô hình cổ điển mô hình gióng hàng IBM chưa đem lại kết thực tốt Do luận văn việc tiếp cận giới thiệu hệ dịch máy thống kê tập trung vào việc phân tích, cải tiến thuật toán gióng hàng từ, cụ thể thông qua việc phân tích hình thái ngôn ngữ, đề xuất phương pháp để tăng chất lượng dịch lên đáng kể 51 Theo hướng ngược lại, ngôn ngữ đích tiếng Anh, việc gióng từ mô hình IBM không đầy đủ, thể Hình 4.2 Những These vấn_đề problems were chứng_minh proved to be giải solvable Hình 4.2: Gióng từ từ tiếng Việt sang tiếng Anh Việc gióng từ bị thiếu rõ ràng so sánh với gióng từ thể Hình 4.1 Đó yêu cầu mô hình IBM từ câu đích gióng đến không nhiều từ câu nguồn Khi mô hình áp dụng cho trường hợp chúng tôi, từ phức tạp “problems”, “proved”, “solvable”, dịch thực tế thành từ câu tiếng Việt Hình 4.1 làm cho việc gióng từ thiếu nhiều gióng Một điểm quan trọng cần lưu ý số từ tiếng Việt thực gióng với hình vị từ tiếng Anh Trong trường hợp “problems”, hình vị “problem” “s” tương ứng kết nối với từ “vấn_đề” “những” Các trường hợp cho hai từ khác tương tự, xem chi tiết Hình 4.3 52 Hình 4.3 Sự xếp đối xứng hai hướng sau tách thành phần Bằng chiến lược phù hợp để chia nhỏ từ tiếng Anh ban đầu thành thành phần Hình 4.3, không làm phong phú thêm số liệu thống kê ngữ liệu mà khắc phục vấn đề việc gióng từ đích tiếng Anh sang nhiều từ nguồn tiếng Việt Do đó, việc gióng cho hai hướng áp dụng thủ thuật có xu hướng trở nên đối xứng thể rõ ví dụ 4.2 Đề xuất Mỗi từ tiếng Anh có dạng hình thái riêng mình, nhờ phá vỡ thành phần nhỏ hơn, phần thực dịch tương ứng với từ tiếng Việt Nói cách khác chữ tiếng Anh có dịch nhiều từ tiếng Việt Bằng cách tách từ tiếng Anh sang phần nhỏ hơn, gán phần riêng lẻ với từ tiếng Việt 53 Có nhiều cách để phá vỡ từ tiếng Anh sang thành phần Ví dụ, từ “enlargements” chia thành nhiều phần “en + large + ment + s”, dịch phù hợp tương ứng với cụm tiếng Việt “những mở_rộng” “enlarge + ment + s” Không có chiến lược để tìm dịch tốt nhất, phương pháp chúng tôi, đề xuất để phá vỡ tập hợp hạn chế lớp hình thái học phổ biến Đặc biệt, tập trung vào khai thác lớp bao gồm danh từ + S, động từ + ED, động từ + ING Trong phương pháp chúng tôi, bổ sung thêm bước tiền xử lý bước hậu xử lý so với mô hình ban đầu Đầu tiên, từ tiếng Anh mà có ba hình vị chia thành phần nhỏ Các mô hình truyền thống huấn luyện tập ngữ liệu tiền xử lý cho kết gióng từ Viterbi Sau đó, bước hậu xử lý chuyển đổi gióng từ để tương thích với tập ngữ liệu gốc Đối với trường hợp ngôn ngữ gốc tiếng Anh, phép gióng từ phần từ tiếng Anh có nghĩa phép gióng từ toàn từ Đối với trường hợp ngôn ngữ gốc tiếng Việt, phép gióng từ tới phần từ tiếng Anh có nghĩa phép gióng từ đến toàn từ Giai đoạn hậu xử lý chủ yếu để so sánh phép gióng mô hình khác nên cần làm ngữ liệu giống 54 V THỬ NGHIỆM 5.1 Các thử nghiệm gióng hàng từ Luận văn có thực thử nghiệm tập ngữ liệu 56.000 cặp câu song ngữ Anh-Việt Trong lần thử nghiệm thường lệ chia tập ngữ liệu thành hai phần với phần lớn với 55.000 cặp câu dùng để huấn luyện phần nhỏ với 1.000 cặp câu dùng để thử nghiệm Và phần chia có hai phiên ngữ liệu: phiên gốc phiên tiền xử lý Trong phần luận văn mô tả chi tiết quy tắc giai đoạn tiền xử lý ảnh hưởng đến bảng xác suất dịch sau huấn luyện mô hình IBM Phần cuối kiểm tra tác động quy tắc đến kết gióng từ Viterbi sau để so sánh hiệu gióng từ hai mô hình 5.1.1 Các xác suất dịch từ Chúng áp dụng phân tích hình thái ba lớp phổ biến: danh từ + S, verb + ED, động từ + ING để tiền xử lý tập ngữ liệu Cả hai tập ngữ liệu gốc tập ngữ liệu tiền xử lý huấn luyện 20 lần lặp lặp lại với mô hình IBM với lần lặp lại cho mô hình từ Model đến Model Sau lần huấn luyện lặp lại đó, phân tích dịch từ “PL”, “ED” “ING” bảng xác suất dịch Mọi hình thức số nhiều danh từ chia thành hai phần: danh từ gốc ký hiệu số nhiều “PL” Ví dụ, “computers” chia thành hai từ liền kề “computer” “PL” Các xác suất dịch từ sau huấn luyện mô hình IBM thể Bảng 5.1 phản ánh rõ thực tế “PL” thường đồng xảy với “những”, “các”, “nhiều” 55 Bảng 5.1 Các xác suất cho từ nguồn thêm vào sau chạy IBM Models PL ED ING 0.570465 0.841928 0.658824 0.300285 bị 0.152974 biệc 0.31915 nhiều 0.0795678 0.000869153 0.0177749 từ 0.0321255 bào 0.000844074 0.000399352 0.011416 mức 0.000185142 cách 0.000312531 Mỗi từ động từ + ING chia thành hai phần: động từ gốc hậu tố “ING” Ví dụ: “running” chia thành hai từ liền kề “run” “ING” Các trường hợp với “ING” trình bày bảng 5.1 có cách thức trường hợp “PL” Các xác suất dịch cao từ “đang” ứng với tiếp diễn từ “việc” ứng với danh từ có hình thái động từ-ING Với từ dạng động từ + ED, hình thức bị động hình thức khứ chia thành hai phần: động từ gốc hậu tố “ED” Ví dụ: “edited” trở thành hai từ “edit” “ED” Ba dịch “ED” dạng bị động “bị” “được”, dạng khứ “đã” hiển nhiên chiếm ba trị trí đầu bảng xác suất dịch từ Tất kết phản ánh mối tương quan cao hình vị tiếng Anh từ tương ứng tiếng Việt Việc ước lượng mô hình IBM sinh gần giống mong đợi Điều cuối không làm giảm thưa thớt liệu mà đưa giải thích rõ ràng ánh xạ từ 56 5.1.2 Cải tiến phép gióng từ Viterbi Tập ngữ liệu tiền xử lý không thực tương thích với mô hình IBM cao mô hình IBM mô hình sử dụng tính xếp lại từ, tự sinh từ, v.v., tính bị ảnh hưởng bước tiền xử lý Điều làm cho kết gióng từ cuối mô hình IBM cao không phù hợp Do đó, thí nghiệm mô hình IBM 1, sau 20 lần lặp lại với mô hình IBM 1, kết phép gióng Viterbi cho phần thử nghiệm rút để kiểm tra tính đắn Có nhiều cách để đánh giá mô hình gióng từ Một phương pháp phổ biến để xem xét tỷ lệ lỗi gióng từ (AER) [8] phép đo lường hiệu hoạt động Tuy nhiên, trường hợp đặc biệt chúng tôi, đề xuất thay đổi nhỏ đến mô hình IBM để làm cho phép gióng từ khác với sinh mô hình sở phép gióng Vì vậy, thay kiểm tra đắn điểm gióng cách AER ước tính, so sánh xác điểm gióng mà hai mô hình không giống Đối với điểm khác nhau, ghi có điểm cho mô hình đắn không ghi điểm hai mô hình sai Bởi điểm khác toàn ngữ liệu kiểm thử có kích thước đủ nhỏ nên chắn kiểm tra phép gióng tay Sau tất công đoạn, mô hình đánh giá tỷ lệ lần gióng xác tập phép gióng khác Sau huấn luyện hai mô hình, ngữ liệu gốc, ngữ liệu tiền xử lý, áp dụng mô hình để xem kết phép gióng hàng Viterbi tập ngữ liệu kiểm thử Kết việc đánh giá phương pháp thể Bảng 5.2 Như thấy, phương pháp chiếm khoảng 74% số phép gióng từ có 26% dành cho phương pháp ban đầu Trong thí nghiệm chúng tôi, kết không ảnh hưởng đến điểm liên quan đến “PL”, “ED” “ING” mà ảnh hưởng đến nhiều trường hợp khác Nói cách khác, phương pháp điều chỉnh phép gióng khác phần không liên quan tới tiền xử lý 57 Bảng 5.2 Số phép gióng từ gióng tập ngữ liệu khác Ngữ liệu gốc Ngữ liệu tiền xử lý hình thái 173 490 5.2 Hiệu dịch thử nghiệm Chúng làm số thí nghiệm để so sánh kết gióng từ mô hình IBM_1, cụ thể so sánh kết hệ thống dịch máy dựa cụm từ xây dựng theo cách truyền thống so với kết đem lại phần mở rộng Sau làm theo bước huấn luyện tập ngữ liệu có mô hình dịch riêng Trong bước đầu tiên, sử dụng công cụ gióng từ tiếng GIZA ++ [9] (công cụ có cài đặt đầy đủ mô hình IBM) để gióng từ cho phần huấn luyện Cùng với việc gióng từ, mô hình ngôn ngữ cho ngôn ngữ đích (là tiếng Việt trường hợp này) huấn luyện công cụ phổ biến IRSTLM [3] tập ngữ liệu tiếng Việt, cụ thể phần huấn luyện tiếng Việt thử nghiệm nhóm Sau đó, sử dụng công cụ Moses tiếng [5] để sinh mô hình dịch, công cụ thực số bổ sung việc trích xuất cụm từ ước lượng điểm đặc trưng Cuối cùng, thử nghiệm thực với dịch câu chưa nhìn thấy lúc huấn luyên Bộ giải mã Moses dịch phần ngữ liệu kiểm thử tiếng Anh dựa thông tin mà mô hình cung cấp, kết câu tiếng Việt dịch Moses đánh giá phương pháp BLEU Thử nghiệm thực cách độc lập cho hai tập ngữ liệu, điểm số BLEU đo thước đo cho hiệu dịch hai mô hình Cùng với hiệu dịch, muốn đánh giá khả làm phong phú thêm số liệu thống kê phương pháp Các thí nghiệm thực ngữ liệu có kích cỡ khác Sự thưa thớt từ ngữ liệu bị tăng lên tập ngữ liệu có kích thước nhỏ Chúng giữ phần để thử nghiệm 1.000 58 cặp câu lựa chọn ngẫu nhiên 10.000, 20.000, 35.000 cặp câu ngữ liệu huấn luyện từ tổng số 55.000 cặp câu cho ba thí nghiệm Dễ dàng nhận thấy điểm BLEU phương pháp tốt kết bốn thí nghiệm Bảng 5.3 Phương pháp không làm tăng hiệu dịch mà chứng tỏ khả giảm bớt độ thưa thớt liệu đặc biệt kích thước ngữ liệu nhỏ Thực tế tập ngữ liệu nhỏ điểm BLEU cách xa nhau, kết thực nghiệm phản ánh rõ điểm này, tất kết lần cho thấy tiềm giải pháp đề xuất Bảng 5.3: điểm BLEU bốn lần thực nghiệm Kích thước tập đạo tào Ngữ liệu gốc Ngữ liệu xử lý hình thái % tăng 10000 13.85 14.61 5.5% 20000 16.51 16.87 2.2% 35000 18.64 19.07 2.3% 55000 20.49 20.55 0.34% 5.3 Hướng dẫn bước thực nghiệm  Bước 1: Chuẩn bị ngữ liệu Để thực thực nghiệm này, nhóm có thu thập 56.000 cặp câu song ngữ Anh – Việt - Dữ liệu sau tách từ (tokenizer) dùng để chuẩn hóa tách dấu phẩy, dấu chấm,… thành từ độc lập, VD: “Hoa, quả, lá”  “hoa , , lá”, “I‟m” -> “I „m” Và lower case tất cặp câu  Bước nhằm mục tiêu làm cho liệu giàu ví dụ từ “hoa,” xuất -  Bước 2: chia làm training & testing - Với tất lần chạy dành 1.000 câu để làm liệu kiểm thử 59 - Thực nghiệm chạy làm lần với ngữ liệu huấn luyện tương ứng: 10.000, 20.000, 35.000, 55.000 cặp câu  Bước 3: thực gióng từ liệu training Dùng công cụ Giza++ https://github.com/moses-smt/giza-pp Sau chạy có output file chứa thông tin gióng từ cặp câu  Bước 4: huấn luyện mô hình ngôn ngữ - - Dùng ISRTML - http://sourceforge.net/projects/irstlm/?source=navbar Chạy cho tập 55.000 câu tiếng Việt Kết trả language model dùng cho Bước  Bước 5: train mô hình dịch với Moses: - Mô hình dịch Moses gồm thành phần sau: Language model lấy từ bước phép gióng từ Giza++ Output: XS dịch cụm từ & language model cho bước  Bước 6: Dịch với Decoder Moses - Dịch tập huấn luyện 1000 cặp câu Dùng công cụ Decoder Moses  Bước 7: chấm điểm BLEU - Chấm scoring tool Moses  Các bước cải tiến: - - Trên bước để thực trình từ huấn luyện mô hình ngôn ngữ, mô hình dịch, tính xác suất dịch cụm từ, dịch chấm điểm BLEU Trong cải tiến chúng tôi, bổ sung thêm bước tiền xử lý tập ngữ liệu tiếng Anh Các từ câu tiếng Anh tách thuộc lớp gốc + „s‟ gốc + „ed‟ +‟ing‟ Để tách hình vị sử dụng công cụ PC Kimmo Bộ trả lại nhiều kết tách từ tiếng anh, chọn từ gồm từ gốc + „s‟ gốc + „ed‟ +‟ing‟ 60 - Tại bước có kiểm tra tay kết gióng có & pre-processing xem khác chỗ đc % chỗ khác 61 VI KẾT LUẬN Luận văn thực việc nghiên cứu đưa góc nhìn tông quan dịch máy thống kê bao gồm lịch sử phát triển, phân loại mô hình dịch máy thông kê ưu nhược điểm chung cách thức xây dựng hệ dịch máy thống kê Song song với nghiên cứu Dịch máy thống kê luận văn sâu hướng tích hợp tri thức ngôn ngữ cụ thể thông qua việc phân tích đặc điểm hình thái tiếng Anh tiếng Việt để để thấy nhược điểm mô hình IBM truyền thống đề xuất phương án cải tiến mô hình gióng hàng từ Luận văn trình bày chi tiết phương pháp để áp dụng phân tích hình thái việc xây dựng mô hình gióng từ tốt mô hình IBM truyền thống Bằng cách sử dụng dạng hình thái vài lớp từ tiếng Anh thông dụng để tiền xử lý tập từ, phương pháp thành công mối quan hệ số từ tiếng Việt với hình vị tiếng Anh tương ứng Các mối quan hệ không ảnh hưởng đến xác suất dịch từ - tham số đầu vào mô hình – mà kết gióng từ cuối cùng, điểm BLEU hệ thống dịch máy dựa cụm từ Các kết thử nghiệm chứng tỏ phương hướng nghiên cứu nhóm đúng, kết so sánh điểm BLEU tốt mô hình cổ điển, nhiên số cách để làm kết tốt Việc thử nghiệm kiểm thử số lớp từ, phần nhỏ dạng hình thái tiếng Anh, cải tiến kết việc mở rộng yếu tố Chúng tìm kiếm tham số phù hợp cho mô hình IBM cao hơn xác suất dịch từ Các cải tiến truyền thống làm cho phương pháp trở thành framework chung áp dụng cho nghiên cứu khác tương lai 62 TÀI LIỆU THAM KHẢO P F Brown, S A Della Pietra, V J Della Pietra, M J Goldsmith, J Hajic, R L Mercer, and S Mohanty But dictionaries are data too In Proceedings of the workshop on Human Language Technology, pages 202{205 Association for Computational Linguistics, 1993 P F Brown, V J D Pietra, S A D Pietra, and R L Mercer The mathematics of statistical machine translation: Parameter estimation Computational linguistics, 19(2):263{311, 1993 M Federico, N Bertoldi, and M Cettolo Irstlm: an open source toolkit for handling large scale language models In Interspeech, pages 1618{1621, 2008 P Koehn and H Hoang Factored translation models In EMNLP-CoNLL, pages 868{876, 2007 P Koehn, H Hoang, A Birch, C Callison-Burch, M Federico, N Bertoldi, B Cowan, W Shen, C Moran, R Zens, et al Moses: Open source toolkit for statistical machine translation In Proceedings of the 45th annual meeting of the ACL on interactive poster and demonstration sessions, pages 177{180 Association for Computational Linguistics, 2007 Y.-S Lee Morphological analysis for statistical machine translation In Proceedings of HLT-NAACL 2004: Short Papers, pages 57{60 Association for Computational Linguistics, 2004 R C Moore Improving IBM word-alignment model In Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, page 518 Association for Computational Linguistics, 2004 F J Och Minimum error rate training in statistical machine translation In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics Volume 1, pages 160{167 Association for Computational Linguistics, 2003 63 F J Och and H Ney A systematic comparison of various statistical alignment models Computational linguistics, 29(1):19{51, 2003 10 K Papineni, S Roukos, T Ward, and W.-J Zhu Bleu: a method for automatic evaluation of machine translation In Proceedings of the 40th annual meeting on association for computational linguistics, pages 311{318 Association for Computational Linguistics, 2002 11 F Sadat and N Habash Combination of arabic preprocessing schemes for statistical machine translation In Proceedings of the 21st International Conference 12 Yamada,K and Knight, K (2001), A syntax-based statistical machine translation, Proceedings of ACL 13 Vogel, S (2005) Pesa: Phrase pair extraction as sentence splitting In in Proceedings: the tenth Machine Translation 14 Nhung N., Dien D., 2008 A syntactic-based Word Re-ordering for EnglishVietnamese Statistical machine translation system In Proceeding of PRICAL 2008, LNAI 5351, pp 809 – 818, 2008 15 F J Och and H Ney, 2000, Improved statistical alignment models, In Proceedings of ACL 2000 16 F Xia and M McCord 2004 Improving a statistical MT system with automatically learned rewrite pat-terns In Proceedings of COLING 2004 17 Collins, M., Koehn, P and Kucerova, I (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Assoc for Computational Linguistics (ACL), pp 531-540 18 Yuqi Zhang, Richard Zens and Hermann Ney 2007 Chunk-level reordering of source language sentence with automatically learned rules for statistical machine translation In Proceedings of SSST, NAACL-HLT 2007/AMTA Workshop on Syntax and Structure in Statistical Translation 19 F Xia and M McCord 2004 Improving a statistical MT system with Auto-matically learned rewrite pat-terns In Proceedings of COLING 2004 64 20 J May and K Knight, 2007 Syntactic Re-Alignment Models for Machine Translation In Proceeding EMNLP-CoNLL 21 Victoria Fossum, Kevin Knight and Steven Abney, 2008 Using Syntax to Improve Word Alignment Precision for Syntax-Based Machine Translation In Proceedings of ACL MT Workshop, 2008 22 M Popovic, H Ney, 2006, POS-based Word Reorderings for Statistical Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May 2006 23 Chao Wang, Michael Collins, and Phillip Koehn, 2007 Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, 2007 24 N Ueffing, and H Ney, 2003, Using POS Information for Statistical Machine Translation into Morphologically Rich Languages, In Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 347-354, Budapest, Hungary, April 2003 25 P Koehn, H Hoang, 2007 Factored Translation Models In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL), pp 868–876, Prague, June 2007 26 Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based SMT with Morpho-Syntactic Analysis and Transformation, In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, pages 138-147, Cambridge, 2006 27 Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16 28 S NieBen and H Ney, 2001, Morpho-syntactic analysis for reordering in statistical machine translation, In Proceedings of MT Summit VIII, pages 247-252, Santiago de Compostela, Galicia, Spain, September 2001 29 Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007) Getting to know Moses: initial experiments on German English factored translation In Proceedings of the 65 Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184 30 Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16 31 Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003 Syntax-based Language Models for Statistical Machine Translation In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003 [...]... máy thống kê Chương 3 – GIÓNG HÀNG IBM VÀ CÁC HẠN CHẾ: Chương này sẽ trình bày về mô hình cổ điển IBM, định nghĩa toán học và đưa ra các đánh giá về mặt hạn chế của mô hình này Chương 4 – PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN: Thông qua việc phân tích các ví dụ về hình thái của ngôn ngữ tiếng Việt và tiếng Anh để đưa ra các đề xuất cải tiến bao gồm việc tách từ, tiền xử lý, hậu xử lý từ để cho ra kết quả là... heuristic để cải tiến kết quả gióng hàng từ có được từ GIZA++ Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ được giữ lại và vùng gióng hàng từ được mở rộng tối đa không vượt quá vùng giao của 29 hai gióng hàng từ Đầu tiên, ngữ liệu song ngữ được gióng hàng từ cả hai phía, từ ngôn ngữ nguồn sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn Quá trình này tạo ra hai gióng hàng từ Nếu... hướng tích hợp trực tiếp tri thức ngôn ngữ vào trong hệ dịch máy thống kê dựa trên hình thái ngôn ngữ Khảo sát các tri thức ngôn ngữ trong dịch máy thống kê Anh - Việt, các tri thức được tập trung khảo sát về hình thái từ, từ loại và các cách kết hợp các thông tin này, ảnh hưởng của nó để từ đó có thể đề xuất phương pháp cải tiến hệ dịch Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ, tiếng... hàng từ IBM (Brown, 1993) [2] mặc dù được đưa ra từ rất lâu nhưng vẫn được xem là mô hình tiên tiến nhất hiện nay Mô hình này giả sử rằng các liên kết từ giữa cặp câu luôn tồn tại, nhưng chưa xác định được vị trí của các liên kết đó Giả sử ta có cặp câu song ngữ, câu tiếng Anh 𝑒 có 𝑚 từ và câu tiếng Việt 𝑣 có 𝑛 từ: 𝑒 = 𝑒1 , 𝑒2 , … 𝑒𝑚 𝑣 = 𝑣1 , 𝑣2 , … 𝑣𝑛 Gọi gióng hàng từ 𝑎𝑗 : 𝑗 → 𝑖 liên kết từ tiếng... các cụm từ này Ở đây, cụm từ là chuỗi các từ liền kề nhau không nhất thiết là cụm từ trong ngôn ngữ học (theo định nghĩa trong ngữ pháp) Trong phương pháp này, câu đầu vào được chia thành một chuỗi các cụm từ; những cụm từ được ánh xạ một-một đến các cụm từ đầu ra, có thể được sắp xếp lại thứ tự các cụm từ Thông thường, các mô hình cụm từ được ước lượng từ ngữ liệu song ngữ đã được gióng hàng từ Tất... nghĩa từ vựng như: lặp lại (re-), chống (anti-), người/vật thực hiện (-er/-or), Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố Do đó, luận văn sẽ tiếp cận theo hướng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt ở mức độ hình thái từ, tập trung vào các lớp hình thái phổ biến là danh tự + (s), động từ + (ED), động từ + (ING) Từ tiếng Anh sẽ được đưa về từ gốc và tách các hình. .. tạo từ ít phát triển Trong khi tiếng Anh là ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất Biến cách là dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ pháp như: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới được hình thành trên cơ sở từ gốc... ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức cho việc gán nhãn Do đó, thật toán Expectation Maximization (EM) đã được [14] đề xuất để ước lượng các gióng hàng từ (ngữ) này Ý tưởng của thuật toán EM như sau: Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng hàng từ được khởi... trật tự của các từ tiếng Anh tương ứng khi dịch sang câu tiếng Việt Trong quá trình dịch, kết nối từ tiếng Anh tương ứng với từ tiếng Việt có thể là 1-1, 1-không, 1-nhiều, nhiều-1 hoặc nhiều-nhiều Mô hình dịch dựa trên đơn vị từ không cho kết quả tốt trong trường hợp kết nối nhiều-1 hoặc nhiều-nhiều với trật tự các từ trong câu tương ứng là khác nhau Khi đó, phân tích dựa trên đơn vị cụm từ được đề xuất... nguồn vào từ (ngữ) ở câu đích Ví dụ, gióng hàng từ giữa cặp câu song ngữ: She takes a small green box Cô ấy lấy một chiếc hộp nhỏ màu xanh Được biểu diễn như sau: Hình 2.7: Biểu diễn gióng hàng từ dạng liên kết 26 Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng như Bảng 2.1 Bảng 2.1 Biểu diễn gióng hàng từ dạng bảng She take a small green box Cô ấy lấy một chiếc hộp nhỏ Màu Xanh Mô hình gióng ... gióng hàng từ  Hình 2.9: Minh họa trình giải mã câu đầu vào e = "He does not go home" từ tiếng Anh sang tiếng Việt  Hình 4.1: Gióng từ từ tiếng Anh sang tiếng Việt  Hình 4.2: Gióng từ từ tiếng... mô hình Chương – PHÂN TÍCH VÀ ĐỀ XUẤT CẢI TIẾN: Thông qua việc phân tích ví dụ hình thái ngôn ngữ tiếng Việt tiếng Anh để đưa đề xuất cải tiến bao gồm việc tách từ, tiền xử lý, hậu xử lý từ kết... từ, tiếng Việt cần thêm từ với chức ứng với hình vị tiếng Anh xung quanh từ Nói cách khác từ tiếng Anh gióng thành nhiều từ tiếng Việt hầu hết trường hợp, từ tiếng Việt thường gióng với từ tiếng

Cải tiến thuật toán gióng từ thông qua phân tích hình thái

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan