tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ NGỌC MAI TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2010 MỤC LỤC MỤC LỤC............................................................................................................................1 DANH SÁCH CÁC BẢNG...............................................................................................4 DANH SÁCH CÁC HÌNH................................................................................................5 CHƯƠNG 1: GIỚI THIỆU................................................................................................6 1.1. Đặt vấn đề...............................................................................................................6 1.2. Hướng tiếp cận của đề tài......................................................................................8 1.3. Nội dung của luận văn...........................................................................................9 CHƯƠNG 2: TỔNG QUAN...........................................................................................11 2.1. Dịch máy thống kê...............................................................................................11 2.1.1. Dịch máy thống kê dựa trên từ....................................................................11 2.1.2. Mô hình dịch máy thống kê dựa trên ngữ..................................................19 2.1.3. Mô hình dịch thống kê factored (Factored SMT).....................................26 2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp...........................................29 2.2. Các tiêu chuẩn đánh giá chất lượng dịch..........................................................31 2.2.1. BLEU (Bilingual Evaluation Understudy)................................................32 2.2.2. NIST............................................................................................................... 32 2.2.3. TER (Translation Error Rate)......................................................................32 CHƯƠNG 3:......................................................................................................................33 CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ....................................................................................................................................... 33 3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý...........................................................33 3.1.1. Dùng thông tin cú pháp................................................................................34 Trang 1 3.1.2. Sử dụng thông tin từ loại............................................................................. 36 3.1.3. Sử dụng luật biến đổi hình thái từ...............................................................37 3.2. Tích hợp tri thức vào hệ thống dịch máy..........................................................39 3.2.1. Tích hợp thông tin hình thái vào mô hình dịch.........................................39 3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch...........................................40 3.2.3. Tích hợp vào mô hình ngôn ngữ.................................................................41 CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI.........................................................................42 4.1. Tích hợp thông tin hình thái từ tiếng Anh........................................................ 43 4.1.1. Thông tin từ loại............................................................................................43 4.1.2. Thông tin biến cách của từ...........................................................................44 4.1.3. Sử dụng luật chuyển đổi trật tự...................................................................45 4.2. Thêm thông tin hình thái từ tiếng Việt..............................................................50 4.2.1. Thông tin ranh giới từ.................................................................................. 50 4.2.2. Thông tin từ loại............................................................................................51 4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt...............................52 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ.........................................................54 5.1. Ngữ liệu.................................................................................................................54 5.2. Các công cụ.......................................................................................................... 55 5.3. Thí nghiệm............................................................................................................55 5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh................................55 4.4. Tóm tắt kết quả thí nghiệm.................................................................................74 CHƯƠNG 6: KẾT LUẬN............................................................................................... 76 TÀI LIỆU THAM KHẢO................................................................................................78 PHỤ LỤC...........................................................................................................................82 Trang 2 A. Đối chiếu hình thái từ B. Kết quả dịch của một Anh – Việt (biến cách)................................................... 82 số mô hình.........................................................................82 Trang 3 DANH SÁCH CÁC BẢNG Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng..................................................... 15 Bảng 5.1 Thông tin về ngữ liệu....................................................................................... 59 Bảng 5.2. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh 60 Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ..............................................63 Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt 64 Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình................................................65 Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt....................................68 Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh và tiếng Việt.......................................................................................................................71 Trang 4 DANH SÁCH CÁC HÌNH Hình 2.1. Mô hình dịch máy thống kê............................................................................ 12 Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết...........................................................14 Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ...........................................19 Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ............................................................. 20 Hình 2.5. Mô hình dịch factored SMT............................................................................27 Hình 4.1. Mô hình chung của luận văn...........................................................................43 Hình 4.2. Mô hình ngôn ngữ từ vựng.............................................................................49 Hình 4.3. Mô hình ngôn ngữ từ loại................................................................................49 Hình 4.4. Mô hình factored SMT tích hợp từ loại.........................................................50 Hình 4.5. Mô hình factored SMT tích hợp nguyên mẫu và từ loại.............................51 Hình 4.5. Mô hình factored SMT tích hợp các thông tin hình thái từ........................51 Trang 5 CHƯƠNG 1: GIỚI THIỆU 1.1. Đặt vấn đề Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện nay. Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của máy tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên nhiều cơ hội cho con người đi đến thành công, chương trình dịch tự động sẽ là công cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới. Tuy nhiên, bản thân từng ngôn ngữ đã rất phức tạp, thường hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được gần với con người vẫn đang là một thách thức lớn. Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều hướng tiếp cận khác nhau: - Nhóm nghiên cứu của PGS. TS. Đinh Điền (Đại học Khoa học Tự nhiên- Đại học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ. - Nhóm nghiên cứu của PGS. TS. Phan Thị Tươi (Đại học Bách Khoa Thành phố Hồ Chí Minh): Nhóm sử dụng phương pháp phân tích cú pháp có xác suất để dịch văn bản Anh-Việt và Việt-Anh. - Nhóm nghiên cứu của TS. Lê Khánh Hùng Softex (Phòng Công nghệ Phần Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam): hệ dịch đã được đưa vào sử dụng trong thực tế và thương mại hoá sản phẩm (http://vdict.com). EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử Trang 6 dụng các luật được xây dựng bằng tay để dịch văn bản từ Anh sang Việt. Từ năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) có thể dịch được văn bản hai chiều Anh-Việt và Việt-Anh. Do hệ dịch dựa trên luật nên kết quả của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã được thiết lập hay không. - Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA – ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên Hải (http://www.latl.unige.ch/vietnamese/) tại LATL. - Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao gồm cả tiếng Việt. Sử dụng phương pháp dịch máy thống kê dựa trên kho ngữ liệu song ngữ. Tốc độ dịch nhanh và có tính năng tương tác với người dùng nhằm tăng chất lượng dịch cho các lần sau. - Dịch máy trên Xalo.vn (www.dich.xalo.vn): đưa ra dịch vụ dịch trực tuyến một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự phát triển, hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép người dùng chỉnh sửa, góp ý về nội dung dịch nhằm nâng cao chất lượng dịch. - Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi người dùng. Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lượng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào. Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật cú pháp và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ. Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của Trang 7 hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ. Với phương pháp này, ngữ liệu càng lớn và có chất lượng tốt thì hệ dịch sẽ càng hiệu quả. Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có thể áp dụng được trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn luyện và dịch. Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô hình này. Do đó, chúng tôi hướng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ. Luận văn sẽ tập trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này. 1.2. Hướng tiếp cận của đề tài Đề tài sẽ tập trung vào khảo sát các hướng tích hợp trực tiếp tri thức ngôn ngữ vào trong hệ dịch máy thống kê dựa trên ngữ. Khảo sát các tri thức ngôn ngữ trong dịch máy thống kê Anh - Việt. Các tri thức được tập trung khảo sát bao gồm hình thái từ, từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hưởng của các thông tin này lên hệ dịch. Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ. Tiếng Việt là ngôn ngữ đơn lập, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và bằng các hư từ. Trong tiếng Việt, từ không có hiện tượng biến hình, đơn vị cơ bản là hình tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thường trùng với âm tiết, có khả năng vừa dùng như từ vừa dùng như hình vị. Ở loại hình này, người ta thường hay nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hư với yếu tố thực cũng như vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là Trang 8 ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng. Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất. Biến cách là dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ pháp như: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới được hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những ý nghĩa từ vựng, như: lặp lại (re-), chống (anti-), người/vật thực hiện (-er/-or), ... Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố. Nhiều nghiên cứu đã tiếp cận theo hướng tập trung vào giải quyết sự khác biệt về trật tự từ giữa tiếng Anh và tiếng Việt như nghiên cứu của nhóm Nguyễn Phương Thái [32], nhóm nghiên cứu của nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3] và đạt được một số kết quả khả quan. Tuy nhiên, sự khác nhau về hình thái từ giữa tiếng Anh và tiếng Việt vẫn chưa được quan tâm. Do đó, đề tài sẽ tiếp cận theo hướng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt ở mức độ hình thái từ. Từ tiếng Anh sẽ được đưa về nguyên mẫu, tách các phụ tố và gán nhãn từ loại, từ tiếng Việt sẽ được phân đoạn từ và gán nhãn từ loại. Đề tài cũng sẽ phân tích các từ loại có ảnh hưởng tích cực đến chất lượng dịch của hệ thống. 1.3. Nội dung của luận văn Phần còn lại của luận văn sẽ bao gồm các chương sau: Chương 2 – TỔNG QUAN: Chương này sẽ trình bày hướng tiếp cận dịch máy thống kê dựa trên ngữ, các thành phần cấu thành hệ thống dịch máy thống kê này. Chương 3 – CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ: Chương này sẽ khảo sát các hướng tiếp cận để đưa tri thức ngôn ngữ vào trong hệ máy thống kê, phân tích ưu khuyết điểm của các hướng tiếp cận này. Trang 9 Chương 4 – MÔ HÌNH CỦA ĐỀ TÀI: Chương này sẽ mô tả mô hình được sử dụng trong đề tài, các tri thức được đưa vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ và lí do lựa chọn các tri thức này. Chương 5 – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chương này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của đề tài, đồng thời so sánh các tri thức ngôn ngữ khác nhau ảnh hưởng như thế nào trong dịch máy thống kê Anh - Việt. Chương 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt được và hướng phát triển trong tương lai. TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày các thông tin khác có liên quan và được sử dụng trong đề tài. CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê các bài báo khoa học, các công trình đã được công bố trong quá trình thực hiện đề tài. Trang 10 CHƯƠNG 2: TỔNG QUAN 2.1. Dịch máy thống kê Dịch máy thống kê (Statistical Machine Translation - SMT) được nghiên cứu từ những năm 1980 trong dự án Candide của IBM. Phương pháp được IBM sử dụng là dịch máy thống kê dựa trên từ (word based SMT), phương pháp này dịch từ một từ thuộc ngôn ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép thêm, xoá các từ trên câu đích. Sau này, nhiều nhóm nghiên cứu đã đạt được kết quả dịch tốt hơn nhờ phương pháp dịch máy thông kê dựa trên ngữ (phrase based SMT). Phương pháp này được đặt nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ. Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình. Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google. Các hệ thống dịch máy dựa trên ngữ đạt được những kết quả vượt trội trong các hội nghị đánh giá chất lượng dịch máy thời gian gần đây (DARPA TIDES Machine Translation Evaluation). Ngoài phương pháp thống kê còn nhiều phương pháp khác được sử dụng trong dịch máy. Đa số các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ vựng phong phú. Cho tới gần đây, các nghiên cứu về dịch máy thường tập trung vào các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian trong quá trình dịch. 2.1.1. Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê dựa trên từ [25] được đưa ra bởi Brown vào năm 1990. Mô hình này giả sử rằng câu ở ngôn ngữ nguồn có câu dịch là câu ở ngôn ngữ Trang 11 đích. Một câu e có thể dịch sang được nhiều câu v. Trong dịch thống kê, ta chọn câu v có khả năng là câu dịch của e là nhiều nhất. Với mỗi cặp câu ta gọi là xác suất mà có thể dịch thành . Mục đích của dịch máy thống kê là tìm câu có xác suất là cao nhất. Tuy nhiên, việc tính xác suất không khả thi vì câu đích được tạo ra bởi chuỗi các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp. Do đó, công thức Bayes được dùng để triển khai cho xác suất = . : (2.1) Vì câu tiếng Anh e không đổi nên ( ) sẽ không ảnh hưởng đến việc chọn câu , ta có thể bỏ qua ( ). Khi đó, câu dịch được chọn sẽ là câu có . lớn nhất. = = . (2.2) Hệ dịch máy thống kê gồm 3 phần: - Mô hình ngôn ngữ ( ) (language model): Phản ánh độ trôi chảy của câu dịch. Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị xác suất ( ) cao hơn. Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ. - Mô hình dịch ( ) (translation model): Đưa ra sự tương ứng giữa các từ, ngữ trong các cặp ngôn ngữ. Với câu e cho trước, câu dịch v nào có xác suất ( ) cao hơn thì sẽ là câu dịch hợp lý hơn. Mô hình này được huấn luyện dựa trên các cặp câu song ngữ. - Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để thực hiện quá trình dịch. Trang 12 Ngữ liệu song ngữ Ngữ liệu đơn ngữ Thống kê Thống kê Mô hình dịch Mô hình ngôn ngữ Câu nguồn Quá trình giải mã Câu đích Hình 2.1. Mô hình dịch máy thống kê 2.1.1.1. Mô hình ngôn ngữ Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ pháp) trong câu được phát sinh. Từ chuỗi từ được phát sinh ra, hệ dịch tính tần suất dãy các từ này cùng xuất hiện trong ngôn ngữ đích. Thông tin này sẽ được dùng trong quá trình giải mã để tìm ra câu dịch hay nhất. Các hệ thống hiện nay thường tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể là trigram. Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên − 1 từ đứng trước nó trong câu. Cho câu gồm chuỗi các từ 1, 2, … , ta tính các xác suất trong mô hình ngôn ngữ như sau: Xác suất unigram: ố ầ = 1 ấ ệ ừ ổ 1 ố ừ (2.3) Xác suất bigram: 1| 2 = ốầấệụ 12ốầấệừ1 Trang 13 (2.4) Xác suất trigram: ố ầ = 3| 1 2 ố ầ ấ ệ ụ ấ ệ ụ 1 2 3 1 2 (2.5) Xác suất xuất hiện của câu được tính bằng tích của tất cả các xác suất xuất hiện của từng từ có trong câu . Dưới đây là ví dụ về cách tính xác suất xuất hiện của câu “I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram. = < >< > × < > × ×××× × ( | ) × ( | ) Trong thực tế, ngữ liệu thường bị phân tán, nếu từ không tồn tại trong ngữ liệu thì xác suất xuất hiện của nó sẽ bằng 0. Điều này dẫn đến xác suất của chuỗi từ được tính bằng tích các xác suất của từng từ sẽ bằng 0. Để tránh xác suất 0, công thức tính xác suất xuất hiện của từ được điều chỉnh như sau: 0.8 × 3 1 2 + 0.15 × 3 2 + 0.049 × 3 + 0.001 Ngoài mô hình ngôn ngữ n-gram, còn có một số mô hình ngôn ngữ khác như: mô hình ngôn ngữ web n-gram và mô hình ngôn ngữ cú pháp. 2.1.1.2. Gióng hàng từ Để ước lượng các tham số trong mô hình dịch, bảng dịch ngữ được tạo ra dựa trên gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tương ứng bằng cách đánh dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích. Ví dụ, gióng hàng từ giữa cặp câu song ngữ: She takes a small green box. Cô ấy lấy một chiếc hộp nhỏ màu xanh. Trang 14 được biểu diễn như sau: She takes Cô ấy lấy a small một green chiếc hộp box nhỏ . màu xanh . Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng như bảng 2.1. Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng She takes a small greenbox . Cô ấy lấy một chiếc hộp nhỏ màu xanh . Mô hình gióng hàng từ IBM (Brown, 1993) mặc dù được đưa ra từ rất lâu nhưng hiện nay vẫn được xem là mô hình tiên tiến nhất hiện nay. Mô hình này giả sử rằng các liên kết từ giữa cặp câu luôn tồn tại, nhưng chưa xác định được vị trí của các liên kết đó. Giả sử ta có cặp câu song ngữ, câu tiếng Anh có từ và câu tiếng Việt có từ: = 1, 2, … = 1, 2, … Trang 15 Gọi gióng hàng từ : → liên kết từ tiếng Anh thứ sang từ tiếng Việt thứ và là tập các liên kết từ tất cả các từ trong câu e = 1, ,… Từ xác suất gióng hàng từ, ta có thể tính được xác suất dịch theo công thức: = , Xác suất gióng hàng từ giữa các từ trong cặp câu, , Trong đó, = , được tính như sau: =1 (2.6) (2.7) được tính dựa trên các gióng hàng từ (ngữ) trong ngữ liệu song ngữ. Tuy nhiên, để tạo ra ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức cho việc gán nhãn. Do đó, thật toán Expectation Maximization (EM) đã được [24] đề xuất để ước lượng các gióng hàng từ (ngữ) này. Ý tưởng của thuật toán EM như sau: Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng hàng từ được khởi tạo giá trị ban đầu như nhau. … … my house … small house … my mobile … nhà của tôi … nhà nhỏ … điện_thoại của tôi … Sau đó, qua mỗi lần lặp, các cặp từ thường gióng hàng với nhau nhất sẽ được xác định. Trang 16 Liên kết giữa “my” và “của tôi” được xác định: … … my house … small house … my mobile … nhà của tôi … nhà nhỏ … điện_thoại của tôi … Liên kết “house” và “nhà” được xác định: … … my house … small house … my mobile … nhà của tôi … nhà nhỏ … điện_thoại của tôi … Các liên kết khác được xác định: … … my house … small house … my mobile … nhà của tôi … nhà nhỏ … điện_thoại của tôi … Kết quả gióng hàng từ cuối cùng: … … my house … small house … my mobile … nhà của tôi … nhà nhỏ … điện_thoại của tôi … Cuối cùng, các xác suất gióng hàng từ sẽ hội tụ, giá trị không thay đổi nhiều. Khi đó ta được cả hai thông tin là thông tin về gióng hàng từ và giá trị xác suất tương ứng. Sử dụng thuật toán EM, Stephan Vogel đề ra các mô hình IBM có tên gọi lần lượt là IBM1, IBM2, IBM3, IBM4, IBM5 và Franz-Joseph Och đề ra mô hình 6 để tạo ra gióng hàng từ trên các cặp câu song ngữ. Trang 17 Hiện tại, công cụ phổ biến nhất để gióng hàng từ là GIZA++. Công cụ này được xây dựng dựa trên các mô hình IBM. Tuy nhiên, công cụ này có hạn chế là chỉ cho phép gióng hàng một từ thuộc ngôn ngữ nguồn với một hoặc nhiều từ thuộc ngôn ngữ đích. [10] đề xuất cách tiếp cận dựa trên heuristic để cải tiến kết quả gióng hàng từ có được từ GIZA++. Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ được giữ lại và vùng gióng hàng từ được mở rộng tối đa không vượt quá vùng giao của hai gióng hàng từ. Đầu tiên, ngữ liệu song ngữ được gióng hàng từ cả hai phía, từ ngôn ngữ nguồn sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn. Quá trình này tạo ra hai gióng hàng từ. Nếu lấy phần giao hai gióng hàng từ này, chúng ta sẽ có gióng hàng từ với độ chính xác cao (high-precision). Ngược lại, nếu lấy phần hợp của hai gióng hàng từ, chúng ta sẽ có gióng hàng từ với độ bao phủ (high-recall) cao. Hình 2.2 minh họa quá trình này. Trong hình, các điểm nằm trong vùng giao có màu đen, các điểm mở rộng có màu xám. Trang 18 Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ 2.1.1.3. Quá trình giải mã (decoding) Nhiệm vụ của của quá trình này là tìm câu dịch thích hợp nhất khi biết câu nguồn. - Chia câu nguồn thành nhiều từ hoặc cụm từ. - Tra trong bảng ngữ để tìm các ngữ dịch tương ứng. - Kết hợp các ngữ tìm được lại thành câu và chọn những câu có xác suất mô hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất. 2.1.2. Mô hình dịch máy thống kê dựa trên ngữ Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy được thông tin ngữ cảnh mà chỉ dựa trên các phân tích thống kê về từ. Mô hình dịch máy thống kê dựa trên ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ. Điều này cho phép hệ thống có thể dịch các cụm từ tránh được dịch word-by-word. Trang 19 Trong hệ dịch máy thống kê dựa trên ngữ [26], câu ở ngôn ngữ nguồn e được tách thành nhiều ngữ (là một dãy nhiều từ, không nhất thiết phải là ngữ đúng ngữ pháp, dấu câu cũng được xem như là một từ). Mỗi ngữ được dịch thành ngữ tương ứng dựa vào phân phối xác suất ( | ). Sau đó các ngữ sẽ được chuyển đổi trật tự dựa trên mô hình chuyển đổi ( − −1), với là vị trí bắt đầu của ngữ và −1 là vị trí kết thúc của ngữ . Do vậy, hệ dịch thống kê trên ngữ sẽ học được các cặp cụm từ song ngữ, đặc biệt là các câu thành ngữ. Như vậy, câu dịch tốt nhất thoả công thức (2.1) sẽ được viết lại thành: = ( | )× ( − ) −1 =1 (2.6) Hình 2.4 minh hoạ quá trình dịch máy thống kê dựa trên ngữ. Câu đầu vào tiếng Anh được tách thành nhiều cụm từ, hay còn gọi là ngữ. Các ngữ được dịch sang ngữ tiếng Việt tương ứng, các ngữ tiếng Việt đầu ra có thể chuyển đổi trật tự trong câu cho phù hợp với tiếng Việt. She Cô ấy takes a lấy một small green box chiếc hộp nhỏ màu xanh . . Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ Do thống kê trên các cặp ngữ, hệ dịch này có thể chuyển đổi trật tự giữa các từ trong ngữ, nhưng vẫn chưa tự động chuyển đổi trật tự các cụm từ ở xa nhau trong câu. Có nhiều cách khác nhau để rút trích các cặp ngữ từ ngữ liệu song ngữ. [16] đã thử nghiệm 3 phương pháp sau: i. Lấy ngữ dựa vào kết quả gióng hàng từ Trang 20 Tác giả sử dụng công cụ GIZA++ để gióng hàng từ trong ngữ liệu song ngữ. Sau đó, Koehn dùng một số heuristic để cải tiến thêm kết quả gióng hàng và lấy toàn bộ các cặp ngữ chứa những từ có liên kết. Khi đó, ( | ) được tính như sau: = (|) (|) (2.7) ii. Tách ngữ cú pháp Trước tiên, tác giả gióng hàng từ cho cặp câu song ngữ, sau đó phân tích cặp câu ra cây cú pháp. Tác giả rút trích các cặp ngữ song ngữ bằng cách lấy chuỗi từ nằm trong cây con của cây cú pháp và có liên kết gióng hàng từ. Xác suất dịch của cặp ngữ được tính tương tự như mô hình trên. iii. Dùng mô hình kết hợp do Marcu, D. và Wong, W đề xuất: Hình thành ngữ trực tiếp trên ngữ liệu song ngữ Thông qua các thí nghiệm, tác giả kết luận rằng mô hình dựa trên gióng hàng từ cho kết quả tốt nhất trong 3 mô hình. Xét cặp câu song ngữ: That girl is the highest pupil in the class. Cô bé đó là học sinh cao nhất trong lớp. Mô hình rút các cặp ngữ từ kết quả gióng hàng từ sau: Từ kết quả gióng hàng từ của cặp câu: Trang 21 Các cặp ngữ rút ra phải nhất quán như hình (a), những từ có liên kết với từ trong ngữ nguồn thì cũng được đưa vào trong ngữ đích. Cách rút ngữ trong hình (b) là sai vì từ “là” có liên kết với từ “is” nhưng không được đưa vào ngữ. Ban đầu, ta có thể lấy các ngữ từ các liên kết gióng hàng từ (That, ấy), (girl, cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .) Trang 22 (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp) (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .) (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the, Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao nhất trong), (in the class, trong lớp) Trang 23 (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class . , trong lớp .), (That girl is the, Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil in the class ., học sinh cao nhất trong lớp .) (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the, Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao Trang 24 nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil in the class ., học sinh cao nhất trong lớp .), (That girl is the highest pupil in the, Cô bé ấy là học sinh cao nhất trong), (is the highest pupil in the class ., là học sinh cao nhất trong lớp .) (That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., .), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class. , trong lớp .), (That girl is the, Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil in the class., học sinh cao nhất trong lớp.), (That girl is the highest pupil in the, Cô bé ấy là học sinh cao nhất trong), (is the highest pupil in the class., là học sinh cao nhất trong lớp.) (That girl is the highest pupil in the class ., Cô bé đó là học sinh cao nhất trong lớp .) Từ các cặp ngữ rút ra được, mô hình dịch dựa trên ngữ sẽ lưu lại bảng ngữ (phrase-table) chứa các cặp ngữ rút ra từ các cặp câu song ngữ cùng với xác suất ( | ). Trang 25 2.1.3. Mô hình dịch thống kê factored (Factored SMT) Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chưa sử dụng thông tin ngôn ngữ vào hệ dịch. Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng biến cách như là những từ phân biệt, do hệ dịch chỉ nhận diện bề mặt chữ chứ không có thông tin liên hệ nào giữa các dạng biến cách. Ví dụ, trong tiếng Anh, houses (những ngôi nhà) là biến cách danh từ số nhiều của house (ngôi nhà). Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt. Nếu trong quá trình huấn luyện, hệ thống đã gặp từ house nhưng chưa gặp từ houses thì sẽ không dịch được từ này. Nhóm nghiên cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực tiếp tri thức ngôn ngữ vào mô hình dịch. Mô hình này được phát triển dựa trên cách tiếp cận dịch máy dựa trên ngữ. Cải tiến của mô hình này là các thông tin về tri thức được tích hợp vào hệ thống ở mức độ từ. Một từ trong mô hình này được xem như là một vector đại diện chứa nhiều thông tin khác nhau. Ví dụ, mỗi từ trong câu nguồn và câu đích có thể thêm các factor: từ nguyên mẫu, từ loại, biến cách Câu nguồn Câu đích Từ Từ Nguyên mẫu Nguyên mẫu Từ loại Từ loại Hình thái Hình thái Hình 2.5. Mô hình dịch factored SMT Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ. Tuy nhiên, bước tạo mô hình dịch của hệ factored SMT sẽ được chia ra thành ba bước nhỏ. Ví dụ từ tiếng Đức häuse khi được dịch sang tiếng Anh sẽ được xử lý như sau: Trang 26 Từ häuse được thêm các thông tin hình thái từ: Từ häuse | nguyên mẫu hause | từ loại NN | số đếm Plural và được dịch theo các bước: - Dịch từ nguyên mẫu của câu đích sang từ nguyên mẫu của câu đích haus → house, home, building, shell - Dịch các factor nguyên mẫu, từ loại, hình thái NN|plural → NN|singular, NN|plural - Phát sinh từ từ kết quả dịch từ nguyên mẫu và các factor house + NN|singular → house|house|NN|singular house + NN|plural → houses|house|NN|singular home + NN|singular → home|home|NN|singular home + NN|plural → homes|home|NN|singular … Quá trình dịch từ nguyên mẫu và các factor giống như dịch dựa trên ngữ. Hệ thống sẽ rút các cặp ngữ từ kết quả gióng hàng từ và tính xác suất có điều kiện dựa bằng cách thống kê tầng suất xuất hiện của các ngữ. Ứng với mỗi bước dịch, hệ thống sẽ tạo ra một bảng dịch. Bước phát sinh chỉ thực hiện trên mức độ từ và xử lý trên câu đích, không liên quan đến kết quả gióng hàng từ. Trong quá trình giải mã, tìm kiếm câu dịch thích hợp, thay vì chỉ sử dụng một bảng dịch ngữ như mô hình dịch máy dựa trên ngữ, mô hình factored phải sử dụng nhiều bảng, quá trình tính toán cũng phức tạp hơn. Công thức tính xác suất như sau: 1 = , =1 (2.8) Trang 27 Trong đó, Z là hằng số chuẩn, có thể bỏ qua trong thí nghiệm. Như vậy, để tính xác suất dịch từ câu sang câu , ta phải tính từng hàm đặc trưng bao gồm hàm đặc trưng về mô hình ngôn ngữ, mô hình chuyển đổi trật tự, các bước dịch và phát sinh. Hàm đặc trưng cho mô hình ngôn ngữ bigram sẽ là: == … 1 2 1 −1 (2.9) Đối với các bước dịch, mỗi câu , sẽ được tách ra nhiều cặp ngữ tính xác suất cặp ngữ , , . Cách cũng tương tự cho mô hình dịch trong dịch máy thống kê dựa trên ngữ. Hàm đặc trưng cho bước dịch được tính như sau: , = , (2.10) Hàm đặc trưng cho bước phát sinh như sau: , = (2.11) là phân phối xác suất có điều kiện giữa factor đầu vào và factor đầu ra của từ . Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural thành từ ở dạng đầy đủ houses sẽ học xác suất , , | và | , , . Các giá trị phân phối này hệ thống thống kê từ ngữ liệu đơn ngữ của ngôn ngữ đích. Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ phụ thuộc vào các yếu tố hình thái như từ loại, số đếm, giới tính, thì (quá khứ, tương lai…) Trang 28 2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch. Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu biểu: - Dịch từ cây cú pháp sang câu (tree-to-string ) [34] o Quá trình học: Từ câu nguồn, tác giả phân tích thành cây cú pháp. Mô hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu đích. o Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp. Dựa vào bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút. Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích dựa vào xác suất chèn từ. Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá có thể dịch ra thành từ rỗng (NULL). - Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer) [33] Trang 29 o Câu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự. o Cây cú pháp của câu đích được đổi trật tự và kết hợp với cây cú pháp của câu nguồn. - Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer) Trong mô hình này, tác giả tập trung biến đổi trật tự cho các ngữ có chứa ngữ con. - Dịch dựa trên mệnh đề (clause level restructuring) Do cấu trúc câu của tiếng Đức khác các ngôn ngữ khác: không có trật tự, vị trí của trạng từ, mệnh đề phụ. [7] phân tích câu ra thành các mệnh đề và áp dụng sáu bước chuyển đổi trật tự trên cây cú pháp của câu nguồn nhằm tạo sự tương đồng về trật từ từ giữa câu nguồn và câu đích. Đánh giá mô hình dịch dựa trên cú pháp, [18] đã chỉ ra ưu điểm của phương pháp này như sau: Trang 30 - Có thể chuyển đổi trật tự dựa trên thông tin cú pháp. Chẳng hạn như chuyển tân ngữ của câu tiếng Anh sang cuối câu trước khi dịch sang tiếng Đức. - Dịch những từ chức năng (giới từ, mạo từ,...) tốt hơn. - Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong câu. Chẳng hạn như chuyển đổi trật tự giữa chủ ngữ và tân ngữ. - Có thể khai thác mô hình ngôn ngữ cú pháp: o Cây cú pháp đúng sẽ tạo ra câu dịch đúng. o Cho phép chuyển đổi trật tự ở xa. Chẳng hạn như chuyển động từ chính về cuối câu. Tuy nhiên, [18] cũng cho rằng những mô hình hiện tại vẫn chưa khai thác hết thông tin cú pháp vì các mô hình về cơ bản vẫn là dịch dựa trên ngữ, nghĩa là xem các từ trong câu là chuỗi token. Tác giả đưa ra lý do của thông tin cú pháp chưa thật sự có ích vì: hệ dịch cần công cụ phân tích cú pháp tốt, có độ chính xác cao. Ngoài ra, thông tin cú pháp khá là phức tạp, khó để con người theo dõi khi huấn luyện cũng như khi dịch và ít có nhà nghiên cứu nào vừa nắm vững về các mô hình thống kê lại hiểu rõ về lý thuyết ngôn ngữ. 2.2. Các tiêu chuẩn đánh giá chất lượng dịch Việc đánh giá chất lượng dịch rất phức tạp vì mỗi câu nguồn thường có thể có nhiều câu dịch khác nhau. Tuỳ theo cách chọn từ, văn phong mà ta có thể tạo ra câu dịch khác nhau cho cùng một câu nguồn. Phương pháp đáng tin cậy nhất là để con người đánh giá. Tuy nhiên, để người đánh giá sẽ chậm và tốn nhiều chi phí. Mặc khác, mỗi người sẽ có cách nhìn nhận chủ quan khác nhau. Do vậy, đánh giá bằng máy được sử dụng vì khách quan và nhanh chóng, ít tốn chi phí. Để ước lượng hiệu quả của hệ dịch, phương pháp đánh giá tự động thường đo độ tương tự giữa câu máy dịch và câu dịch tham chiếu trong ngữ liệu. Trong khuôn khổ của đề tài, luận văn sử dụng ba độ đo để khảo sát kết quả dịch: BLEU, NIST và TER. Trang 31 2.2.1. BLEU (Bilingual Evaluation Understudy) Điểm BLEU [28] là một trong những tiêu chuẩn đo hiệu quả dịch được sử dụng rộng rãi nhất hiện nay. Để đo BLEU, người ta tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu dịch tham chiếu. Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram. Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới. Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ thống dịch càng tốt. 2.2.2. NIST NIST [8] là độ đo có cách đánh giá tương tự như BLEU nhưng sử dụng trung bình số học (arithmetic mean) thay vì (geometric mean) nhằm tăng tính chính xác khi đánh giá. Ngoài ra NIST còn đánh số điểm cao hơn cho các n-gram chứa nhiều thông tin hơn trong khi đối với BLEU là như nhau nếu cùng số từ. Với tiêu chuẩn này, số điểm cao thì hệ dịch được xem là tốt. 2.2.3. TER (Translation Error Rate) TER [31] là tiêu chuẩn đánh giá dựa trên số lần chỉnh sửa để chuyển câu kết quả từ máy dịch thành câu tham chiếu. Đây là độ đo được đánh giá là gần với con người nhất. Tỉ lệ lỗi sẽ được tính theo công thức: ố ướ ỉ ử = ốừìâế Các bước chỉnh sửa bao gồm thêm, xoá hoặc thay thế từ trong câu. Với độ đo này, tỉ lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt. Trang 32 CHƯƠNG 3: CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ Hướng tiếp cận dịch máy dựa trên ngữ hiện được xem là state-of-the-art trong dịch máy thống kê. Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp các tri thức ngôn ngữ vào hệ thống, chẳng hạn như hình thái từ, ngữ pháp hoặc ngữ nghĩa. Những tri thức này đã được nghiên cứu tích hợp vào các hệ thống dịch máy dựa trên ngữ trong quá trình tiền xử lí hoặc hậu xử lí và đã đạt được một số kết quả nhất định. Cách tích hợp tri thức ngôn ngữ vào hệ dịch máy thống kê có thể chia làm hai hướng chính là sử dụng tri thức để tiền xử lý và đưa tri thức ngôn ngữ vào hệ dịch. 3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý Hướng tiếp cận thứ nhất được tập trung nghiên cứu rất nhiều và đạt được một số kết quả khả quan. Hướng này chủ yếu tập trung vào chuyển đổi trật tự từ hoặc phân tích từ pháp ở câu nguồn nhằm giảm bớt sự khác biệt giữa hai ngôn ngữ. Các tri thức để chuyển đổi bao gồm tri thức về hình thái từ, phân tích cây cú pháp và các luật chuyển đổi dựa trên sự khác biệt giữa hai ngôn ngữ. Thông thường, quá trình biến đổi này được thực hiện ở bước tiền xử lý trên câu nguồn hay câu đích, hoặc cả hai phía và kết quả thu được sẽ được đem làm đầu vào cho hệ dịch. Mặc dù áp dụng theo nhiều cách khác nhau, nhưng hầu hết các mô hình theo hướng này đều hiệu quả hơn so với mô hình baseline. Do mục tiêu chính của những phương pháp này là hướng đến sự tương đồng giữa hai ngôn ngữ nên đã khắc phục được khá nhiều lỗi khi thực thi hệ dịch thống kê, gồm những lỗi về gióng hàng từ, chọn từ dịch tương ứng hay chuyển đổi trật tự. Ngoài ra, việc phân tích hình thái từ còn làm giảm được số từ chưa có trong ngữ liệu huấn luyện. Trang 33 3.1.1. Dùng thông tin cú pháp Xia và McCord [11] sử dụng các luật đảo trật tự từ trong văn phạm phi ngữ cảnh. Trong quá trình huấn luyện, hệ thống sẽ tự động rút luật từ cây cú pháp của câu nguồn và câu đích cùng với kết quả gióng hàng từ. Khi thực thi, các luật này sẽ được sử dụng để sắp xếp lại trật tự câu nguồn nhằm tạo sự tương tự giữa hai ngôn ngữ. Mô hình này đã cải tiến được hệ dịch máy thống kê Anh – Pháp. Nhóm nghiên cứu của Collins [7] đưa ra mô hình cũng áp dụng kết quả phân tích cú pháp vào hệ dịch thống kê. Tuy nhiên, tác giả chỉ lấy thông tin cú pháp của câu nguồn. Hệ thống sẽ tự động rút ra luật chuyển đổi từ cây cú pháp và câu đích, sau đó áp dụng các luật chuyển đổi trật tự cho mệnh đề tiếng Đức để tạo sự tương tự về mặt cú pháp với tiếng Anh, áp dụng ở giai đoạn tiền xử lý trong hệ dịch dựa trên ngữ. Kết quả thử nghiệm cho thấy hệ đã cải tiến được đáng kể, điểm BLEU từ 25,2% tăng lên 26,8%. Nhóm nghiên cứu của Zhang [35] đưa ra mô hình tương tự như Xia và McCord [11]. Trước tiên, câu nguồn được gán nhãn từ loại, phân tích ranh giới ngữ. Sau đó tác giả lấy kết quả gióng hàng và câu đã được phân tích để tự động rút luật chuyển đổi trật tự trong dịch máy thống kê Hoa – Anh. Tuy nhiên, công trình này mới ở chỗ họ chỉ phân tích cú pháp ở câu nguồn và sử dụng mọi khả năng đảo trật tự đã học trong quá trình huấn luyện và biểu diễn ở dạng lưới. Kết quả tăng từ 0,5% đến 1,8% điểm BLEU, tốt hơn so với hệ dịch chỉ lấy thông tin POS. [12] sử dụng kết quả gióng hàng trong ngữ liệu song ngữ để rút ra các luật chuyển đổi trật tự từ dựa trên cú pháp. Sau đó, các luật này được dùng để đảo cho ngôn ngữ nguồn trong cả hai quá trình huấn luyện và kiểm tra đánh giá. Khi có align giữa câu nguồn S và câu đích T, thêm vào cây cú pháp của câu nguồn PS, với mỗi node N trong PS, Nizar Habash tìm những vị trí từ trên T mà N và tất cả các con của N có liên kết đến. Sau đó, dựa vào cây PS, tìm điều kiện (C) để đổi trật tự từ (R) tạo thành các luật chuyển đổi. Những luật có phân phối điều kiện cao nhất sẽ được chọn. Nizar Habash dịch từ tiếng Ả-rập sang tiếng Anh sử dụng ngữ Trang 34 liệu NIST MTEval, sử dụng GIZA++ cho liên kết từ, sử dụng BLEU và NIST để đánh giá. Kết quả tốt nhất tăng 25% điểm BLEU. Một hướng cải tiến gióng hàng từ do May và Knight [14] đề ra như sau: dùng những ràng buộc về cú pháp để gióng hàng lại ngữ liệu song ngữ đã được gióng bởi công cụ GIZA++. Từ cây cú pháp của câu đích và kết quả gióng hàng, họ rút ra luật biến đổi giữa câu và cây (string-to-tree). Với mỗi cặp string/tree (câu nguồn và cây cú pháp của câu đích) trong ngữ liệu, họ sử dụng các luật này để xây dựng rừng dẫn xuất string-to-tree có thể có. Sau đó, tác giả sử dụng mô hình EM để chọn cây dẫn xuất cho mỗi cặp. Kết quả là các cặp câu được align lại từ cây dẫn xuất Viterbi. Sử dụng thuật toán trên, nhóm nghiên cứu của Victoria Fossum [33] đề xuất cải tiến gióng hàng từ bằng cách sử dụng hai đặc trưng của các luật được rút ra là kích thước của luật lớn nhất và số lượng luật để dò tìm tự động và xoá liên kết sai do GIZA++ gióng hàng. Sau khi xoá liên kết này, kết quả gióng hàng và chất lượng dịch đã được cải thiện rất nhiều trong dịch Hoa – Anh và Ả Rập – Anh. Điểm BLEU tăng từ 0,5 đến 1,4 và độ đo f-measure của gióng hàng từ tăng từ 1 đến 3%. Thuật toán của các tác giả trên khác với May và Knight [14] ở chỗ tập các liên kết từ mới mà họ phát sinh ra được chỉ giới hạn trong các liên kết mà GIZA++ gán ban đầu trong ngữ liệu huấn luyện. Trong khi đó, thuật toán của Victoria Fossum [33] thì sẽ phát hiện được tất cả các gióng hàng bằng cách xoá đi một liên kết từ kết quả của GIZA++ ban đầu. Ngoài ra, nếu sử dụng thuật toán của May và Knight sẽ tốn nhiều thời gian trong quá trình huấn luyện vì phải tìm gióng hàng nào tốt nhất cho mỗi cặp câu. Đối với thuật toán của [33], họ sử dụng phương pháp tìm kiếm Greedy nên sẽ tìm ra liên kết cần xoá nhanh hơn, do đó thuật toán tiết kiệm được nhiều thời gian hơn. Phương pháp này không những cải thiện được kết quả gióng hàng mà còn làm tăng độ chính xác của trật tự từ kết quả dịch. Việc sử dụng thông tin cây cú pháp giúp hệ dịch xử lý trường hợp những từ ở xa có ràng buộc với nhau về mặt ngữ pháp. Tuy nhiên, quá trình rút ra luật chuyển đổi phụ thuộc rất nhiều vào việc phân tích cây cú Trang 35 pháp cho cả hai ngôn ngữ và kết quả gióng hàng từ. Nếu những thông tin này không chính xác, dẫn đến luật học cũng sai và ảnh hưởng đến kết quả hệ dịch. Và đó cũng là trở ngại khi đem mô hình này áp dụng cho những cặp ngôn ngữ khác. 3.1.2. Sử dụng thông tin từ loại Bên cạnh đó, một số nhóm nghiên cứu khác tạo luật chuyển đổi trật tự dựa trên thông tin từ loại. Tác giả khảo sát sự khác biệt về trật tự của các cặp ngôn ngữ và rút ra các luật chuyển đổi. Nhóm nghiên cứu của Hermann Ney [20] đưa ra hai cách chuyển đổi trật tự tuỳ thuộc vào cặp ngôn ngữ và chiều dịch: đổi trật tự nội bộ trong các danh từ và tính từ khi dịch từ Tây Ban Nha và dịch sang Tây Ban Nha, đổi trật tự cho động từ khi dịch sang tiếng Đức. Kết quả giảm được 2% WER và tăng 7% BLEU. - Chuyển đổi cục bộ: Trong tiếng Tây Ban Nha, tính từ đặt sau danh từ, trong khi tiếng Anh và hầu hết những ngôn ngữ không thuộc dòng Roman thì trật tự ngược lại. Nếu dịch từ tiếng Tây Ban Nha thì danh từ sẽ được đảo ra sau. Nếu dịch sang tiếng Tây Ban Nha thì ở câu nguồn, tính từ chuyển ra sau danh từ. - Chuyển đổi xa: Trong tiếng Đức, động từ thường được đặt ở cuối câu nếu ở dạng nguyên mẫu (infinitive) hay quá khứ phân từ (past participle). Do đó, khi dịch sang tiếng Đức, hệ dịch sẽ chuyển các động từ ở dạng nguyên mẫu hay quá khứ phân từ về cuối câu. Một nghiên cứu khác cũng sử dụng luật chuyển đổi dựa trên sự khác biệt về trật tự từ giữa tiếng Hoa và tiếng Anh. Nhóm nghiên cứu của [6] đổi trật tự câu tiếng Hoa trước khi đưa vào hệ dịch. Họ đưa ra hệ luật chuyển đổi bằng cách khảo sát thành phần của các loại ngữ trong Penn Chinese Treebank guidelines. Những loại ngữ có thứ tự thành phần tương tự tiếng Anh thì sẽ được giữ nguyên, chẳng hạn như ngữ tính từ, ngữ trạng từ,… Tác giả rút luật chuyển đổi từ sự khác biệt trong các ngữ danh từ, ngữ động từ, ngữ định vị (tương ứng với ngữ giới từ trong tiếng Anh). Kết quả hệ được cải tiến từ 28,52 đến 30,86 điểm BLEU. Trang 36 Ưu điểm của phương pháp này là có thể đưa ra luật chuyển đổi bằng tay dựa trên khảo sát sự khác biệt của cặp ngôn ngữ, đặc biệt là những cặp khác nhau nhiều về trật tự từ. 3.1.3. Sử dụng luật biến đổi hình thái từ Ngoài thông tin từ loại, các nhà nghiên cứu còn sử dụng thông tin hình thái khác như dạng nguyên mẫu, phụ tố của từ. Các tác giả dùng những tri thức này để biến đổi từ sang dạng mới, nhằm tạo sự tương đương giữa hai ngôn ngữ, giảm bớt các trường hợp gióng hàng không phải 1-1. Nicola Ueffing và Hermann Ney [23] đưa ra mô hình dịch từ ngôn ngữ ít biến đổi hình thái như tiếng Anh sang ngôn ngữ giàu hình thái. Các dạng từ trong tiếng Anh thường không chứa đủ các thông tin cần thiết để hoàn chỉnh từ trong ngôn ngữ đích. Tác giả đưa ra mô hình cải tiến chất lượng hệ dịch bằng cách sử dụng thông tin từ loại và mô hình maximum entropy. Kết quả dịch từ tiếng Anh sang Tây Ban Nha và Catalan trên ngữ liệu LC-STAR bao gồm thể loại đàm thoại về kế hoạch công việc và du lịch. Tác giả đưa ra cách dịch chuỗi tiếng Anh bao gồm cả thông tin từ loại. - Động từ: Trong tiếng Catalan và Tây Ban Nha, đại từ đứng trước động từ thường được bỏ qua và thay vào đó, người ta thể hiện thông qua đuôi của động từ. Phần cuối này cho biết động từ đang ở thì tương lai hay là các dạng trợ động từ như “should”, “would” trong tiếng Anh. Để giải quyết vấn đề này, tác giả đề ra phương pháp tạo dạng từ mới của tiếng Anh bằng cách nối động từ với đại từ và trợ động từ và thông tin từ loại sẽ hỗ trợ cho hệ thống dò tìm ra đại từ và trợ động từ. Vd: “you will have” được nối thành “you_will_have” tương ứng với “tendrás” tiếng Tây Ban Nha và “tindràs” trong Catalan. - Đảo câu nghi vấn: Trong tiếng Anh, ngữ nghi vấn có trật tự từ khác với câu khẳng định: Trợ động từ được đảo ra trước đại từ và động từ chính chuyển về nguyên mẫu. Trật từ này khác so với tiếng Catalan và Tây Ban Trang 37 Nha, tác giả đưa ra trật tự mới trong tiếng Anh để tạo ra sự giống nhau giữa các cặp ngôn ngữ này. Trong câu hỏi của tiếng Anh, thông tin trợ động từ “do” không có ích nên tác giả bỏ trợ động từ này đi và không gây ảnh hưởng đến kết quả dịch (như công bố của [27] khi dịch từ tiếng Đức sang Anh). Nhưng tác giả không bỏ trợ động từ ở thì quá khứ. Khi xử lý, hệ thống đảo trợ động từ ra sau đại từ. Vd: “how are you” được chuyển thành “how_you_are” Kết quả, tỉ lệ lỗi dịch Anh – Catalan giảm ~ 2% (WER), 3% (BLEU) và Anh – Tây Ban Nha giảm ~0,5% (WER), ~0,7% (BLEU). Tuy nhiên, tỉ lệ lỗi của hệ dịch Anh – Tây Ban Nha vẫn cao hơn Anh – Catalan. Nguyên nhân chính là do từ vựng của tiếng Tây Ban Nha chứa nhiều nội dung hơn. Hệ dịch này có thể cải tiến thêm bằng cách xử lý thêm các loại từ khác ngoài động từ. Trong bài báo của Nguyễn Phương Thái và Akira Shimazu [32], tác giả sử dụng các luật chuẩn đổi hình thái bằng tay, về cú pháp, họ sử dụng mô hình chuyển đổi dựa trên công thức Bayes. Câu nguồn đã được chuyển đổi ở phần tiền xử lý. Kết quả thử nghiệm trên ngữ liệu Anh – Việt, cải tiến được 3,28% so với phrase-base SMT bằng Pharaoh. Trong nghiên cứu này, tác giả đưa ra mô hình khác với [10] và [6] ở chỗ mô hình chuyển đổi dựa trên quyết định thống kê. Mặt khác, tác giả chỉ phân tích cú pháp cho một phía là ngôn ngữ nguồn. Một điểm khác nữa là tác giả ứng dụng trên cặp ngôn ngữ Anh – Việt (khác về đặc trưng ngôn ngữ) và kết hợp chuyển đổi cú pháp với chuyển đổi hình thái. Tác giả đưa ra các luật chuyển đổi dựa trên những điểm khác biệt giữa hai ngôn ngữ. Tiếng Việt khác tiếng Anh ở chỗ tiếng Việt là ngôn ngữ đơn lập, không thể phân biệt ranh giới từ bằng khoảng trắng. Mặt khác, từ tiếng Việt không có biến tố như tiếng Anh. Tác giả phân tích từ tiếng Anh về nguyên mẫu và lấy thông tin các phụ tố và hình thái, từ đó chuyển thành chuỗi mới. Vd: “books” được chuyển thành “book_s”, “booking” chuyển thành “book_ing”. Trang 38 Về chuyển đổi cú pháp, tác giả phân tích cú pháp câu nguồn và lấy kết quả gióng hàng từ đưa vào huấn luyện. Các luật chuyển đổi sẽ được rút ra khi cây cú pháp câu nguồn và chuỗi câu đích bị chéo nhau. Sau đó, hệ thống tính xác suất của những luật này. Khi thực thi, hệ thống sử dụng công thức Bayes để tìm luật chuyển đổi cú pháp cho cây cú pháp của câu nguồn. Sau khi chuyển đổi cú pháp và phân tích hình thái cho câu nguồn, chuỗi nhận được cùng với câu đích sẽ là đầu vào của hệ dịch. Kết quả thử nghiệm trên ngữ liệu Anh – Việt, điểm BLEU tăng lên ~4% với chủ đề máy tính và ~3% chủ đề đàm thoại. Phương pháp này có thể áp dụng cho các cặp ngôn ngữ khác, đặc biệt là khi kích thước ngữ liệu nhỏ. Do phân tích hình thái từ và chuyển về nguyên mẫu, mô hình này giảm được phần nào trường hợp từ chưa gặp trong ngữ liệu huấn luyện. Đồng thời, khi tách phụ tố và đảo trật tự theo tiếng Việt, mô hình tăng cường gióng hàng 1-1 nên kết quả gióng hàng chính xác hơn. Mô hình này khá hiệu quả đối với những cặp khác biệt nhau về mặt hình thái, mức độ biến hình của từ của hai ngôn ngữ. Tích hợp tri thức vào hệ thống dịch máy 3.2. Tương tự hướng tiếp cận thứ nhất, những mô hình trong hướng này cũng sử dụng các thông tin ngôn ngữ như: từ loại, hình thái từ, cây cú pháp,... để cải tiến hệ dịch. Chỉ khác ở chỗ, những tri thức này được đính kèm vào trong các cặp câu và đưa vào mô hình dịch hoặc mô hình ngôn ngữ vào hệ factored SMT. Đây là mở rộng của hệ dịch dựa trên ngữ, cho phép người dùng đưa những thông tin khác đi kèm với từ. Những thông tin này có thể đưa vào mô hình dịch hoặc mô hình ngôn ngữ. 3.2.1. Tích hợp thông tin hình thái vào mô hình dịch Đối với một số ngôn ngữ (Tây Ban Nha, Anh,…), động từ có thể chia ở nhiều dạng khác nhau, dẫn đến khó có một ngữ liệu nào có thể chứa hết các dẫn xuất của các động từ. [5] đưa ra mô hình phân lớp loại từ sẽ tạo một token tương ứng với tất cả các dẫn xuất của một động từ. Làm cách này, các dạng động từ sẽ xuất hiện nhiều hơn và dễ ước lượng hơn. Ngoài ra, có một mô hình tương tự đối với động từ của ngôn ngữ đích. Trang 39 Trong bài báo [29], Sonja NieBen and Hermann Ney dùng tri thức ngôn ngữ để biến đổi câu nguồn trong dịch từ tiếng Đức sang tiếng Anh. Dựa trên sự khác biệt giữa 2 ngôn ngữ, tác giả tách động từ về dạng nguyên mẫu và phụ tố và tách từ ghép ra theo từng thành phần của nó. Chẳng hạn, từ Fruchtetee được tách thành Fruchte và tee, trong đó từ được đánh nhãn từ loại để khử nhập nhằng nghĩa của từ. Ngoài ra, tác giả còn nối ngữ, nghĩa là các từ tạo thành một ngữ có vai trò cú pháp và ý nghĩa riêng biệt được nối với nhau. Về vấn đề từ chưa gặp trong ngữ liệu huấn luyện, chẳng hạn như tên riêng, tác giả không đổi khi dịch, và những từ khác thì tách từ ghép và tách phụ tố của động từ làm giảm lượng từ chưa gặp. Giảm được 8,9% số từ chưa gặp. Các bước xử lý này cải tiến hệ dịch so với hệ cơ sở, tách từ ghép tỉ lệ lỗi giảm 4,5%, tách động từ và phụ tố cải tiến nhiều nhất, giảm tới 7,1% tỉ lệ lỗi. Tác giả không đưa ra kết quả của hệ dịch với ngữ liệu được gán nhãn từ loại, ngoài ra, theo tác giả, vì ngữ liệu huấn luyện nhỏ (~27000 cặp câu) và thiếu đồng nhất dẫn đến một số lỗi khi dịch. [21] dùng thông tin hình thái và cú pháp vào factored translation model: kết hợp kiểm tra tích hợp nguyên mẫu, tách danh từ ghép tiếng Đức (decompounding German nominal compounds), chuyển đổi trật tự dựa trên hình thái và nhãn từ loại từ. Họ sử dụng những thông tin sau làm factor cho hệ dịch: từ, nguyên mẫu, từ loại, hậu tố. Kết quả thử nghiệm cho thấy hệ dịch dùng thông tin nguyên mẫu tốt hơn là từ loại. Tuy nhiên tác giả không đưa kết luận cuối cùng và không lý giải kết quả này. 3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch Nhóm nghiên cứu của [5] đề xuất mô hình phrase-based SMT tích hợp thông tin cú pháp nhằm kết hợp thế mạnh của cả mô hình phrase-based và cấu trúc cú pháp bằng cách sử dụng thông tin cú pháp nhãn văn phạm CCG (Combinatiorial Categorial Grammar) vào hệ dịch. Tác giả đưa supertag (nhãn thông tin cú pháp) như là một factor ở câu nguồn hoặc câu đích. Chất lượng dịch được cải tiến nhờ chuyển đổi trật tự từ. Trang 40 Trong đó, văn phạm CCG chứa hầu hết các cấu trúc ngữ pháp. Vì vậy, thông tin supertag ở câu nguồn cho phép bộ giải mã quyết định chọn lựa dựa trên cấu trúc của đầu vào. Kết quả dịch từ tiếng Hà Lan – tiếng Anh: thêm POS tăng 0,14; supertag 0,45; cả POS và supertag tăng 0,46 BLEU. Supertag chứa nhiều thông tin hơn POS vì chứa cả ngữ cảnh cú pháp chứ không chỉ riêng thông tin của từ đó. 3.2.3. Tích hợp vào mô hình ngôn ngữ Nhóm nghiên cứu của [9] đưa ra phương pháp mới về sử dụng thông tin cú pháp cho dịch máy thống kê. Họ sử dụng mô hình phân tích cú pháp thống kê như là mô hình ngôn ngữ trong SMT. Kết quả thử nghiệm cho thấy hệ này cải tiến điểm BLEU tăng thêm 25% so với hệ base-line syntax-based SMT. Hướng tiếp cận này khai thác được tri thức ngôn ngữ khá hiệu quả, nhất là đối với các ngôn ngữ đích là ngôn ngữ giàu hình thái, cần nhiều thông tin để phát sinh ra dạng đúng của từ. Trang 41 CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI Trong các hướng tiếp cận tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê, luận văn khảo sát ảnh hưởng của các tri thức hình thái và từ loại vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ. Cách tích hợp bao gồm tiền xử lí câu đầu vào và chọn mô hình dịch. Chương này trình bày chi tiết về các cách tích hợp tri thức ngôn ngữ được đưa vào trong luận văn. Hình 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa trên ngữ và công đoạn can thiệp để tích hợp tri thức ngôn ngữ vào hệ thống này của luận văn. Mô hình dịch thống kê Anh – Việt Tích hợp thông tin: - Từ loại - Hình thái từ Ngữ liệu song ngữ Tiếng Anh Mô hình dịch Tiếng Việt Tích hợp thông tin: - Ranh giới từ Mô hình ngôn ngữ Bộ giải mã - Từ loại Câu tiếng Anh Câu dịch tiếng Việt Hình 4.1. Mô hình chung của luận văn Luận văn sẽ tích hợp tri thức ngôn ngữ gồm hình thái từ và từ loại. Ngoài ra luận văn còn khảo sát, đánh giá mức độ ảnh hưởng của các thông tin này vào hệ dịch thống kê Anh – Việt. Trang 42 Phần thí nghiệm của đề tài thực hiện các hướng tiếp cận như sau: - Tích hợp thông tin từ loại, tách từ tiếng Anh ra thành từ nguyên mẫu và phụ tố. o Gán nhãn từ loại vào mỗi từ tiếng Anh o Phân tích từ thành nguyên mẫu và phụ tố o Sử dụng luật chuyển đổi trật tự dựa trên thông tin hình thái từ. - Tích hợp thông tin ranh giới từ, từ loại tiếng Việt o Tách từ tiếng Việt o Gán nhãn từ loại tiếng Việt - Sử dụng mô hình factored SMT cho hệ Anh – Việt o Gán nhãn từ loại cho cả tiếng Anh và tiếng Việt o Phân tích từ tiếng Anh thành nguyên mẫu và phụ tố, thêm từ loại cho tiếng Anh và tiếng Việt 4.1. Tích hợp thông tin hình thái từ tiếng Anh 4.1.1. Thông tin từ loại Khi phân tích lỗi của hệ dịch thống kê dựa trên ngữ, ta nhận thấy, hệ thường mắc phải một số lỗi sau: dịch sai nghĩa hoặc không dịch được từ tiếng Anh sang tiếng Việt. Trường hợp dịch sai nghĩa nguyên nhân chính là do một từ thường có nhiều nghĩa, đôi khi do quá trình gióng hàng từ bị sai, dẫn đến các ngữ chứa trong bảng ngữ bị sai. Ngoài ra, nhiễu trong ngữ liệu cũng gây nên tình trạng này. Việc không dịch được từ tiếng Anh sang tiếng Việt xảy ra khi ngữ liệu không bao phủ được các câu kiểm tra. Trường hợp từ bị dịch sai nghĩa do từ có nhiều nghĩa có thể xét ví dụ sau: * I like reading book. + Tôi thích đọc sách. * Book early if you want good seats. + Đặt chỗ sớm nếu bạn muốn có chỗ ngồi tốt. Trang 43 Từ “book” trong câu đầu tiên được dịch đúng là “sách”. Tuy nhiên, từ “book” trong câu thứ hai bị dịch sai, hệ thống cho kết quả câu đầu ra là “Sách sớm nếu bạn muốn có chỗ ngồi tốt.” Khi so sánh sự khác biệt về từ loại của tiếng Anh và tiếng Việt, [1, tr. 46] phân tích và kết luận rằng từ loại thực từ và mang tính phổ quát như danh từ, động từ, tính từ và đại từ của hai ngôn ngữ có tính tương đồng. Xét trường hợp dịch sai ở trên, ta thấy đây là lỗi khi một từ có nhiều nghĩa. Để khắc phục lỗi này, luận văn sử dụng nhãn từ loại để khử nhập nhằng. Trong câu “I like reading book.” thì chữ “book” được gán nhãn là danh từ, khi dịch danh từ “book” ra tiếng Việt, chúng ta sẽ có được nghĩa đúng là “sách”. Trong câu “Book early if you want good seats.” thì chữ “book” được gán nhãn là động từ, khi dịch “book” động từ ra tiếng Việt, chúng ta sẽ có được nghĩa đúng là “đặt chỗ”. Vì vậy, trong phần thí nghiệm, luận văn khảo sát sự ảnh hưởng của nhãn từ loại tiếng Anh vào hệ dịch thống kê. 4.1.2. Thông tin biến cách của từ Do tiếng Anh thuộc ngôn ngữ biến hình và tiếng Việt thuộc ngôn ngữ đơn lập nên phương thức ngữ pháp dùng để biểu thị ý nghĩa ngữ pháp của hai ngôn ngữ cũng khác nhau [1, tr. 46]. Tiếng Anh dùng hình vị phụ tố, tiếng Việt dùng từ hư. Tuy nhiên hầu hết các trường hợp dẫn xuất và biến cách trong tiếng Anh đều có ánh xạ tương ứng sang tiếng Việt. [1] đưa ra danh sách đối chiếu hình thái từ cho các tiền tố, hậu tố của tiếng Anh và nghĩa tiếng Việt tương ứng. Dựa vào đặc điểm trên, luận văn khai thác thông tin phụ tố để cải tiến hệ dịch. Trường hợp từ không dịch được do từ không có trong ngữ liệu có thể chia làm hai dạng, dạng một là từ hoàn toàn không có trong ngữ liệu, cách khắc phục dạng này là mở rộng ngữ liệu huấn luyện. Dạng thứ hai là từ không có trong ngữ liệu nhưng biến cách của nó lại nằm trong ngữ liệu, ví dụ như hệ thống có thể dịch được từ “house” thành “ngôi nhà” nhưng lại không thể dịch được từ “houses” thành “những ngôi nhà”. Vì từ “house” và “houses” được hệ thống xem như là hai từ khác biệt, Trang 44 không có mối liên hệ nào với nhau. Để khắc phục khuyết điểm này, trong quá trình cài đặt, luận văn xem từ “houses” như là hai từ “house” và “s”. Như vậy, hệ thống có thể dịch được các từ dạng này mà không cần phải bổ sung mở rộng ngữ liệu song ngữ huấn luyện. Trong khuôn khổ của đề tài, luận văn khảo sát sự biến đổi kết quả dịch khi chuyển từ tiếng Anh về dạng nguyên mẫu và thêm thông tin phụ tố biến cách. Ngoài ra, luận văn còn thực thi thêm mô hình kết hợp chuyển về từ nguyên mẫu, thêm phụ tố và tích hợp nhãn từ loại vào câu tiếng Anh. 4.1.3. Sử dụng luật chuyển đổi trật tự Sử dụng kết quả nghiên cứu của ngành ngôn ngữ học so sánh, đối chiếu điểm tương đồng và khác biệt giữa tiếng Anh và tiếng Việt về hình thái từ [1], trật tự từ [2], luận văn áp dụng tập luật thủ công nhằm tạo sự tương đồng cho cặp câu song ngữ. Tiếng Anh có 5 loại ngữ chính là: danh ngữ (noun phrase), động ngữ (verb phrase), tính ngữ (adjective phrase), trạng ngữ (adverbial phrase) và ngữ giới từ (preposition phrase). Khi so sánh đối chiếu giữa hai ngôn ngữ, [2] chỉ ra các điểm khác biệt về trật tự từ giữa những từ trong ngữ. 4.1.3.1. Danh ngữ  Định từ (determiner) Trong danh ngữ, một số định từ đứng trước danh từ khi dịch sang tiếng Việt sẽ chuyển về cuối. Xét định từ “the”, thông thường từ này sẽ không được dịch. Ví dụ: the book  cuốn sách  the phone điện thoại Với các định từ “this”, “that”, “these”, “those”, khi đứng trước danh từ khi dịch sang tiếng Việt sẽ được chuyển về cuối. Ví dụ: This table  cái bàn này Trang 45  Those white rabbits những con thỏ trắng kia Dựa vào đặc điểm này, chúng tôi rút luật như sau: Trong danh ngữ, nếu định từ “this”, “that”, “these”, “those” đứng đầu thì sẽ được chuyển về cuối. Áp dụng luật chuyển đổi cho 2 ví dụ trên ta được: This table  table this Those white rabbits  white rabbits those  Tính từ bổ nghĩa trước danh từ chính (pre-modifier) Trong tiếng Anh, tính từ bổ nghĩa luôn đứng trước danh từ, trong khi đối với tiếng Việt, tính từ đứng sau danh từ. Xét các ví dụ sau: An interesting film  Một bộ phim hay  The small blue house Căn nhà nhỏ màu xanh Như vậy, luật được rút như sau: Trong danh ngữ, nếu tính từ hoặc tính ngữ đứng trước danh từ thì chuyển ra sau danh từ. Áp dụng luật cho 2 ví dụ trên, ta được: An interesting film  The small blue house An film interesting  The house small blue  Tính từ sở hữu (possessive adjective) Trong danh ngữ tiếng Anh, tính từ sở hữu đứng trước danh từ nhưng trong tiếng Việt, tính từ sở hữu đứng sau danh từ. Xét 2 ví dụ: My computer  Máy tính của tôi  Their children Con của họ Luật được rút ra là: Nếu trong danh ngữ có chứa tính từ sở hữu thì chuyển từ này về cuối. Áp dụng luật trên cho 2 ví dụ: Trang 46 My computer  Their children 1.1.1.1. computer my  children their Sở hữu cách (possessive case) Trong tiếng Anh, thứ tự của danh từ và sở hữu cách bị đảo ngược so với tiếng Việt: Mary’s box  Chiếc hộp của Mary  book’s cover Bìa của quyển sách Trong trường hợp, luật được rút ra là: Trong danh ngữ, nếu có sở hữu cách giữa hai danh từ thì sẽ đảo vị trí của hai danh từ. Áp dụng luật trên, ta được: Mary’s box  Book ‟s cover box „s Mary  cover „s book  Danh từ phụ (sub noun) Trong tiếng Anh, danh từ phụ đứng trước bổ nghĩa cho danh từ chính. Trong khi thứ tự trong tiếng Việt thì ngược lại. Nuclear weapons  vũ khí hạt nhân  Computer science khoa học máy tính Luật được rút ra là: Trong danh ngữ, nếu hai danh từ đứng liền nhau thì sẽ được đảo vị trí. Nếu áp dụng luật cho 2 ví dụ trên, ta được: Nuclear weapons  Computer science wepons nuclear  science computer 4.1.3.2. Động ngữ So sánh động ngữ của tiếng Anh và tiếng Việt, vị trí của các thành phần đa số là như nhau, trừ trường hợp phủ định của trợ động từ (modal verb) và một số trạng từ. Trang 47  Phủ định của trợ động từ Trong câu tiếng Anh có trợ động từ ở thể phủ định, trạng từ “not” đứng sau trợ động từ. Khi dịch sang tiếng Việt câu sẽ dịch trạng từ phủ định trước trợ động từ. Xét ví dụ sau: Could not  không thể  Should not không nên Từ nhận xét trên, chúng tôi rút ra luật: Trong động ngữ, nếu trợ động từ ở dạng phủ định thì sẽ đảo trạng từ phủ định lên trước trợ động từ. Cụm từ ở trên sẽ thay đổi sau khi áp dụng luật: Could not  Should not not could  not should  Trạng từ/ngữ Trạng từ/ngữ của động ngữ tiếng Anh nếu đứng trước động từ thì khi dịch sang tiếng Việt sẽ được đảo ra sau. Ví dụ: greatly influence  ảnh hưởng lớn  carefully design thiết kế một cách cẩn thận Do đó, chúng tôi rút ra luật như sau: Trong động ngữ, nếu trạng từ/ ngữ đứng trước động từ thì sẽ được chuyển ra sau động từ. Kết quả áp dụng luật cho ví dụ trên: greatly influence carefully design   influence greatly design carefully Trang 48 4.1.3.2. Tính ngữ  Trạng từ so sánh (comparative adverb, superlative adverb) Trong tiếng Anh có trạng từ so sánh hơn và trạng từ so sánh cực cấp. Khi có trạng từ này trong tính ngữ, câu được dịch sang tiếng Việt sẽ biểu thị mức so sánh sau cùng. Ví dụ:  The most expensive đắt nhất  More complex phức tạp hơn Luật được rút trích như sau: Nếu trong tính ngữ chứa trạng từ so sánh và tính từ thì trạng từ so sánh sẽ được chuyển ra sau cùng. Sau khi áp dụng luật cho ví dụ trên, ta được: The most expensive More complex   the expensive most complex more  Động từ/ ngữ Tương tự như trong động ngữ, nếu tính ngữ chứa trạng từ và động từ/ngữ thì tính trạng từ sẽ được đảo ra sau động từ/ngữ.  Danh ngữ Nếu tính ngữ chứa danh ngữ bổ nghĩa cho tính từ thì sẽ được chuyển danh ngữ ra sau tính từ. Xét ví dụ sau: (6 metters) long Cụm tính ngữ sẽ được đảo như sau: (6 metters) long 4.1.3.3.   dài 6 mét long (6 metters) Trạng ngữ Tương tự với tính ngữ, nếu trạng ngữ chứa trạng từ so sánh và trạng từ thì trạng từ so sánh sẽ được chuyển ra sau. Ví dụ: Trang 49 More importantly  The most specially 4.1.3.4. importantly more  the specially most Trật tự của các ngữ trong câu Trật tự của các ngữ trong câu tiếng Anh và tiếng Việt phần lớn là tương đồng với nhau. Câu ở dạng khẳng định thường có cấu trúc: S-V-O: Chủ ngữ - động từ - tân ngữ. Tuy nhiên tiếng Anh có dạng câu hỏi wh-question là những câu hỏi bắt đầu bằng đại từ nghi vấn: what, where, when, how, who, whom, which, whose. Trong khi câu nghi vấn tiếng Việt sẽ để những trợ từ này sau cùng. Dựa trên điểm khác biệt này, chúng tôi rút ra luật: Nếu có một trong những từ trên đứng đầu câu, tiếp theo sau là trợ động từ thì sẽ đảo vị trí trợ động từ và đại từ nghi vấn, sau đó chuyển nguyên cụm này ra cuối câu. Xét ví dụ sau: Câu input: Where are his friend „s books ? Câu sau khi được phân tích: [Where] [are] [his friend „s books] ? Sau khi áp dụng luật chuyển đổi trật tự các ngữ, câu trở thành: [his friend „s books] [are] [Where] ? Tương ứng với câu dịch tiếng Việt là: Mấy quyển sách của bạn anh ấy ở đâu ? 4.2. Thêm thông tin hình thái từ tiếng Việt 4.2.1. Thông tin ranh giới từ Tiếng Việt là ngôn ngữ đơn lập, việc xác định ranh giới từ không chỉ đơn thuần dựa trên khoảng trắng mà phải dựa vào ngữ cảnh và nghĩa của từ. Một ví dụ điển hình cho thấy nhập nhằng trong bài toán tách từ tiếng Việt: Học sinh học sinh học. Câu trên có thể được gán nhãn ranh giới từ như sau: Trang 50 Học_sinh học_sinh học. Hoặc là: Học_sinh học sinh_học. Trong mô hình máy thống kê dựa trên ngữ, hệ dịch thống kê tần suất xuất hiện của các cặp ngữ trong mô hình dịch và tính xác suất chuỗi từ trong mô hình ngôn ngữ. Việc rút ngữ không dựa vào tri thức ngôn ngữ mà chỉ đơn thuần là một dãy các token. Thiếu thông tin ranh giới từ có thể khiến từ bị gián đoạn trong các ngữ được rút ra. Do đó, chúng tôi khảo sát sự ảnh hưởng của thông tin ranh giới từ đến hệ dịch thống kê Anh – Việt. Câu tiếng Việt trong cặp câu song ngữ và câu tiếng Việt trong ngữ liệu đơn ngữ sẽ được tách từ. Xét cặp câu sau: * Conservation efforts to save the saola have faced numerous difficulties . + Những nỗ lực bảo tồn để cứu Sao la đã phải đối mặt với nhiều khó khăn . Câu tiếng Việt trong cặp câu đầu vào này sẽ được tách từ: * Conservation efforts to save the saola have faced numerous difficulties . + Những nỗ_lực bảo_tồn để cứu Sao_la đã phải đối_mặt với nhiều khó_khăn . 4.2.2. Thông tin từ loại Một trong những thành phần quan trọng trong hệ dịch thống kê là mô hình ngôn ngữ. Mô hình này có vai trò xác định câu dịch tự nhiên trong ngôn ngữ đích. Mô hình ngôn ngữ sử dụng phương pháp thống kê n-gram, sử dụng xác suất để dự đoán từ tiếp theo trong chuỗi từ cho trước và không quan tâm đến yếu tố ngôn ngữ. Mặc khác, mô hình dịch Factored SMT cho phép tích hợp thông tin khác trong mô hình ngôn ngữ được gọi là Factored language model (FLM). Một ưu điểm của FLM là có thể ước lượng xác suất của chuỗi từ chưa gặp trước đó. Trang 51 Để khảo sát ảnh hưởng của thông tin từ loại tiếng Việt, chúng tôi gán nhãn từ loại cho ngữ liệu đơn ngữ. Ngữ liệu này sẽ được thống kê để tạo thành mô hình ngôn ngữ. Xét ví dụ ở phần trên, câu tiếng Việt sẽ được gán nhãn như sau: * Conservation efforts to save the saola have faced numerous difficulties . + Những|Nq nỗ_lực|Nn bảo_tồn|Vv để|Cm cứu|Vv Sao_la|Nn đã|R phải|Vv đối_mặt|Vv với|Cp nhiều|Aa khó_khăn|Nn .|PU Khi đưa cặp câu này làm đầu vào cho hệ dịch Factored SMT, hệ thống sẽ học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt cùng với nhãn từ loại của tiếng Việt. Ngoài ra, hệ thống sẽ học hai mô hình ngôn ngữ: mô hình ngôn ngữ thống kê chuỗi từ và mô hình ngôn ngữ thống kê chuỗi từ loại. -0.4073871 đối_mặt với nhiều -0.1396443 đối_mặt với Hình 4.2. Mô hình ngôn ngữ từ vựng -0.2439401 Vv Cp Aa -0.5738485 Vv Cp Nn Hình 4.3. Mô hình ngôn ngữ từ loại Trong mô hình thứ hai, hệ thống học xác suất để dự đoán nhãn từ loại tiếp theo với chuỗi nhãn cho trước. Với các tham số này, hệ dịch có thể ước lượng cho các chuỗi từ mới chưa gặp trong ngữ liệu. 4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt Trong mô hình này, chúng tôi đưa thông tin từ loại cho cả hai phía tiếng Anh và tiếng Việt và đưa vào hệ dịch Factored SMT. Trang 52 Tiếng Anh Từ Từ loại Tiếng Việt Từ Từ loại Hình 4.4. Mô hình factored SMT tích hợp từ loại Trong quá trình huấn luyện, hệ thống học mô hình dịch từ sang từ (word-word), sau đó học mô hình dịch từ loại sang từ loại (POSPOS). Sau đó là quá trình kiểm tra chuỗi nhãn từ loại ở phía kết quả. Như vậy, ngoài xác suất dịch chuỗi từ dịch chuỗi từ loại luật cú pháp đơn giản trong dịch Anh – Việt. . Thông qua các tham Trang 53 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1. Ngữ liệu Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là ngữ liệu song ngữ Anh-Việt của nhóm VCL (Vietnamese Computation Linguistic). Ngữ liệu này thuộc nhiều chủ đề, bao gồm hơn 20.000 cặp câu và đã được chỉnh sửa bằng tay theo một số tiêu chuẩn sau: - Đồng bộ về mặt nội dung. - Đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng…). - Kiểm lỗi chính tả. - Giữ lại các dấu kí hiệu trong từ viết tắt. - Loại bỏ câu trùng. - Loại bỏ câu ngắn dưới 10 từ. Bảng sau mô tả các thông tin chi tiết về ngữ liệu. Bảng 5.1 Thông tin về ngữ liệu Số cặp câu Số token Chiều dài câu trung bình Số token phân biệt Tiếng Anh 542.328 23,58461 50.281 Tiếng Việt 745.449 32,41787 24.953 1.287.777 28,00124 Tổng cộng 22.996 Để đánh giá các mô hình, chúng tôi chia ngẫu nhiên ngữ liệu thành 10 phần, 9 phần dùng để huấn luyện hệ dịch, 0,5 phần dùng để điều chỉnh tham số và 0,5 dùng để kiểm chứng. Trang 54 5.2. Các công cụ Để huấn luyện các hệ dịch, chúng tôi sử dụng công cụ Moses [21] huấn luyện mô hình dịch thống kê dựa trên ngữ, dùng GIZA++ để huấn luyện cho mô hình gióng hàng từ và SRILM [4] để tạo mô hình ngôn ngữ. Để phân tích hình thái (phụ tố) từ tiếng Anh, chúng tôi sử dụng công cụ Morph. Và sử dụng công cụ SVMTool [13] để gán nhãn từ loại tiếng Anh (độ chính xác ~97%). Công cụ này dựa trên mô hình SVM (support vector machines) và được huấn luyện trên tập ngữ liệu Wall Street Journal. 5.3. Thí nghiệm Để so sánh hiệu quả của các mô hình, chúng tôi thực thi hệ dịch thống kê dựa trên ngữ làm cơ sở. Kết quả thực nghiệm của các mô hình tích hợp thông tin hình thái từ vào hệ dịch như sau: 5.3.1. Tích hợp thông tin hình thái từ trong câu tiếng Anh 5.3.1.1. Thêm thông tin hình thái từ Trong phần thí nghiệm, luận văn khảo sát thông tin hình thái từ của tiếng Anh bao gồm: từ loại, nguyên mẫu và phụ tố. Bảng 5.2 mô tả kết quả dịch của hệ Anh – Việt khi thêm các thông tin này vào câu nguồn. Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn BLEU NIST TER Hệ cơ sở 43,31 9,8269 37,914 Thêm từ loại 42,68 9,7634 38,335 Tách thành nguyên mẫu và phụ tố 41,72 9,5169 39,754 Tách thành nguyên mẫu và phụ tố + Thêm từ loại 42,48 9,6482 38,855 Trang 55 Từ bảng kết quả trên, ta có thể nhận thấy hệ dịch khi tích hợp thêm thông tin từ loại và biến đổi từ thành nguyên mẫu và phụ tố làm giảm hiệu quả của hệ dịch. i. Ảnh hưởng của thông tin từ loại trong câu tiếng Anh: Kết quả thực nghiệm cho thấy thông tin từ loại cải thiện một số kết quả dịch. Ta có thể xét một số ví dụ sau: Ví dụ 1: A project to build Ha Long into a smoke - free tourist city started Tiếng Anh in Ha Long city , northern coastal Quang Ninh province on Sept . Một dự án xây dựng Hạ Long thành một thành phố du lịch không Tiếng Việt khói thuốc đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng chín . Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố Baseline du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 . A|a|DT project|project|NN to|to|TO build|build|VB Ha|ha|NNP Long|long|NNP into|into|IN a|a|DT smoke|smoke|NN -|-|: Tiếng Anh POS free|free|JJ tourist|tourist|NN city|city|NN started|start|VBD in|in|IN Ha|ha|NNP Long|long|NNP city|city|NN ,|,|, northern|northern|JJ coastal|coastal|JJ Quang|Quang|NNP Ninh| Ninh|NNP province|province|NN on|on|IN Sept|Sept|NNP .|.|. Một dự án để xây dựng Hạ Long vào một không khói thuốc POS thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 . Ví dụ 2: Ngữ liệu However , it ' s unclear if Hoang will play today because Calisto Trang 56 has stated that he will not risk his player . Tuy nhiên , không rõ liệu Hoàng sẽ chơi ngày hôm nay không vì Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối với cầu thủ của ông . Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì Baseline Calisto đã nói rằng ông sẽ không có nguy cơ đối thủ . However|however|RB ,|,|, it|it|PRP '|'|'' s|s|VBZ unclear|unclear|JJ if|if|IN Hoang|Hoang|NNP will|will|MD play|play|VB today|today|NN because|because|IN Calisto|Calisto|NNP Thêm từ loại has|have|VBZ stated|state|VBN that|that|IN he|he|PRP tiếng Anh will|will|MD not|not|RB risk|risk|VB his|his|PRP$ player|player|NN .|.|. Tuy nhiên , nó không rõ ràng nếu Hoàng sẽ chơi ngày hôm nay vì Calisto đã tuyên bố rằng ông sẽ không mạo hiểm đối thủ . Tuy nhiên, thông tin từ loại đã dẫn đến kết quả dịch tệ hơn hệ cơ sở do các lý do sau: o Mỗi từ tiếng Anh có thể có nhiều hơn một nhãn từ loại. Nhưng ngữ liệu không thể bao quát được hết mọi trường hợp. Do đó, với cùng một từ đã xuất hiện trong ngữ liệu huấn luyện nhưng được đánh nhãn từ loại chưa gặp, hệ dịch xem như là một từ mới và không dịch được. Ví dụ: The Control Board may use independent consultants to perform assigned duties . Ngữ liệu Ban kiểm soát có thể sử dụng các nhà tư vấn tự do để thực hiện các nhiệm vụ được giao . Baseline Ban kiểm soát có thể sử dụng độc lập consultants để thực hiện Trang 57 các nhiệm vụ được giao . The|the|DT Control|control|NNP Board|board|NNP may|may|MD use|use|VB independent|independent|JJ Thêm từ loại consultants|consultant|NNS to|to|TO perform|perform|VB tiếng Anh assigned|assign|JJ duties|duty|NNS .|.|. Ban kiểm soát có thể sử dụng độc lập consultants để thực hiện assigned nhiệm vụ . Từ “assigned” trong ngữ liệu huấn luyện được đánh nhãn VBN, động từ ở dạng quá khứ phân từ nhưng chưa gặp trường hợp từ “assigned” được đánh nhãn JJ, tính từ. o Trường hợp công cụ gán nhãn sai cũng tạo nên câu dịch tệ hơn. Vì khi kết hợp với nhãn sai, từ tiếng Anh cũng tạo nên từ chưa gặp trong ngữ liệu. Xét ví dụ sau: Hitler also has a devastating new weapon to unveil - the magnetic mine , dropped into the sea from the air to cling to a passing vessel and explode . Ngữ liệu Hitler cũng có một loại vũ khí tàn phá mới để công bố - mỏ từ trường , bị bỏ vào trong biển từ trên không để bám víu vào một con tàu đi qua và nổ . Hitler cũng đã tàn phá vũ khí mới để công bố - magnetic mỏ , Baseline giảm xuống vào biển từ không khí để cling đến một thông qua các tàu và explode . Hitler|hitler|NNP also|conjurer|RB has|have|VBZ a|a|DT devastating|devastate|VBG new|new|JJ weapon|weapon|NN Thêm từ loại to|to|TO unveil|unveil|VB -|-|: the|the|DT magnetic|magnetic|JJ tiếng Anh mine|mine|NN ,|,|, dropped|drop|VBD into|into|IN the|the|DT sea|sea|NN from|from|IN the|the|DT air|air|NN to|to|TO cling|cling| VB to|to|TO a|a|DT passing|pass|NN vessel|vessel|NN Trang 58 and|and|CC explode|explode|VB .|.|. Hitler cũng có một tàn phá vũ khí mới để công bố - magnetic mỏ , giảm xuống vào biển từ không khí để cling đến một passing tàu và explode . o Ngoài ra, do hệ dịch chọn lựa ngữ dịch tương ứng dựa trên nhãn từ loại nên nhãn từ loại sai dẫn đến câu dịch cũng sai. Ví dụ: When Spring comes , Sa Dec bonsai village also starts its Ngữ liệu festival . Khi mùa xuân đến , làng cây cảnh Sa Đéc cũng bắt đầu lễ hội của nó . Baseline Khi mùa xuân đến , Sa Đéc cây cảnh làng cũng bắt đầu của nó lễ hội . When|when|WRB Spring|spring|NNP comes|come|VBZ ,|,|, Sa|Sa|NNP Dec|Dec|NNP bonsai|bonsai|NN village|village|NN Thêm từ loại also|conjurer|RB starts|start|VBZ its|its|PRP$ festival|festival|NN tiếng Anh .|.|. Khi Lương đến , Sa Đéc cây cảnh làng cũng bắt đầu của nó lễ hội . Từ được đánh nhãn sai làm ảnh hưởng kết quả gióng hàng từ. Nếu từ không được gióng hàng sẽ không được thống kê, do đó khi dịch hệ thống không gặp khi tra phrase-table dẫn đến từ không được dịch. ii. Ảnh hưởng của biến đổi từ thành nguyên mẫu và phụ tố Mặc dù việc phân tích từ tiếng Anh sang nguyên mẫu và phụ tố có cải thiện kết quả dịch so với hệ dịch cơ sở. Nhưng kết quả phân tích cũng tạo nên từ/ngữ chưa gặp trong ngữ liệu huấn luyện nên kết quả dịch nhìn chung bị giảm. Trang 59 Sau đây là hai ví dụ cho thấy ảnh hưởng tích cực của phép phân tích. Ví dụ 1: No matter what happens , we ' ll be as well prepared as we can be given the enormous potential for crowds . Ngữ liệu Dù bất kỳ vấn đề nào xảy ra , chúng tôi sẽ chuẩn bị tốt khi chúng tôi có thể được đưa ra tiềm năng to lớn cho đám đông . Không có vấn đề về những gì sẽ xảy ra , chúng tôi sẽ là cũng Baseline được chuẩn bị vì chúng tôi có thể được đưa ra các rất lớn tiềm năng cho các crowds . No matter what happen s , we 'll be as well prepare ed as we can Tách từ tiếng be give en the enormous potential for crowd s . Anh thành nguyên mẫu và phụ tố Không có vấn đề những gì xảy ra , chúng tôi sẽ là cũng như được chuẩn bị như chúng tôi có thể được đưa ra những lớn tiềm năng cho đám đông . Ví dụ 2: The boat cruises down the canal making stops at points of interest along the way . Ngữ liệu Các chuyến đi tàu xuống kênh dừng tại các điểm thú vị trên đường đi . Các thuyền cruises xuống kênh làm dừng tại điểm của sự quan Baseline tâm dọc theo đường . Tách từ tiếng The boat cruise s down the canal make ing stop s at point s of Anh thành interest along the way . nguyên mẫu Các thuyền đi xuống các kênh làm việc dừng tại điểm quan tâm và phụ tố dọc theo đường . o Tuy nhiên, kết quả dịch tệ hơn so với hệ cơ sở trong các trường hợp sau: Trang 60 Ngữ liệu Tasmania has long been a location for cloud seeding programs , following apparent success with the programs in the 1960 's and 1970 's when significant rainfall increases of more than 30 percent were measured and reported by CSIRO scientists . Tasmania từ lâu đã là nơi cho các chương trình tạo mưa nhân tạo , sau thành công rực rỡ với các chương trình trong những năm 1960 và 1970 khi lượng mưa tăng lên đáng kể với hơn 30 phần trăm được đo và báo cáo bởi các nhà khoa học CSIRO . Baseline Tasmania từ lâu đã được một địa điểm cho các đám mây chương trình tạo mưa nhân tạo , sau đây rõ ràng thành công với các chương trình trong những năm 1960 của và 1970 của khi quan trọng lượng mưa tăng hơn 30 phần trăm đã được đo và báo cáo của cây trồng các nhà khoa học . Tasmanium s have s long be en a location for cloud seed ing program s , follow ing apparent success with the program s in the 1960 ' s and 1970 ' s when significant rainfall increase s of Tách từ tiếng more than 30 percent be ed measure ed and report ed by CSIRO Anh thành scientist s . nguyên mẫu Tasmania đã lâu dài được một địa điểm cho đám mây hạt giống và phụ tố các chương trình , đi theo rõ ràng thành công với các chương trình trong thập niên 1960 của và 1970 của khi quan trọng lượng mưa tăng của hơn 30 phần trăm đã được đo và báo cáo của CSIRO các nhà khoa học . o Do công cụ phân tích từ về nguyên mẫu dựa trên kết quả gán nhãn từ loại nên nhãn từ loại sai sẽ dẫn đến kết quả phân tích sai. Professor Johnson was not involved in the study but wrote an Ngữ liệu accompanying article in the same issue of Science , outlining its Trang 61 significance . Giáo sư Johnson đã không tham gia vào nghiên cứu này , nhưng đã viết một bài báo đi kèm trong cùng một ấn bản Khoa học , phác thảo ra ý nghĩa của nó . Giáo sư Johnson đã không tham gia vào việc nghiên cứu , nhưng Baseline đã viết một đi kèm bài viết trong cùng một vấn đề về Khoa học , phác thảo của nó có ý nghĩa . Professor Johnson be ed not involve ed in the study but write ed Tách từ tiếng an accompanying article in the same issue of Science , outline Anh thành ing its significance . nguyên mẫu Giáo sư Johnson là không liên quan đến việc nghiên cứu , nhưng và phụ tố đã viết một accompanying bài viết trong cùng một vấn đề của Khoa học , phác thảo của nó có ý nghĩa . Như vậy, việc tích hợp thông tin từ loại và hình thái của tiếng Anh đã có cải thiện kết quả dịch trong một số trường hợp. Tuy nhiên, kết quả dịch vẫn phụ thuộc rất nhiều vào hiệu quả của các công cụ đánh nhãn từ loại và phân tích hình thái. Do đó, từ trong câu tiếng Anh bị phân tích sai dẫn đến nhiều trường hợp câu dịch tệ hơn hệ cơ sở. Mặc khác, ngữ liệu không bao phủ hết các nhãn từ loại của từ cũng dẫn đến hệ dịch không hiệu quả. 5.3.1.2. Chuyển đổi trật tự từ Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ BLEU Hệ cơ sở Chuyển đổi trật tự NIST TER 43,31 9,8269 37,914 45,88 9,9461 36,429 Trang 62 Bảng 5.3 hiển thị kết quả dịch của hệ dịch áp dụng luật chuyển đổi trật tự. Kết quả cho thấy khi dùng luật chuyển đổi, hiệu quả dịch cao hơn so với hệ cơ sở. Kết quả gióng hàng từ cho thấy, sau khi áp dụng luật chuyển đổi trật tự cho câu nguồn, số lượng gióng hàng chéo giảm đáng kể. Do câu tiếng Anh đã được thay đổi vị trí sao cho gần giống với tiếng Việt nhất. Nhờ vậy, hệ thống dịch hiệu quả hơn. Our training time is too long and could limit the doctors ' motivation and waste our medical talent . Ngữ liệu Thời gian đào tạo của chúng tôi là quá dài và có thể giới hạn động cơ của các bác sĩ và lãng phí tài năng y học của chúng ta . của chúng tôi đào tạo thời gian là quá lâu dài và có thể giới hạn Baseline sự bác sĩ của động lực và chất thải của chúng tôi y tế tài năng . time training Our is too long and could limit the motivation ' doctors and waste talent medical our . Chuyển đổi thời gian đào tạo của chúng tôi là quá lâu dài và có thể giới hạn trật tự sự động lực của các bác sĩ và chất thải tài năng y tế của chúng tôi . But his real interest remains in the distant provinces of the empire . Ngữ liệu Nhưng sự quan tâm thực sự của ông vẫn còn ở các tỉnh xa xôi của đế quốc . Baseline Nhưng ông thực sự quan tâm vẫn còn ở xa xôi tỉnh của đế quốc . But interest real his remains in the provinces distant of the Chuyển đổi empire . trật tự Nhưng sự quan tâm thực sự của ông vẫn còn ở các tỉnh xa xôi Trang 63 của đế quốc . Tuy nhiên, không phải trường hợp áp dụng luật nào cũng cải thiện được hệ dịch. Vì không phải luật nào cũng bao quát được mọi trường hợp. Luật được áp dụng sai dẫn đến lượng gióng hàng chéo trong câu lại tăng lên, kéo theo kết quả dịch tệ hơn so với hệ dịch cơ sở. In the plan toward the year 2010 , Vietnam National Administration of Tourism declares Van Phong as " the most important region for tourism development " . Ngữ liệu Trong kế hoạch hướng tới năm 2010 , Tổng cục Du lịch Việt Nam công bố Văn Phong là khu phát triển du lịch quan trọng nhất . Baseline Trong các kế hoạch hướng đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố Vân Phong là " quan trọng nhất của khu vực cho phát triển du lịch " . In the plan toward the year 2010 , Vietnam National Administration of Tourism declares Van Phong as " the most Chuyển đổi trật tự region important for tourism development " . Trong các kế hoạch đến năm 2010 , Việt Nam Tổng cục Du lịch tuyên bố Vân Phong là " hầu hết các khu vực quan trọng cho phát triển du lịch " . 5.1.1.1. Thêm thông tin hình thái từ trong câu tiếng Việt Thông tin hình thái từ của tiếng Việt được khảo sát bao gồm ranh giới từ và từ loại. i. Phân đoạn từ trong câu tiếng Việt Kết quả dịch của các mô hình tách từ cho tiếng Việt như sau: Trang 64 Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt BLEU Hệ cơ sở Tách từ tiếng Việt Đổi trật tự từ tiếng Anh Đổi trật tự từ tiếng Anh + Tách từ tiếng Việt NIST TER 43,31 9,8269 37,914 44,19 9,9079 37,103 45,88 9,9461 36,429 46,49 10,0107 35,850 Kết quả cho thấy hệ dịch được cải thiện nếu khi gán nhãn ranh giới từ cho câu tiếng Việt. Khi kết hợp chuyển đổi trật tự từ ở câu tiếng Anh và phân đoạn từ tiếng Việt, kết quả được cải tiến đáng kể. Hiệu quả dịch được nâng cao do số liên kết gióng hàng từ 1 − (liên kết giữa 1 token với nhiều token) giảm đáng kể và từ trong các ngữ được rút ra không bị gián đoạn. Nhờ vậy, hệ dịch có thể thống kê các cặp ngữ chính xác hơn và tìm kiếm câu dịch tốt hơn. Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình Tổng số liên kết Cơ sở Số liên kết trung bình trong câu 771.492 37,74 Tách từ tiếng Việt 616.846 30,18 Đổi trật tự tiếng Anh 770.424 37,69 616.589 30,16 Đổi trật tự tiếng Anh + Tách từ tiếng Việt Sau đây là một số ví dụ cho kết quả gióng hàng từ của hệ cơ sở và hệ dịch có câu tiếng Việt được tách từ: Ví dụ 1: Trang 65 All industrial and processing zones must have waste treatment systems . Tất_cả các khu công_nghiệp hệ_thống xử_lý chất_thải . và khu chế_xuất phải có các Kết quả gióng hàng từ hệ baseline: 0-0 0-1 4-2 4-3 1-4 1-5 2-6 3-7 4-7 3-8 3-9 5-10 6-11 9-13 9-14 8-15 8-16 7-17 7-18 10-19 All industrial and processing zones must have waste treatment systems . Tất cả các khu công nghiệp và khu chế xuất phải có các hệ thống xử lý chất thải . Kết quả gióng hàng từ của hệ dịch khi tách từ: 0-0 4-2 1-3 2-4 4-5 3-6 5-7 6-8 9-10 8-11 7-12 10-13 All industrial and processing zones must have waste treatment systems . Tất_cả các khu công_nghiệp và khu chế_xuất phải có các hệ_thống xử_lý chất_thải . Ví dụ 2: On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists can catch a view of deserted sand dunes and peaceful villages. Trên đường đến Ninh Thuận , các tỉnh các du khách miền trung có thể của bắt tỉnh gặp Bình cảnh Thuận và một cồn cát hoang vu và những ngôi làng yên bình . Kết quả gióng hàng từ của hệ cơ sở: 0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 6-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15 14-16 14-17 15-18 15-19 16-20 16-21 18-22 1723 22-24 21-25 20-26 20-27 23-28 22-29 25-30 25-31 24-32 24-33 26-34 Trang 66 On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists Trên đường đến các tỉnh miền trung của tỉnh Bình Thuận và Ninh Thuận , các du khách can catch a view of deserted sand dunes and peaceful villages . có thể bắt gặp cảnh một cồn cát hoang vu và những ngôi làng yên bình . Kết quả gióng hàng từ của hệ có tách từ tiếng Việt: 0-0 2-1 3-2 4-3 6-4 5-5 5-6 7-7 8-8 10-10 11-11 12-11 13-12 14-13 14-14 15-15 16-16 18-17 17-18 22-19 21-20 20-21 23-22 25-24 2525 24-26 26-27 On the way to the central provinces of Binh Thuan and Ninh Thuan , tourists Trên đường đến các tỉnh miền trung của tỉnh Bình_Thuận và Ninh_Thuận , các du_khách can catch a view of deserted sand dunes and peaceful villages . có_thể bắt_gặp cảnh một cồn cát hoang_vu và những ngôi làng yên_bình . Sau đây là một số kết quả dịch của hệ dịch cơ sở và hệ dịch có tách từ tiếng Việt: Each member of the Management Board shall have a single vote . Ngữ liệu Mỗi thành viên của Hội đồng quản trị sẽ có một phiếu bầu duy nhất . Cơ sở Tách từ Mỗi một thành viên của Hội đồng quản trị sẽ có duy nhất có một phiếu biểu quyết . Mỗi thành_viên của Hội_đồng_quản_trị sẽ có một phiếu bầu duy_nhất . Trang 67 Tasmania has long been a location for cloud seeding programs , following apparent success with the programs in the 1960 's and 1970 's when significant rainfall increases of more than 30 percent were measured and reported by CSIRO scientists . Ngữ liệu Tasmania từ lâu đã là nơi cho các chương trình tạo mưa nhân tạo , sau thành công rực rỡ với các chương trình trong những năm 1960 và 1970 khi lượng mưa tăng lên đáng kể với hơn 30 phần trăm được đo và báo cáo bởi các nhà khoa học CSIRO . Tasmania từ lâu đã được một địa điểm cho các đám mây chương trình tạo mưa nhân tạo , sau đây rõ ràng thành công với các Cơ sở chương trình trong những năm 1960 của và 1970 của khi quan trọng lượng mưa tăng hơn 30 phần trăm đã được đo và báo cáo của cây trồng các nhà khoa học . Tasmania từ lâu đã được một địa_điểm cho chương_trình tạo mưa nhân_tạo , sau đây rõ_ràng thành_công với các Tách từ chương_trình trong những năm 1960 của và 1970 của khi đáng_kể lượng mưa tăng hơn 30 phần_trăm đã được đo và báo_cáo của CSIRO các nhà khoa_học . ii. Tích hợp thông tin từ loại trong câu tiếng Việt Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt BLEU Hệ cơ sở Thêm từ loại tiếng Việt Đổi trật tự từ tiếng Anh Đổi trật tự từ tiếng Anh + Thêm từ loại tiếng Việt NIST TER 43,31 9,8269 37,914 42,58 9,7837 38,072 45,88 9,9461 36,429 44,99 Trang 68 9,8972 36,864 Kết quả cho thấy hệ dịch khi thêm thông tin từ loại vào phía tiếng Việt làm giảm hiệu quả so với hệ cơ sở. Tiếng Anh Tiếng Việt Từ Từ Từ loại Đối với mô hình này, hệ thống học mô hình dịch từ từ tiếng Anh sang từ tiếng Việt. Sau đó, hệ sẽ phát sinh từ loại cho từ tiếng Việt này. Bộ giải mã chọn câu tiếng Việt đã được gán nhãn từ loại có xác suất cao nhất dựa vào mô hình dịch, mô hình ngôn ngữ của từ và mô hình ngôn ngữ của từ loại. Như vậy, hệ dịch này khác với hệ dịch cơ sở ở chỗ là chịu ảnh hưởng của mô hình ngôn ngữ của từ loại. Khi khảo sát kết quả, chúng tôi nhận thấy kết quả phát sinh từ loại cho câu tiếng Việt không chính xác, dẫn đến kết quả dịch cũng tệ hơn so với hệ cơ sở. Ví dụ: From Belgium we got to know that : " it might be interesting for you to know that currently an application for a field trial with GM poplar trees is [ being ] considered . Ngữ liệu Từ Bỉ , chúng_tôi đã cho_biết rằng : " có_thể rất thú_vị khi bạn biết rằng hiện_nay một ứng_dụng cho thử_nghiệm bên ngoài với GM cây dương là [ đang ] được xem_xét . Từ Bỉ , chúng_tôi nhận được biết rằng : " nó có_thể được thú_vị Tách từ tiếng Việt cho bạn biết rằng hiện đơn xin cho một thử_nghiệm bên ngoài với biến_đổi gen cây dương là [ được coi là ] . Thêm từ loại Từ|Cm Bỉ|Nr ,|PU chúng_tôi|Pp đã|R nhận|Vv được|M biết|Vv tiếng Việt rằng|Cp :|PU "|PU nó|Pp có_thể|Aa được|Vv thú_vị|Aa cho|Cp Trang 69 bạn|Pp biết|Vv rằng|Cp hiện|Vv đơn|Nn xin|Vv cho|Cp một|Nq thử_nghiệm|Nn bên|Nn ngoài|Nn với|Cp biến_đổi|Nn gen|Nn cây|Nn dương|Aa là|Vc [|PU được|Vv ]|PU xem_xét|Vv .|PU Mặc khác, kết quả dịch bị chi phối rất nhiều bởi mô hình nhãn từ loại. Do xác suất n-gram của từ loại thường lớn hơn xác suất của chuỗi từ. Xét câu dịch sau: Earlier , Hung signed a decision to take legal action over the illegal transport and purchase of wild animals and handed over both of the suspects and the evidence to the Lac Duong district Ngữ liệu police for investigation . Trước đó , Hưng đã ký một quyết_định để thực_hiện hành_động pháp_lý đối_với việc vận_tải và mua_bán bất_hợp_pháp động_vật hoang_dã và giao_nộp cả hai nghi_phạm và chứng_cứ cho công_an huyện Lạc_Dương để điều_tra . Trước đó , Hưng đã ký một quyết_định để thực_hiện hành_động pháp_lý trong việc vận_chuyển và mua các động_vật hoang_dã Cơ sở và bàn_giao cả các nghi_phạm và bằng_chứng đến Lạc_Dương huyện cảnh_sát để điều_tra . Trước|Nn đó|Pd ,|PU ông|Nn Hùng|Nr đã|R ký|Vv một|Nq quyết_định|Nn để|Cm thực_hiện|Vv các|Nq hành_động|Nn pháp_lý|Nn trong|Cm việc|Nc vận_chuyển|Vv và|Cp mua|Vv Thêm từ loại tiếng Việt của|Cm các|Nq loài|Nn động_vật|Nn hoang_dã|Aa và|Cp bàn_giao|Vv cả|Pp của|Cm các|Nq nghi_phạm|Nn và|Cp bằng_chứng|Nn đến|Cm Lạc_Dương|Nr huyện|Nu cảnh_sát| Nn cho|Cp điều_tra|Vv .|PU Xác suất chuỗi nhãn từ loại trong mô hình ngôn ngữ: Trang 70 -0.8658289 Vv Nq Nn Nn Aa -0.5041147 Vv Cm Nq Nn Nn Rõ ràng xác suất 5-gram của chuỗi từ loại sau cao hơn, dẫn đến hệ dịch chọn câu dịch tệ hơn. Sau đây là ví dụ khác cho thấy ảnh hưởng của mô hình ngôn ngữ từ loại. Under the monoculture plantation approach , the rubber farmers must obey and follow the instructions given to them . Ngữ liệu Theo phương_pháp đồn_điền độc_canh , nông_dân trồng cây cao_su phải tuân theo những hướng_dẫn được giao cho họ . Theo các đồn_điền độc_canh tiếp_cận , những người nông_dân Cơ sở trồng cây cao_su phải tuân theo và làm theo hướng_dẫn được trao cho họ . Theo|Vv các|Nq đồn_điền|Nn độc_canh|Vv tiếp_cận|Vv ,|PU Thêm từ loại tiếng Việt cao_su|Nn nông_dân|Nn phải|Vv tuân|Nn theo|Vv và|Cp làm|Vv theo|Vv hướng_dẫn|Nn được|Vv trao|Vv cho|Cp họ|Pp .|PU 5.1.1.2. Thêm thông tin hình thái từ cho cả tiếng Anh và tiếng Việt Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh và tiếng Việt Hệ cơ sở Từ loại tiếng Anh, từ loại tiếng Việt Từ loại, tách nguyên mẫu tiếng Anh, từ loại tiếng Việt Trang 71 BLEU 43,31 40,08 42,12 NIST 9,8269 9,781 9,8169 TER 37,914 38,728 38,254 Tiếng Anh Tiếng Việt Từ Từ Từ loại Từ loại Trong mô hình này, hệ thống dịch từ sang từ và từ loại sang từ loại bằng hai mô hình dịch độc lập. Hiệu quả dịch của mô hình này giảm đáng kể so với hệ cơ sở. Nguyên nhân làm giảm hiệu quả dịch là do ảnh hưởng của mô hình ngôn ngữ từ loại, nếu chuỗi từ loại phát sinh sai dẫn đến kết quả dịch cũng sai. Từ loại của câu đích sai do 2 nguyên nhân: o Từ loại trong câu nguồn sai, dẫn đến hệ thống dịch sang câu đích cũng sai. Ví dụ: "|"|NN Even|even|RB with|with|IN a|a|DT strong|strong|JJ monsoon|monsoon|NN system|system|NN circulation|circulation|NN enough|enough|RB ,|,|, changes|change|NNS to|to|TO change|change|VB where|where|WRB and|and|CC when|when|WRB Tiếng Anh if|if|IN rain|rain|NN is|be|VBZ delivered|deliver|VBN ,|,|, then|then|RB that|that|WDT could|could|MD that|that|WDT have|have|VB has|have|VBZ an|a|DT impact|impact|NN not|not|RB been|be|VBN captured|capture|VBN in|in|IN the|the|DT large|large|JJ -|-|: scale|scale|NN evaluations|evaluation|NNS ,|,|, "|"|NN Ashfaq|Ashfaq|NNP said|say|VBD .|.|. "|Nn Ngay_cả|Aa với|Cm một|Nq mạnh_mẽ|Nn gió_mùa|Nn hệ_thống|Nn ,|PU nếu|Cm lưu_thông|Nn thay_đổi|Nn đủ|Aa Tiếng Việt để|Cm thay_đổi|Vv nơi|Nt và|Cp khi|Nt mưa|Nn được|Vv giao|Vv ,|PU sau|Aa đó|Vc có_thể|R có|Vv một|Nq tác_động|Nn mà|Cp đã|R không|R được|Vv giữ|Vv trong|Cm quy_mô|Aa lớn|Nn đánh_giá|Nn ,|PU "|Nn Ashfaq|Ashfaq|NNP|UNK nói|Vv .|PU Trang 72 o Mô hình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt không chính xác. Do hai ngôn ngữ này khác biệt nhiều về đặc điểm hình thái từ. Matthew|matthew|NNP Huber|Huber|NNP ,|,|, assistant|assistant| JJ professor|professor|NN of|of|IN earth|earth|NN and|and|CC atmospheric|atmospheric|JJ Tiếng Anh sciences|science|NNS at|at|IN Purdue|Purdue|NNP University|university|NNP ,|,|, says|say|VBZ no|no|DT evidence| evidence|NN of|of|IN global|global|JJ cooling|cool|NN during| during|IN the|the|DT period|period|NN had|have|VBD been|be| VBN found|find|VBN .|.|. Matthew|matthew|NNP|UNK Huber|Nr ,|PU trợ_lý|Nn giáo_sư|Aa Cm trái_đất|Nn và|Cp khí_quyển|Nn Tiếng Việt của| khoa_học|Nn tại|Cm Đại_học|Nn Purdue|Nr ,|PU nói|Vc không|Nq bằng_chứng|Nn của|Cm toàn_cầu|Aa mát|Nn trong|Cm thời_kỳ|Nn này|Pd đã|R được|Vv tìm|Vv thấy|Vv .|PU Several|several|JJ other|other|JJ areas|area|NNS along|along|IN Phu|Phu|NNP Tiếng Anh Quoc|Quoc|NNP Park|park|NNP 's|'s|POS Ham|Ham|NNP Ninh|Ninh|NNP National|national|NNP border|border|NN with|with|IN Commune|Commune|NNP were|be|VBD found|find|VBN with|with|IN newly|newly|RB -|-|: cut|cut|NN stumps|stump|NNS and|and|CC cleared|clear|VBD hillsides|hillside|NNS .|.|. Một_số|Aa các|Nq khu_vực|Nn khác|Aa dọc|Cm Vườn_quốc_gia|Nn Phú_Quốc|Nr của|Cm biên_giới|Nn với|Cm Tiếng Việt xã| Nn Hàm_Ninh|Nr được|R tìm|Vv thấy|Vv với|Cm vừa|Aa - |PU cắt_giảm|Nn gốc| Nn và|Cp khai_hoang|Vv sườn|Nq đồi|Nn .|PU Trang 73 Once|once|RB the|the|DT team|team|NN identified|identify|VBD the|the|DT global|global|JJ cooling|cool|NN ,|,|, the|the|DT Tiếng Anh next|next|JJ step|step|NN was|be|VBD to|to|TO find|find|VB what|what|WP caused|cause|VBD it|it|PRP .|.|. Một_khi|R các|Nq nhóm|Nn xác_định|Vv toàn_cầu|Aa mát|Nn ,|PU tiếp_theo|Aa bước|Vv là|Vv để|Cm tìm|Vv những|Nq gì|Nn Tiếng Việt đã|R gây|Vv ra|R nó|Pp .|PU 4.4. Tóm tắt kết quả thí nghiệm Như vậy, kết quả khảo sát ảnh hưởng của thông tin hình thái từ vào hệ dịch thống kê Anh – Việt có thể tóm tắt lại như sau: - Thông tin hình thái từ của tiếng Anh: o Tích hợp trực tiếp từ loại và biến đổi hình thái từ: Hệ dịch có thể khử nhập nhằng nhờ thông tin từ loại và giảm số từ chưa gặp khi biến đổi về dạng nguyên mẫu. Tuy nhiên, do kết quả phụ thuộc vào độ chính xác của công cụ và độ bao phủ của ngữ liệu nên kết quả dịch vẫn chưa cải tiến được so với hệ cơ sở. Chuyển đổi trật tự từ dựa trên từ loại: Kết quả dịch được cải thiện o đáng kể do câu nguồn được chuyển đổi trật tự nhằm tạo sự tương đương với câu đích. - Thông tin hình thái từ của tiếng Việt: Gán nhãn ranh giới từ: Chất lượng dịch tăng lên so với hệ cơ sở do khi o nối các tiếng trong từ của câu tiếng Việt, số liên kết gióng hàng từ 1 – nhiều giảm đáng kể và kết quả thống kê trong mô hình dịch cũng như mô hình ngôn ngữ chính xác hơn do từ không bị gián đoạn trong quá trình rút trích ngữ. o Gán nhãn từ loại: Kết quả dịch giảm do hệ dịch phụ thuộc vào kết quả gán nhãn và mô hình ngôn ngữ của từ loại tiếng Việt. Trang 74 - Thông tin hình thái từ cho cả tiếng Anh và tiếng Việt: o Chất lượng dịch của mô hình factored SMT giảm đáng kể so với hệ cơ sở do quá trình dịch từ từ loại tiếng Anh sang từ loại tiếng Việt thiếu chính xác. Điều này dẫn đến hệ thống chọn ra câu dịch tệ hơn so với hệ cơ sở. Ngoài ra, khảo sát kết quả của các mô hình khi tích hợp các thông tin hình thái từ, mô hình chuyển đổi trật tự cho câu tiếng Anh và gán nhãn từ loại cho tiếng Việt đạt kết quả dịch cao nhất, điểm BLEU tăng từ 43,31 lên 46,49. Trang 75 CHƯƠNG 6: KẾT LUẬN Trong đề tài này chúng tôi đã tích hợp các tri thức ngôn ngữ về hình thái từ vào trong dịch máy thống kê Anh - Việt. Hệ thống đạt chất lượng dịch tốt nhất khi áp dụng luật chuyển đổi trật tự dựa trên thông tin từ loại cho câu tiếng Anh và gán nhãn từ loại cho câu tiếng Việt. Điểm BLUE từ 43,31 đến 45,88, điểm NIST tăng từ 9,8269 đến 10,01 và tỉ lệ lỗi TER giảm từ 37,914 xuống 35,850. Tuy nhiên, khi các tri thức về từ loại lại không làm tăng chất lượng dịch. Điều này có thể lí giải do chất lượng của công cụ gán nhãn từ loại. Một phần nữa là do khi kết hợp với nhãn từ loại, độ phân tán của các từ sẽ tăng, dẫn đến việc hệ thống không dịch được các từ này. Ngoài ra, việc áp dụng luật chuyển đổi trật tự cho câu nguồn đã có ảnh hưởng tốt đến chất lượng dịch, nhờ cải thiện kết quả gióng hàng từ. Luật chuyển đổi cũng cải tiến hệ dịch khi kết hợp với các thông tin hình thái từ. Như vậy, không chỉ trong hệ dịch thống kê của các cặp ngôn ngữ khác, đối với cặp tiếng Anh và tiếng Việt, việc biến đổi để tạo sự tương đồng giữa hai ngôn ngữ đã phát huy thế mạnh của hệ dịch máy thống kê, vừa học tự động trên ngữ liệu, vừa xử lý dựa trên những tri thức ngôn ngữ. Tóm lại có hai điểm quan trọng được rút ra sau khi thực hiện đề tài: - Các tri thức ngôn ngữ khác nhau đóng góp khác nhau vào chất lượng hệ dịch. Việc kết hợp các tri thức này hợp lí sẽ làm tăng đáng kể chất lượng dịch của hệ thống. - Cách sử dụng khác nhau một tri thức ngôn ngữ để tích hợp vào hệ dịch máy thống kê cũng tạo ra các hiệu quả khác nhau đối với hệ dịch. Trang 76 Trong tương lai, đề tài có thể mở rộng theo các hướng sau nâng cao hiệu quả của hệ dịch bằng cách tích hợp thêm một số tri thức khác vào hệ dịch như thông tin cú pháp để chuyển đổi trật tự từ hoặc thông tin ngữ nghĩa để chọn từ dịch chính xác. Trang 77 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đinh Điền (2001), So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt. Tạp chí Khoa học Xã hội và Nhân văn, Trường Đại học Khoa học Xã hội và Nhân văn Tp. Hồ Chí Minh. [2] Hoàng Công Duy Vũ, Văn Chí Nam, Đinh Điền (2006), Dịch máy thống kê Anh – Việt, Việt – Anh kết hợp thông tin ngôn ngữ tiếng Việt. Hội nghị kỷ niệm 30 năm thành lập Viện CNTT, Hà Nội. [3] Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số cấu trúc cú pháp cơ bản, Luận án phó tiến sĩ khoa học ngữ văn. Tiếng Anh [4] A. Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In Proceedings of Intl. Conf. Spoken Language Processing, Denver, Colorado, September 2002. [5] Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation. In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16. [6] Chao Wang, Michael Collins, and Phillip Koehn, 2007. Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, 2007. [7] Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Assoc. for Computational Linguistics (ACL), pp. 531-540. [8] Doddington, G. Quality Using (2002), Automatic Evaluation of Machine N-gram Co-Occurrence Statistics, Translation Proceedings of the second international conference on Human Language Technology Research, pp. 138 – 145. Trang 78 [9] Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003. Syntax-based Language Models for Statistical Machine Translation. In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003. [10] F. J. Och and H. Ney, 2000, Improved statistical alignment models, In Proceedings of ACL 2000. [11] F. Xia and M. McCord. 2004. Improving a statistical MT system with automatically learned rewrite pat-terns. In Proceedings of COLING 2004. [12] Habash, Nizar. Syntactic Preprocessing for Statistical Machine Translation, In Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen, Denmark, 2007. [13] J. Giménez and L. Márquez, 2004, SVMTool: A general POS tagger generator based on Support Vector Machines, In Proceedings of the 4th International Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004 [14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for Machine Translation. In Proceeding EMNLP-CoNLL. [15] K. Rottmann and S. Vogel, 2008, Word reordering in statistical machine translation with a POS-based distortion model, In Proceedings of the 11th International Conference on Theoretical and Methodological Issues in Machine Translation, Skovde (Sweden), pp.171-180, 7-9 September 2007 [16] K. Toutanova, H.T. Ilhan, and C.D. Manning, 2002, Extensions to HMM- based statistical word alignment models, In Proceedings of Conf. on Empirical Methods for Natural Language Processing, pages 87-94, Philadelphia, PA, July 2002 [17] Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based translation, Proceedings of the HLT-NAACL 2003 conference, pp. 127–133. [18] Koehn, P. (2003), Lecture of Statistical Machine Translation. [19]Libin Shen, Jinxi Xu, Bing Zhang, Spyros Matsoukas, Ralph Weischedel (2009). Effective Use of Linguistic and Contextual Information for Statistical Trang 79 Machine Translation. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (August 2009), pp. 72-80. [20] M. Popovic, H. Ney, 2006, POS-based Word Reorderings for Statistical Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May 2006 [21] Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007). Getting to know Moses: initial experiments on German--English factored translation. In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184 [22] Minnen, G., J. Carroll and D. Pearce, 2001, Applied morphological processing of English, Natural Language Engineering, 7(3), pages 207-223. [23] N. Ueffing, and H. Ney, 2003, Using POS Information for Statistical Machine Translation into Morphologically Rich Languages, In Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 347-354, Budapest, Hungary, April 2003 [24] Nhung N., Dien D., 2008. A syntactic-based Word Re-ordering for English- Vietnamese Statistical machine translation system. In Proceeding of PRICAL 2008, LNAI 5351, pp 809 – 818, 2008. [25] P. F. Brown, S. A. D. Pietra, V. J. D. Pietra, and R. L. Mercer, 1993, The mathematics of statistical machine translation, Computational Linguistics. 22(1): 39-69. [26] P. Koehn, F. J. Och, and D. Marcu, 2003, Statistical phrase-based translation, In Proceedings of HLT-NAACL 2003. [27] P. Koehn, H. Hoang, 2007. Factored Translation Models. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL), pp. 868– 876, Prague, June 2007. [28] Papineni K. A., Roukos S., Ward T., and Zhu W.J (2002), Bleu: a method for automatic evaluation of machine translation, Proceedings of the 40th Trang 80 Annual Meeting of the Association for Computational Linguistics, pp. 311– 318. [29] S. NieBen and H. Ney, 2001, Morpho-syntactic analysis for reordering in statistical machine translation, In Proceedings of MT Summit VIII, pages 247252, Santiago de Compostela, Galicia, Spain, September 2001. [30] Sonja Nießen, Hermann Ney, 2000, Improving SMT quality with morpho- syntactic analysis. In Proceedings of the 18th conference on Computational linguistics - Volume 2 (ACL), Saarbrücken, Germany, page 1081-1085. [31] Snover M., Dorr B., Schwartz R., Micciulla L. and Makhoul J (2006), A study of translation edit rate with targeted human annotation, Proceedings of Association for Machine Translation in the Americas, pp. 223 – 231. [32] Thai Phuong Nguyen and Akira Shimazu, 2006, Improving Phrase-Based SMT with Morpho-Syntactic Analysis and Transformation, In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, pages 138-147, Cambridge, 2006 [33] Victoria Fossum, Kevin Knight and Steven Abney, 2008. Using Syntax to Improve Word Alignment Precision for Syntax-Based Machine Translation. In Proceedings of ACL MT Workshop, 2008. [34] Yamada,K. and Knight, K. (2001), A syntax-based statistical machine translation, Proceedings of ACL. [35] Yuqi Zhang, Richard Zens and Hermann Ney. 2007. Chunk-level reordering of source language sentence with automatically learned rules for statistical machine translation. In Proceedings of SSST, NAACL-HLT 2007/AMTA Workshop on Syntax and Structure in Statistical Translation. Trang 81 PHỤ LỤC A. Đối chiếu hình thái từ Anh – Việt (biến cách) Stt Ý nghĩa ngữ pháp Biến cách Nghĩa Từ loại 1 Danh từ số nhiều s NNS 2 Ngôi thứ 3 số ít s 3 Sở hữu cách „s của POS 4 Hiện phân từ ing đang VBG 5 Quá khứ ed đã VBD 6 Quá phân từ en đã VBN 7 So sánh hơn er hơn JJR,RBR 8 So sánh nhất est nhất JJS,RBS những, các VBZ B. Kết quả dịch của một số mô hình Văn bản tiếng Anh In addition , Viet Nam now hosts a great variety of industries and many use dirty technology and waste natural resources . An estimated VND 124 trillion ( US $ 7.4 billion ) is needed to eliminate industrial pollution , a new Industrial Policy and Strategy Institute ( IPSI ) study shows . The quantity of HCFCs , particularly R22 , used in the refrigerating and air conditioning industries is on the increase , Thanh said , adding that finding an ideal alterative refrigerant is a major challenge facing the industry . It is situated about 20 kilometers from Cao Lanh Town along National Highway 30 . " We still had coffee and food and they organised stuff so we could get out , " she said . Trang 82 Dust in the air is 113 - 230 - times above the permitted level , the content of some metals in waste water ten times thicker than the acceptable level . A project to build Ha Long into a smoke - free tourist city started in Ha Long city , northern coastal Quang Ninh province on Sept . As the driest province in the country with annual rainfall between 700 and 1,100 millimeters , Ninh Thuan is endowed with a coastline , deltas , mountains , rivers , and sand dunes . It , however , warned that rising sea - level would cost the habitats of such rare , endangered and endemic species like the leopard gecko , which lives only in the lowland area of the region . The Minister for Natural Resources and the Environment , Pham Khoi Nguyen , will then chair a workshop on what Vietnam has been doing to cope with the problems brought on by global warming and rising sea levels . Sanctuary established for under threat snub - nosed monkeys in Ha Giang . Heavy rain and strong winds pounded Italy on Monday , claiming the lives of four people , ANSA news agency reported . A hole with the length of two metres is on the blocked road Phainam - the road nearby Chao Anuvong Stadium . Running the club is very difficult for me because we lack money , but with supports from members , we still manage the club effectively . When not working as an architect he dedicates much of his time to running the Viet Nam Amateur Club of Astronomy . Vietnam has begun an initiative to raise its capacity in coping with A / H1N1 flu , a Red Cross official said in Hanoi September 16 . According to him , the country has met almost all of its health care targets set for the 2006 - 2010 period . Vietnam has continued to receive messages of sympathy from leaders of other countries over the losses of human life and poverty caused by typhoon Ketsana . Trang 83 Russian President Dmitri Medvedev on Oct . 2 cabled a message to his Vietnamese counterpart Nguyen Minh Triet , saying , " Russia is willing to help Vietnam overcome the natural disaster ' s consequences " . Kết quả dịch hệ cơ sở In bổ sung , Việt Nam hiện vật chủ rất nhiều loại của các ngành công nghiệp và nhiều sử dụng bẩn công nghệ và chất thải các nguồn tài nguyên thiên nhiên . Ước tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) là cần thiết để loại bỏ ô nhiễm công nghiệp , một mới , công nghiệp và chính sách chiến lược Viện ( IPSI ) nghiên cứu cho thấy . Các số lượng HCFCs , đặc biệt là R22 , được sử dụng trong điện lạnh và không khí - điều hoà ngành công nghiệp đang tăng lên , Thành cho biết , nói thêm rằng việc tìm kiếm một lý tưởng alterative refrigerant là một lớn thách thức đối mặt với ngành công nghiệp . Nó nằm khoảng 20 km từ Cao Lãnh thị trấn theo Quốc lộ 30 . " Chúng tôi vẫn còn có cà phê và thực phẩm và họ đã tổ chức thứ như vậy , chúng tôi có thể thoát khỏi " , Cô nói . Bụi trong không khí là 113 - 230 - lần trên mức cho phép , nội dung của một số các kim loại trong nước thải mười lần dày hơn so với các mức độ chấp nhận được . Một dự án để xây dựng Hạ Long vào một thuốc tự do thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9. Do khô nhất tỉnh ở các quốc gia với hàng năm lượng mưa giữa 700 và số 1.100 mm , Ninh Thuận được ưu đãi với một bờ biển , đồng bằng , núi , các con sông , và cồn cát . Trang 84 Nó , tuy nhiên , đã cảnh báo rằng sự gia tăng mực nước biển sẽ chi phí môi trường sống như vậy quý hiếm , đang bị đe dọa và đặc hữu loài như lượng con báo hoa mai tắc kè , mà còn chỉ tại các khu vực đất thấp của khu vực . Các Bộ trưởng Bộ Tài nguyên và Môi trường Phạm Khôi Nguyên , sau đó sẽ chủ trì một hội thảo về những gì mà Việt Nam đã đang làm để đối phó với các vấn đề đưa vào bởi sự nóng lên toàn cầu và mực nước biển tăng lên . Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt trên Hà Giang . Hôm mưa và gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống của bốn người , ANSA Hãng tin . Một lỗ với chiều dài của hai mét trên các chặn đường Phainam - đường gần Sân vận động Chao Anuvong . Hoạt động câu lạc bộ là rất khó khăn cho tôi bởi vì chúng tôi thiếu tiền , nhưng với sự hỗ trợ từ các thành viên , chúng tôi vẫn quản lý các câu lạc bộ có hiệu quả . Khi không làm việc như một kiến trúc sư ông dedicates nhiều thời gian của mình để chạy Việt Nam Amateur Câu lạc bộ của nền thiên văn học . Việt Nam đã bắt đầu một sáng kiến để nâng cao của nó có khả năng trong việc đối phó với các bệnh cúm A / H1N1 , một Hội chữ thập đỏ chức nói tại Hà Nội ngày 16 tháng 9 . Theo ông , quốc gia đã đáp ứng gần như tất cả các của nó chăm sóc sức khỏe mục tiêu thiết lập cho năm 2006 - 2010 kỳ . Việt Nam đã tiếp tục nhận được thông điệp của đồng cảm từ các nhà lãnh đạo của các nước khác trên những thiệt hại của cuộc sống con người và nghèo gây ra bởi bão Ketsana . Nga , Tổng thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông điệp của ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để giúp Việt Nam khắc phục những thảm họa thiên nhiên của những hậu quả " . Kết quả dịch sau khi thêm từ loại vào tiếng Anh Trang 85 In bổ sung , Việt Nam hiện có rất nhiều loại của các ngành công nghiệp và nhiều sử dụng bẩn công nghệ và chất thải các nguồn tài nguyên thiên nhiên . Ước tính đồng 124 nghìn tỷ đồng ( Hoa Kỳ $ 7.4 tỷ đôla ) là cần thiết để loại bỏ ô nhiễm công nghiệp , một mới , công nghiệp và chính sách chiến lược Viện ( IPSI ) nghiên cứu cho thấy . Các số lượng HCFCs , đặc biệt là R22 , được sử dụng trong các refrigerating và không khí - điều hoà ngành công nghiệp đang gia tăng , Thành cho biết , nói thêm rằng việc tìm kiếm một lý tưởng alterative refrigerant là một lớn thách thức đối mặt với ngành công nghiệp . Nó nằm khoảng 20 km từ Cao Lãnh thị trấn dọc theo Quốc lộ 30 . " Chúng tôi vẫn còn có cà phê và thực phẩm và họ đã tổ chức thứ để chúng tôi có thể làm ra " , Cô nói . Bụi trong không khí là 113 - 230 - lần trên mức cho phép , nội dung của một số các kim loại trong nước thải mười lần dày hơn so với các mức độ chấp nhận được . Một dự án để xây dựng Hạ Long vào một không khói thuốc thành phố du lịch đã bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 . Do khô nhất tỉnh ở trong nước với hàng năm lượng mưa giữa 700 và số 1.100 mm , Ninh Thuận được ưu đãi với một bờ biển , đồng bằng , núi , các con sông , và cồn cát . Nó , tuy nhiên , đã cảnh báo rằng tăng mực nước biển sẽ có chi phí môi trường sống như vậy quý hiếm , đang bị đe dọa và đặc hữu loài như những con báo hoa mai phục kè , mà sống chỉ tại các khu vực đất thấp của khu vực . Các Bộ trưởng cho Tài nguyên và Môi trường Phạm Khôi Nguyên , sau đó sẽ chủ trì một hội thảo về những gì mà Việt Nam đã đang làm để đối phó với các vấn đề đưa tiếp tục bởi sự nóng lên toàn cầu và mực nước biển tăng lên . Sanctuary phát hiện cho bị đe dọa khỉ mũi tẹt trên Hà Giang . Trang 86 Hôm mưa và gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống của bốn người , ANSA Hãng tin báo cáo . Một lỗ với chiều dài của hai mét trên các chặn đường Phainam - đường gần Sân vận động Chao Anuvong . Running câu lạc bộ là rất khó khăn cho tôi bởi vì chúng tôi thiếu tiền , nhưng với sự hỗ trợ từ các thành viên , chúng tôi vẫn quản lý các câu lạc bộ có hiệu quả . Khi không làm việc như một kiến trúc sư ông dedicates nhiều thời gian của ông để chạy Việt Nam Amateur câu lạc bộ của Thiên văn học . Việt Nam đã bắt đầu một sáng kiến để nâng cao của nó có khả năng trong việc đối phó với các bệnh cúm A / H1N1 , một Hội Chữ thập đỏ quan chức nói tại Hà Nội ngày 16 tháng 9 . Theo ông , quốc gia đã đáp ứng gần như tất cả các của nó chăm sóc sức khỏe mục tiêu thiết lập cho năm 2006 - 2010 kỳ . Việt Nam đã liên tục để nhận thông điệp của đồng cảm từ các nhà lãnh đạo của các nước khác trên những thiệt hại của cuộc sống con người và nghèo gây ra bởi bão Ketsana . Nga , Tổng thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông điệp của ông đối tác Việt Nam Nguyễn Minh Triet , nói , " Nga sẵn sàng để giúp Việt Nam khắc phục những thảm họa thiên nhiên của những hậu quả " . Kết quả dịch sau khi áp dụng luật chuyển đổi trật tự In bổ sung , Việt Nam chủ nhà bây giờ là một loại lớn của các ngành công nghiệp và nhiều sử dụng công nghệ bẩn và chất thải các nguồn tài nguyên thiên nhiên . Ước tính đồng 124 nghìn tỷ đồng ( US $ 7.4 tỷ đôla ) là cần thiết để loại bỏ ô nhiễm công nghiệp , một mới công nghiệp và chính sách chiến lược Viện ( IPSI ) nghiên cứu cho thấy . Trang 87 Các số lượng HCFCs , đặc biệt là R22 , được sử dụng trong điện lạnh và không khí - điều hoà ngành công nghiệp đang gia tăng , Thành cho biết , nói thêm rằng việc tìm kiếm một lý tưởng refrigerant alterative là một thách thức lớn đối với ngành công nghiệp . Nó nằm khoảng 20 km từ Cao Lãnh Town theo Quốc lộ 30 . " Chúng tôi đã vẫn còn cà phê và thực phẩm và họ đã tổ chức chất liệu để chúng tôi có thể thoát khỏi " , cô nói . Bụi trong không khí là 113 - 230 - lần so với mức cho phép , nội dung của một số các kim loại trong nước thải mười lần dày hơn so với các mức độ chấp nhận được . Một dự án để xây dựng Hạ Long vào một khói - thành phố du lịch không bắt đầu tại thành phố Hạ Long , ven biển phía bắc tỉnh Quảng Ninh vào tháng 9 . Khi các tỉnh khô nhất trong nước với lượng mưa hàng năm khoảng 700 và 1.100 mm , Ninh Thuận được ưu đãi với một bờ biển , đồng , núi , các con sông , và cồn cát . Nó , tuy nhiên , đã cảnh báo rằng sự gia tăng mực nước biển sẽ chi phí môi trường sống của quý hiếm , đang bị đe dọa và đặc hữu loài như vậy như con tắc kè những con báo hoa mai , mà sống chỉ tại các khu vực đất thấp của khu vực . Các Bộ trưởng Bộ Tài nguyên và Môi trường Phạm Khôi Nguyên , sẽ sau đó chủ trì một hội thảo về những gì mà Việt Nam đã đang làm để đối phó với các vấn đề đưa vào bởi sự nóng lên toàn cầu và mực nước biển tăng lên . Sanctuary thành lập cho bị đe dọa khỉ mũi tẹt trong Hà Giang . mưa Heavy và gió mạnh pounded Ý vào thứ hai , làm thiệt mạng sống của bốn người , hãng tin ANSA báo cáo . Một lỗ với chiều dài của hai mét trên chặn đường Phainam - đường gần Sân vận động Chao Anuvong . Trang 88 Hoạt động câu lạc bộ là rất khó khăn cho tôi bởi vì chúng tôi thiếu tiền , nhưng với sự hỗ trợ từ các thành viên , chúng tôi quản lý vẫn còn câu lạc bộ có hiệu quả . Khi làm việc không phải là một kiến trúc ông dedicates nhiều thời gian của ông để chạy Việt Nam Amateur Câu lạc bộ Thiên văn học . Việt Nam đã bắt đầu một sáng kiến để nâng cao năng lực của nó trong việc đối phó với các bệnh cúm A / H1N1 , một đồng bằng của Hội chữ thập đỏ cho biết tại Hà Nội ngày 16 tháng 9 . Theo ông , quốc gia đã đáp ứng gần như tất cả các chăm sóc sức khỏe mục tiêu của nó được đặt ra cho năm 2006 - 2010 thời gian . Việt Nam đã liên tục để nhận thông điệp cảm thông từ các nhà lãnh đạo của các quốc gia khác về thiệt hại của cuộc sống con người và nghèo gây ra bởi bão Ketsana . Nga , Tổng thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông điệp đến đối tác Việt Nam của ông Nguyễn Minh Triet , nói , " Nga sẵn sàng để giúp Việt Nam khắc phục những thiên tai tự nhiên của những hậu quả " . Hệ dịch gán nhãn ranh giới từ tiếng Việt In bổ_sung , Việt_Nam hiện chủ_nhà rất nhiều loại của các ngành công_nghiệp và nhiều sử_dụng công_nghệ chất_thải bẩn và các nguồn tài_nguyên thiên_nhiên . Ước_tính 124 nghìn tỷ đồng ( US $ 7.4 tỷ ) là cần_thiết để loại_bỏ ô_nhiễm công_nghiệp , một công_nghiệp mới và chính_sách Viện Chiến_lược ( IPSI ) nghiên_cứu cho_thấy . Các số_lượng HCFCs , đặc_biệt là R22 , được sử_dụng trong refrigerating và điều_hoà không_khí - các ngành công_nghiệp đang gia_tăng , Thành cho_biết , nói thêm rằng việc tìm_kiếm một lý_tưởng alterative refrigerant là một thách_thức lớn phải đối_mặt với các ngành công_nghiệp . Nó nằm khoảng 20 km từ Cao Lanh Thị_xã dọc theo Quốc_lộ 30 . Trang 89 " Chúng_tôi vẫn còn có cà_phê và thực_phẩm và chúng được tổ_chức stuff vì_vậy chúng_tôi có_thể nhận ra , cô ấy nói , " . bụi trong không_khí là 113 - 230 - lần trên các mức cho_phép , nội_dung của một_số các kim_loại trong nước_thải mười lần dày hơn so với mức_độ chấp_nhận được . Một dự_án để xây_dựng Hạ_Long thành một không khói thuốc thành_phố du_lịch đã bắt_đầu tại thành_phố Hạ_Long , ven biển phía bắc tỉnh Quảng_Ninh vào tháng 9 . Do khô nhất tỉnh trong nước với lượng mưa hàng năm khoảng 700 và 1.100 mm , Ninh_Thuận được ưu_đãi với một bờ biển , đồng_bằng , núi , các con sông , và cồn cát . Nó , tuy_nhiên , đã cảnh_báo rằng việc tăng mực nước biển sẽ tốn môi_trường sống như vậy quý_hiếm , đang bị đe_doạ và đặc_hữu loài như leopard tắc_kè , mà chỉ sống trong các khu_vực đất thấp của khu_vực . Các Bộ_trưởng Bộ Tài_nguyên và Môi_trường Phạm_Khôi_Nguyên , sau đó sẽ chủ_trì một hội_thảo về những gì Việt_Nam đã được làm để đối_phó với các vấn_đề đưa vào do sự nóng lên toàn_cầu và mực nước biển dâng cao . Tam_Nông thành_lập cho bị đe_doạ khỉ mũi tẹt trong Hà_Giang . Giao_thông mưa và gió mạnh pounded Ý vào ngày thứ hai , làm thiệt_mạng cuộc_sống của bốn người , ANSA tin_tức cơ_quan báo_cáo . Một lỗ với chiều dài của hai mét là trên chặn đường Phainam - đường gần Sân_vận_động Chao_Anuvong . Hoạt_động câu_lạc_bộ là rất khó_khăn cho tôi bởi_vì chúng_tôi thiếu tiền , nhưng với sự hỗ_trợ từ các thành_viên , chúng_tôi vẫn quản_lý câu_lạc_bộ có hiệu_quả . Khi không làm_việc như một architect ông dedicates nhiều thời_gian của ông để chạy Việt_Nam Lễ_hội Carlton của nền thiên_văn_học . Trang 90 Việt_Nam đã bắt_đầu một sáng_kiến để nâng_cao năng_lực của nó trong việc đối_phó với các bệnh cúm A / H1N1 , một Hội Chữ_thập_đỏ quan_chức nói tại Hà_Nội ngày 16 tháng 9 . Theo ông , quốc_gia đã đáp_ứng gần như tất_cả các chăm_sóc y_tế đặt ra mục_tiêu cho năm 2006 - 2010 thời_gian . Việt_Nam đã tiếp_tục nhận được những thông_điệp cảm_thông từ các nhà lãnh_đạo của các nước khác trên những thiệt_hại của cuộc_sống con_người và nghèo gây ra bởi bão Ketsana . Nga Tổng_thống Dmitri Medvedev vào ngày 2 tháng 10 cabled một thông_điệp của ông đối_tác Việt_Nam Nguyễn đã Triet , nói rằng : " Nga sẵn_sàng để giúp Việt_Nam khắc_phục những thảm_hoạ thiên_nhiên của những hậu_quả " . Trang 91 [...]... nhiều từ hoặc cụm từ - Tra trong bảng ngữ để tìm các ngữ dịch tương ứng - Kết hợp các ngữ tìm được lại thành câu và chọn những câu có xác suất mô hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất 2.1.2 Mô hình dịch máy thống kê dựa trên ngữ Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy được thông tin ngữ cảnh mà chỉ dựa trên các phân tích thống kê về từ Mô hình dịch máy thống kê dựa... (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để thực hiện quá trình dịch Trang 12 Ngữ liệu song ngữ Ngữ liệu đơn ngữ Thống kê Thống kê Mô hình dịch Mô hình ngôn ngữ Câu nguồn Quá trình giải mã Câu đích Hình 2.1 Mô hình dịch máy thống kê 2.1.1.1 Mô hình ngôn ngữ Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ pháp) trong câu được phát sinh Từ chuỗi từ được... Trang 28 2.1.4 Mô hình dịch máy thống kê dựa trên cú pháp Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu biểu: - Dịch từ cây cú pháp sang câu (tree-to-string ) [34] o Quá trình học: Từ câu nguồn, tác giả phân tích thành cây... cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực tiếp tri thức ngôn ngữ vào mô hình dịch Mô hình này được phát triển dựa trên cách tiếp cận dịch máy dựa trên ngữ Cải tiến của mô hình này là các thông tin về tri thức được tích hợp vào hệ thống ở mức độ từ Một từ trong mô hình này được xem như là một vector đại diện chứa nhiều thông tin khác nhau Ví dụ, mỗi từ trong câu nguồn và câu... pháp thống kê còn nhiều phương pháp khác được sử dụng trong dịch máy Đa số các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ vựng phong phú Cho tới gần đây, các nghiên cứu về dịch máy thường tập trung vào các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian trong quá trình dịch 2.1.1 Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê dựa... thay thế từ trong câu Với độ đo này, tỉ lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt Trang 32 CHƯƠNG 3: CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ Hướng tiếp cận dịch máy dựa trên ngữ hiện được xem là state-of-the-art trong dịch máy thống kê Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp các tri thức ngôn ngữ vào hệ thống, chẳng hạn như hình thái từ, ngữ pháp... thêm các factor: từ nguyên mẫu, từ loại, biến cách Câu nguồn Câu đích Từ Từ Nguyên mẫu Nguyên mẫu Từ loại Từ loại Hình thái Hình thái Hình 2.5 Mô hình dịch factored SMT Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ Tuy nhiên, bước tạo mô hình dịch của hệ factored SMT sẽ được chia ra thành ba bước nhỏ Ví dụ từ tiếng Đức häuse khi được dịch sang tiếng Anh sẽ được xử lý... giữa factor đầu vào và factor đầu ra của từ Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural thành từ ở dạng đầy đủ houses sẽ học xác suất , , | và | , , Các giá trị phân phối này hệ thống thống kê từ ngữ liệu đơn ngữ của ngôn ngữ đích Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ phụ thuộc vào các yếu tố hình thái như từ loại, số đếm,... dịch máy thông kê dựa trên ngữ (phrase based SMT) Phương pháp này được đặt nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ trong mô hình dịch. .. cao nhất trong lớp ) Từ các cặp ngữ rút ra được, mô hình dịch dựa trên ngữ sẽ lưu lại bảng ngữ (phrase-table) chứa các cặp ngữ rút ra từ các cặp câu song ngữ cùng với xác suất ( | ) Trang 25 2.1.3 Mô hình dịch thống kê factored (Factored SMT) Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chưa sử dụng thông tin ngôn ngữ vào hệ dịch Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng biến ... 5.2 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh 60 Bảng 5.3 Kết dịch hệ chuyển đổi trật tự từ 63 Bảng 5.4 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Việt 64... đưa vào luận văn Hình 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa ngữ công đoạn can thiệp để tích hợp tri thức ngôn ngữ vào hệ thống luận văn Mô hình dịch thống kê Anh – Việt Tích hợp thông tin: ... hàng từ mô hình 65 Bảng 5.6 Kết dịch hệ dịch tích hợp từ loại tiếng Việt 68 Bảng 5.7 Kết dịch hệ tích hợp thông tin hình thái từ vào câu tiếng Anh tiếng Việt .71 Trang DANH

tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan