Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu

113 985 1
Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1. Định hướng đề tài tốt nghiệp Xây dựng thử nghiệm chương trình dịch tự động Anh - Việt theo hướng tiếp cận: “So khớp tập mẫu” (còn gọi là “Dịch dựa vào ngữ liệu”, “Dịch dựa vào ví dụ”…). 2. Các nhiệm vụ cụ thể của ĐATN • Nghiên cứu lý thuyết dịch máy dựa trên so khớp tập mẫu, tìm hiểu một mô hình dịch cụ thể theo hướng tiếp cận này: mô hình D3. • Xây dựng một chương trình dịch tự động Anh-Việt theo phương pháp so khớp tập mẫu, trên cơ sở lý thuyết đã nghiên cứu cùng hệ thống thuật toán liên quan: thuật toán A*, DP-matching, thuật toán cực tiểu hoá Otomat… • Xây dựng các quy trình huấn luyện tập mẫu, từ dạng “thô” ban đầu thành dạng ngữ liệu áp dụng được cho quá trình so khớp và xây dựng câu dịch: • Xây dựng bộ luật chuyển đổi cú pháp Anh-Việt ở mức ngữ, trên cơ sở nghiên cứu cấu trúc các ngữ trong Tiếng Anh. • Giải quyết một số vấn đề thuần tuý ngôn ngữ phục vụ cho hệ dịch: Lấy về dạng nguyên thể của một từ từ các biến thể của nó (dạng số nhiều của danh từ, quá khứ đơn hay quá khứ phân từ của động từ…), sưu tầm và chuẩn hoá bảng động từ bất quy tắc… Tôi - Lương Ngọc Quang - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của ThS Bùi Thị Hoà. Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác. Hà Nội, ngày tháng năm Tác giả ĐATN Lương Ngọc Quang Xác nhận của giáo viên hướng dẫn: Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 1 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Đồ án tốt nghiệp này tập trung vào những vấn đề chính sau: • Nghiên cứu lý thuyết dịch máy dựa trên so khớp tập mẫu, tìm hiểu một mô hình dịch cụ thể theo hướng tiếp cận này: mô hình D3. • Xây dựng một chương trình dịch tự động Anh-Việt theo phương pháp so khớp tập mẫu, trên cơ sở lý thuyết đã nghiên cứu cùng hệ thống thuật toán liên quan: thuật toán A*, DP-matching, thuật toán xây dựng và cực tiểu hoá Otomat… • Xây dựng các quy trình huấn luyện tập mẫu, từ dạng “thô” ban đầu thành dạng ngữ liệu áp dụng được cho quá trình so khớp và xây dựng câu dịch:  Quy trình 1: Phân tích cú pháp Tiếng Anh – Phân lớp dựa vào số lượng từ nội dung, từ ngữ pháp – Xây dựng đồ thị cho mỗi lớp (Quy trình này thực hiện tự động)  Quy trình 2: Liên kết cho các cặp câu Anh - Việt (thực hiện bằng tay). • Xây dựng bộ luật chuyển đổi cú pháp Anh-Việt ở mức ngữ, trên cơ sở nghiên cứu cấu trúc các ngữ trong Tiếng Anh. • Giải quyết một số vấn đề thuần tuý ngôn ngữ phục vụ cho hệ dịch: Lấy về dạng nguyên thể của một từ từ các biến thể của nó (dạng số nhiều của danh từ, quá khứ đơn hay quá khứ phân từ của động từ…), sưu tầm và chuẩn hoá bảng động từ bất quy tắc… Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 2 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” ABSTRACT OF THESIS This thesis aims at these main points: • Research the theory of Example – Based Machine Translation and a specific system that applies this approach: D3 (Dp-match Driven transDucer) • Construct an English – to – Vietnamese Example – Based Machine Translation System (EVEBMTS), relying on the above – mentioned theory, and the series of relative algorithms: A*, DP-Matching, algorithms of optimizing the Deterministic Finite State Automata (DFSA)… • Construct two independent processes for training the Corpus, from the original, raw form to the data format that can be well-applied for “Matching” and “Translation sentence constructing” stages:  Process 1: English Parsing – Classify based on the number of content- word, functional-word – Graph Building for each class.  Process 2: English – Vietnamese sentence pairs alignment. • Construct a set of grammar transfer rules (at the level of phrases), based on researching the structures of English phrases. • Solve some linguistic problems, that are indispensable for the translation application: Getting the original form of an English word from its variants (plural form of noun, past or past-particilpe of verb…), collecting and editing the English irregular – verb table… Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 3 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” LỜI CẢM ƠN Sau gần sáu tháng thực hiện Đồ án tốt nghiệp, đến nay mọi công việc liên quan đến Đồ án cơ bản đã hoàn tất. Trong quãng thời gian ấy, tôi đã nhận được nhiều nguồn giúp đỡ, động viên to lớn, mà nếu không có chúng, có lẽ tôi sẽ rất khó đạt được những kết quả như ngày hôm nay. Bởi thế, cho phép tôi giành trang đầu tiên của Luận văn này cho những lời cảm ơn chân thành đến những người tôi yêu mến và biết ơn. Trước hết, em xin được gửi lời cảm ơn đến giáo viên hướng dẫn, ThS, GVC Bùi Thị Hoà, khoa Công nghệ thông tin, trường Đại học Bách Khoa Hà Nội. Cô là người đã luôn quan tâm, giúp đỡ, hướng dẫn và góp ý cho em trong suốt quá trình em thực hiện đồ án này. Một lần nữa, xin gửi đến cô tấm lòng biết ơn chân thành và sâu sắc. Em xin gửi lời cảm ơn đến các thầy cô giáo trong bộ môn Công nghệ phần mềm, khoa Công nghệ thông tin nói riêng, cùng toàn thể các thầy cô giáo trường Đại học Bách Khoa Hà Nội nói chung, vì những bài giảng hay, những kiến thức bổ ích cùng sự tận tụy quan tâm mà các thầy, các cô đã giành cho em trong suốt năm năm học vừa qua. Em nghĩ rằng, những kiến thức mà các thầy cô truyền dạy không chỉ được vận dụng để em hoàn thành đồ án này, mà chắc chắn sẽ còn giúp ích cho em rất nhiều trong tương lai. Tôi cũng xin gửi lời cảm ơn đến đội ngũ kỹ sư của công ty cổ phần dịch vụ công nghệ thông tin NAISCORP, nơi tôi thực tập, những người đã quan tâm và góp ý cho tôi trong quá trình xây dựng chương trình Dịch. Cuối cùng, xin được gửi lời cảm ơn sâu sắc tới bố mẹ tôi, em gái tôi, những người thân và bạn bè thân thiết của tôi vì đã tạo cho tôi mọi điều kiện tuyệt vời nhất để hoàn thành tốt đồ án này. Hà Nội, tháng 5 năm 2007. Lương Ngọc Quang Lớp Công nghệ phần mềm, K47, khoa Công nghệ thông tin Trường Đại học Bách Khoa Hà Nội. Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 4 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT 8 DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN 9 DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN 9 LỜI NÓI ĐẦU 9 Chương 1: Tổng quan về dịch máy 11 1.1. Lịch sử của dịch máy: 12 1.2. Khái niệm, kiến trúc và vai trò của dịch máy trong việc thúc đẩy sự phát triển của lý thuyết ngôn ngữ 12 1.3. Một số chiến lược dịch máy điển hình 13 1.3.1. Dịch trực tiếp 13 1.3.2. Dịch qua ngôn ngữ trung gian 14 1.3.3. Dịch dựa trên sự chuyển đổi 15 1.3.4. Dịch máy thống kê 16 1.3.5. Dịch dựa trên ví dụ (Dịch so khớp tập mẫu) 17 1.4. Sơ lược về tình hình nghiên cứu và triển khai dịch máy tại Việt Nam hiện nay 17 1.5. Nhiệm vụ, phạm vi của đồ án tốt nghiệp 19 Chương 2: Lý thuyết dịch máy dựa trên so khớp tập mẫu 20 2.1. Vài nét về lịch sử của lý thuyết EBMT 20 2.2. Khái niệm, đặc điểm và sơ đồ khối 22 2.2.1. Khái niệm và sơ đồ khối 22 2.2.2. Phân biệt EBMT với TM (Translation Memory) 22 2.3. Kho ngữ liệu song ngữ (Parallel corpus-PC) 23 2.3.1. Giới thiệu chung 23 2.3.2. Huấn luyện PC và tiền xử lý văn bản đầu vào bằng thư viện OpenNLP 24 2.3.3. Vấn đề kích thước của PC 26 2.3.4. Vấn đề lưu trữ: 27 2.4. Một số phương pháp so khớp chính 29 2.4.1. So khớp dựa trên ký tự: (Character-based Matching) 29 2.4.2. So khớp mức từ: (Word-based Matching) 29 2.4.3. Phương pháp “Góc tương tự” của Carroll 30 2.5. Giới thiệu hai kiểu hệ dịch EBMT thông dụng 31 2.5.1. Hệ D3 (Dp-match Driven transDucer) 31 2.5.2. Hệ HPAT (Hierarchical Phrase Alignment based Translation) 32 2.5.3. So sánh giữa hai hệ dịch: 33 Chương 3: Bài toán xây dựng hệ dịch tự động Anh-Việt dựa trên so khớp tập mẫu 36 3.1. Hệ dịch D3 36 3.1.1 Giới thiệu chung 36 3.1.2. Các đặc điểm và tính năng 37 3.1.3. Cấu hình 37 3.1.4. Khối “Example Retrieval” (Tìm kiếm ngữ liệu tương tự) 40 3.1.5. Khối “Sản sinh mẫu” và thuật toán sinh mẫu 42 3.1.6. Khối “Chọn mẫu phù hợp nhất” 43 Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 5 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” 3.1.7. Khối “Thay thế” 44 3.2. Các ý tưởng cải tiến hệ D3 truyền thống 45 3.2.1. Phân lớp và “đồ thị hoá” tập mẫu 45 3.2.2. Cải tiến khối “Tìm kiếm ngữ liệu tương tự” giai đoạn 1: Khoanh vùng tập mẫu 53 3.2.3. Cải tiến khối “Tìm kiếm ngữ liệu tương tự” giai đoạn 2: So khớp dựa trên giải thuật A* kết hợp lý thuyết quy hoạch động 55 Chương 4: Chương trình Dịch tự động Anh -Việt 66 4.1. Phân tích hệ thống về mặt chức năng 66 4.1.1. Xác định yêu cầu 66 4.1.2. Biểu đồ phân cấp chức năng 66 4.1.3. Chức năng Huấn luyện tập mẫu 70 4.1.4. Chức năng Tiền xử lý 73 4.1.5. Chức năng “Chọn ngữ liệu tương tự nhất” 73 4.1.6. Chức năng “Xây dựng và hoàn thiện câu dịch” 76 4.1.7. Chức năng quản lý từ điển và tập mẫu 78 4.2. Thiết kế và tổ chức lưu trữ dữ liệu 80 4.2.1. Cấu trúc các file Từ điển 80 4.2.2. Cấu trúc các file ngữ liệu: 81 4.3. Cài đặt các module chính trong chương trình 82 4.3.1. Một số nét tổng quan về chương trình: 82 4.3.2. Cài đặt module: “Huấn luyện tập mẫu” 83 4.3.3. Cài đặt module “Tiền xử lý” 85 4.3.4. Cài đặt module “Chọn ngữ liệu tương tự nhất” 86 4.3.5. Cài đặt module “Xây dựng, hoàn thiện câu dịch” 89 Chương 5: Thử nghiệm và đánh giá kết quả 91 5.1. Giới thiệu chương trình 91 5.1.1. Module phân tích cú pháp Tiếng Anh : 92 5.1.2. Module so khớp, tìm ngữ liệu tương tự nhất 92 93 5.1.3. Module Dịch 93 5.1.4. Module quản lý Từ điển 93 5.1.5. Module quản lý tập luật chuyển đổi cú pháp Anh-Việt 94 5.1.6. Module quản lý tập mẫu song ngữ 95 5.2. Thử nghiệm kết quả: 96 5.2.1. Xây dựng tập ngữ liệu huấn luyện và thử nghiệm 96 5.2.2. Các độ đo sử dụng 97 5.2.3. Kết quả thử nghiệm 97 5.2.4. Đánh giá thử nghiệm 102 KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 104 1. Những kết quả đã đạt được 104 2. Định hướng nghiên cứu và phát triển đề tài 104 Phần phụ lục 105 105 PHỤ LỤC 1 105 PHỤ LỤC 2 106 PHỤ LỤC 3: MỘT SỐ KẾT QUẢ DỊCH THỬ NGHIỆM 107 Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 6 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” PHỤ LỤC 4: MỘT SỐ KẾT QUẢ SO SÁNH GIỮA EBMTRANS VÀ EVTRANS 2.0 111 STT 111 EBMTRANS 111 EVTRANS 2.0 111 1 111 2 111 3 111 4 111 5 111 6 111 7 111 8 111 9 111 10 111 111 11 111 12 111 Newspapers, magazines, documents, and advertisements crowd your mailbox each day 111 Danh mục tài liệu tham khảo 112 Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 7 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT STT Từ viết tắt Từ đầy đủ Giải nghĩa 1 MT Machine Translation Dịch máy 2 EBMT Example-Based Machine Translation Phương pháp dịch máy dựa trên so khớp tập mẫu (hay: Dịch trên nền ví dụ) 3 RBMT Rule-Based Machine Translation Phương pháp dịch máy trên nền tập luật 4 PC Parallel Corpus Kho ngữ liệu song ngữ 5 SMT Statistical Machine Translation Phương pháp dịch máy thống kê 6 HPA Hierarchical Phrase Alignment Liên kết ngữ phân cấp 7 HPAT HPA-Based Translation Dịch dựa trên liên kết ngữ phân cấp 8 CBMT Corpus-Based Machine Translation Phương pháp dịch máy dựa trên tập mẫu 9 OHĐ Otomat hữu hạn đơn định. 10 POS Part-of-Speech Từ loại 11 TM Translation Memory Dịch bộ nhớ. 12 DFA Deterministic Finite States Automata Otomat trạng thái hữu hạn đơn định. Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 8 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN LỜI NÓI ĐẦU Với sự phát triển vô cùng mạnh mẽ và nhanh chóng của khoa học kỹ thuật nói chung và ngành Công nghệ thông tin nói riêng, chưa bao giờ như hiện nay con người lại có thể nắm bắt, khai thác và xử lý những thông tin, tri thức mới dễ dàng, thuận tiện đến như vậy.Cho dù bạn muốn cập nhật những tin tức nóng hổi nhất như tỷ giá đồng Đô-la trên thị trường ngày hôm nay, Top ten các bài hát hay nhất trong Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 9 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu” tuần…đến tra cứu tiểu sử của một danh nhân sống cách đây đã hàng thế kỷ…Với một chiếc máy tính có kết nối Internet, mọi việc trở nên vô cùng đơn giản. Chẳng hạn: chỉ cần mở máy, tìm đến website Google và gõ vào một vài từ khoá cần thiết, mọi thông tin bạn mong muốn sẽ hiện diện thật nhanh chóng. Máy tính đã làm nên điều kỳ diệu mà loài người bấy lâu hằng mơ ước: thu hẹp những cản trở về mặt địa lý, giúp họ xích lại gần nhau hơn, làm phong phú đời sống tinh thần và giúp nâng cao tri thức cho toàn nhân loại. Tuy vậy, một trong những khó khăn của người Việt chúng ta hiện nay là hiểu được ngôn ngữ được thể hiện trong các tài liệu trên Internet, mà chủ yếu là bằng tiếng Anh.Bởi thế, ý tưởng về việc xây dựng một hệ thống chuyên dịch các tài liệu từ tiếng Anh sang tiếng Việt đã được hình thành, và nếu thực hiện được sẽ có ý nghĩa cũng như mang lại hiệu quả vô cùng to lớn.Chắc chắn nó sẽ giúp các cơ quan, xí nghiệp xử lý công văn, giấy tờ, hợp đồng dễ dàng hơn; các nhà khoa học,nhà nghiên cứu giảm bớt công sức dịch thuật các công trình khoa học nước ngoài dày cộm; và mọi người tiếp cận những tri thức mới nhanh chóng và thuận tiện hơn… Trong khoảng gần 10 năm trở lại đây, bài toán dịch máy đã được triển khai nghiên cứu, ứng dụng tại Việt Nam và đã thu được một số thành công nhất định.Tuy vậy, quá trình thực hiện đã gặp nhiều khó khăn, chủ yếu là về vấn đề ngôn ngữ.Chẳng hạn như với tiếng Việt thì cơ sở lý thuyết để xây dựng được hệ thống xử lý ngôn ngữ tự nhiên là chưa hoàn chỉnh và còn khá khiêm tốn, hay vấn đề nhập nhằng ngữ nghĩa-một bản chất vốn có của ngôn ngữ tự nhiên-chưa được giải quyết triệt để…Việc xây dựng kho ngữ liệu song ngữ Anh-Việt, công cụ phục vụ đắc lực trong các hệ dịch trên nền ví dụ, hầu như chưa thu được kết quả đáng kể, trong khi nhiều nước trên thế giới đã có được những kho ngữ liệu với số lượng lên đến hàng trăm nghìn, thậm chí hàng triệu cặp câu…Trong thời gian tới, để thúc đẩy dịch máy Việt Nam phát triển, chắc chắn những vấn đề trên phải được quan tâm đầu tư nghiên cứu nhiều hơn nữa. Đồ án tốt nghiệp đại học này sẽ tiếp cận bài toán dịch máy Anh-Việt theo phương pháp dựa vào so khớp với tập mẫu (hay còn gọi Dịch máy trên nền ví dụ- EBMT)-một hướng nghiên cứu Dịch máy khá mới tại Việt Nam hiện nay.Trong khuôn khổ của một Đồ án, tác giả chỉ tập trung vào nghiên cứu cơ sở lý thuyết; tiếp cận với một hệ dịch EBMT cụ thể. Trên cơ sở kế thừa tinh thần chung của phương pháp, kết hợp với một số đề xuất, cải tiến nhằm nâng cao hiệu suất dịch, đồ án sẽ cài đặt một chương trình thử nghiệm. Tác giả không đặt mục tiêu rằng hệ thống có thể áp dụng ngay được trong thực tế, bởi nguồn ngữ liệu-Cơ sở tri thức mà máy “học” được-còn khiêm tốn, chưa thể có được một “độ bao phủ” đáng kể lên nguồn tri thức mênh mông của nhân loại.Một hệ thống thiết kế đúng, dịch tốt những câu “gần” với Sinh viên thực hiện: Lương Ngọc Quang- Khóa 47- Lớp CNPM 10 [...]... tâm hơn nữa đến cách tiếp cận này 18 Sinh viên thực hiện: Lương Ngọc Quang- Khóa 4 7- Lớp CNPM Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu 1.5 Nhiệm vụ, phạm vi của đồ án tốt nghiệp Đồ án tốt nghiệp cần phải thực hiện những nhiệm vụ sau: • Nghiên cứu sâu lý thuyết dịch máy dựa trên So khớp tập mẫu: Đặc trưng, mô hình tổng quát, cách xây dựng, huấn luyện và sử... Center for -Xây dựng hệ dịch Anh- Việt theo hướng tiếp cận Technology Progress Rule-Based 17 Sinh viên thực hiện: Lương Ngọc Quang- Khóa 4 7- Lớp CNPM Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu (Dr Le Khanh Hung) - Là đơn vị duy nhất (đến thời điểm hiện tại) có sản phẩm dịch máy đã được thương mại hóa (EVTRAN 2.0, EVTRAN 3.0 ) 2 Trường Đại học Khoa - ã nghiên cứu... xác định phần tương ứng Anh- Việt trong từng câu và ghép lại theo trật tự thích hợp, sẽ thu được câu dịch (3) 21 Sinh viên thực hiện: Lương Ngọc Quang- Khóa 4 7- Lớp CNPM Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu 2.2 Khái niệm, đặc điểm và sơ đồ khối 2.2.1 Khái niệm và sơ đồ khối EBMT là một trong hai chiến lược dịch máy dựa vào tập mẫu Khác với phương pháp... toán dịch máy • Tìm hiểu một số chiến lược dịch máy, tập trung vào 3 hướng tiếp cận chính: dịch trên nền luật, trên nền ví dụ và dịch dựa trên thống kê.Tình hình nghiên cứu dịch máy tại Việt Nam • Đề ra được nhiệm vụ cho đợt thực tập tốt nghiệp, gồm những nội dung chính là: 19 Sinh viên thực hiện: Lương Ngọc Quang- Khóa 4 7- Lớp CNPM Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận. .. pháp xây dựng từ điển học tự nhiên TP HCM song ngữ, tập ngữ liệu song ngữ (Dr Đinh Điền) -Nghiên cứu hướng tiếp cận dựa trên các luật chuyển đổi (Transfer based) cho hệ dịch Anh- Việt 3 Trường Đại học Bách -Phương pháp thống kê (Statistical) cho hệ dịc khoa TP HCM Việt -Anh (Pr Phan Thị Tươi) -Phương pháp dựa trên các ngữ (phrase) cho hệ dịch Anh- Việt 4 JAIST (Dr Lê Anh Cường) Trước đây: Tiếp cận theo hướng. .. Sinh viên thực hiện: Lương Ngọc Quang- Khóa 4 7- Lớp CNPM Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu (Pattern-03) We are watching Chúng tôi đang xem • an interesting performance một buổi biểu diễn thú vị • the Pattern-03 chính là mẫu của cả nhóm, và trong quá trình so khớp, nó được dùng đầu tiên như với... Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu Chương 3: Bài toán xây dựng hệ dịch tự động Anh- Việt dựa trên so khớp tập mẫu Những nội dung chính: • Nghiên cứu chi tiết hệ D3 (Dp-match Driven transDucer) và giải thuật DP-matching • Trên cơ sở phân tích những ưu, nhược điểm của hệ, đề xuất hệ thống các giải pháp để làm cho nó được tốt hơn, cụ thể là các vấn đề sau:... câu dịch cuối cùng Chương 2 cũng giới thiệu khái quát hai hệ dịch EBMT rất nổi tiếng hiện nay: hệ D3 và HPAT Trong chương tiếp theo, báo cáo sẽ nghiên cứu chi tiết hệ D3, lấy đó làm khung xây dựng nên hệ dịch Anh- Việt cho tác giả, đồng thời đề xuất hệ thống các giải thuật mới để làm cho hệ dịch được tốt hơn 35 Sinh viên thực hiện: Lương Ngọc Quang- Khóa 4 7- Lớp CNPM Xây dựng thử nghiệm hệ dịch tự động. .. Lương Ngọc Quang- Khóa 4 7- Lớp CNPM Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu Ngôn ngữ nguồn Phân tích hình thái Ngôn ngữ đích Tra từ điển song ngữ Sắp xếp trật tự từ đơn giản Hình 1 2 Sơ đồ khối của một hệ dịch trực tiếp 1.3.2 Dịch qua ngôn ngữ trung gian Xây dựng một ngôn ngữ trung gian biểu diễn độc lập với mọi ngôn ngữ tự nhiên và biểu diễn được mọi sự... Sinh viên thực hiện: Lương Ngọc Quang- Khóa 4 7- Lớp CNPM Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu Cách thức làm việc của HPA như sau: - Đầu tiên, 2 câu (chẳng hạn Tiếng Anh và Tiếng Việt) sẽ được phân tích cú pháp một cách độc lập, kết quả thu được 2 cây cú pháp - Tiếp theo, sử dụng chương trình liên kết từ (alignement-program) để xác định các từ tương ứng . Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP 1. Định hướng đề tài tốt nghiệp Xây dựng thử nghiệm chương trình dịch. Progress -Xây dựng hệ dịch Anh- Việt theo hướng tiếp cận Rule-Based. Sinh viên thực hiện: Lương Ngọc Quang- Khóa 4 7- Lớp CNPM 17 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So. Lương Ngọc Quang- Khóa 4 7- Lớp CNPM 3 Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận “ So khớp tập mẫu LỜI CẢM ƠN Sau gần sáu tháng thực hiện Đồ án tốt nghiệp, đến nay mọi

Ngày đăng: 06/05/2015, 10:35

Từ khóa liên quan

Mục lục

  • DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT

  • DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN

  • DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN

  • LỜI NÓI ĐẦU

  • Chương 1: Tổng quan về dịch máy

    • 1.1. Lịch sử của dịch máy:

    • 1.2. Khái niệm, kiến trúc và vai trò của dịch máy trong việc thúc đẩy sự phát triển của lý thuyết ngôn ngữ

    • 1.3. Một số chiến lược dịch máy điển hình

      • 1.3.1. Dịch trực tiếp

      • 1.3.2. Dịch qua ngôn ngữ trung gian

      • 1.3.3. Dịch dựa trên sự chuyển đổi

      • 1.3.4. Dịch máy thống kê

      • 1.3.5. Dịch dựa trên ví dụ (Dịch so khớp tập mẫu)

      • 1.4. Sơ lược về tình hình nghiên cứu và triển khai dịch máy tại Việt Nam hiện nay

      • 1.5. Nhiệm vụ, phạm vi của đồ án tốt nghiệp

      • Chương 2: Lý thuyết dịch máy dựa trên so khớp tập mẫu

        • 2.1. Vài nét về lịch sử của lý thuyết EBMT

        • 2.2. Khái niệm, đặc điểm và sơ đồ khối

          • 2.2.1. Khái niệm và sơ đồ khối

          • 2.2.2. Phân biệt EBMT với TM (Translation Memory)

          • 2.3. Kho ngữ liệu song ngữ (Parallel corpus-PC)

            • 2.3.1. Giới thiệu chung

            • 2.3.2. Huấn luyện PC và tiền xử lý văn bản đầu vào bằng thư viện OpenNLP

              • 2.3.2.1. Gán nhãn từ loại (POS-Tagging)

              • 2.3.2.2. Phân đoạn (Chunking)

              • 2.3.2.3. Phân tích cú pháp đầy đủ(Parsing)

Tài liệu cùng người dùng

Tài liệu liên quan