Mô hình chuyển ngữ tiếng nước ngoài trong hệ thống tổng hợp tiếng nói tiếng việt

66 402 1
Mô hình chuyển ngữ tiếng nước ngoài trong hệ thống tổng hợp tiếng nói tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN CAO XUÂN NAM MÔ HÌNH CHUYỂN NGỮ TIẾNG NƯỚC NGOÀI TRONG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: VŨ HẢI QUÂN TS. Thành phố Hồ Chí Minh - 2010 i MỤC LỤC MỤC LỤC i DANH SÁCH CÁC HÌNH iii DANH SÁCH CÁC BẢNG iv DANH SÁCH CÁC TỪ VIẾT TẮT v CHƢƠNG 1. GIỚI THIỆU 1 1.1. Đặt vấn đề 1 1.2. Hƣớng tiếp cận đề tài 3 1.3. Nội dung luận văn 4 CHƢƠNG 2. TỔNG QUÁT 6 2.1. Bài toán chuyển ngữ 6 2.2. Các hƣớng tiếp cận giải quyết bài toán 6 2.2.1. Phƣơng pháp dựa trên từ điển 6 2.2.2. Phƣơng pháp dựa trên luật 6 2.2.3. Phƣơng pháp hƣớng dữ liệu 8 2.2.3.1. Những kỹ thuật dựa trên phân lớp cục bộ 8 2.2.3.2. Những kỹ thuật dựa trên cách phát âm tƣơng đồng 10 2.2.3.3. Những kỹ thuật dựa trên xác suất 11 CHƢƠNG 3. CƠ SỞ LÝ THUYẾT 13 3.1. Mô hình N-gram 13 3.1.1. Thuật toán Good-Turing Discounting 14 3.1.2. Thuật toán Backoff 15 3.2. Căn chỉnh từ 16 3.3. Thuật toán Beam Search 20 3.3.1. Translation Options 22 3.3.2. Beam Search 22 3.3.3. Cải tiến 25 ii 3.3.3.1. Tái kết hợp giả thuyết 26 3.3.3.2. Tỉa 27 CHƢƠNG 4. CÁC MÔ HÌNH CHUYỂN NGỮ 29 4.1. Mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê 29 4.1.1. Chuẩn bị ngữ liệu 29 4.1.2. Xây dựng hệ thống chuyển ngữ 30 4.2. Mô hình Joint-Sequence 32 4.2.1. Chuẩn bị ngữ liệu 36 4.2.2. Xây dựng tập graphones 36 4.2.3. Quá trình chuyển ngữ 39 CHƢƠNG 5. THỰC NGHIỆM VÀ ĐÁNH GIÁ 41 5.1. Dữ liệu thực nghiệm 41 5.2. Phƣơng pháp và tiêu chí đánh giá 41 5.3. Các kết quả thực nghiệm 42 5.3.1. Mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê 42 5.3.1.1. Quá trình thực nghiệm 42 5.3.1.2. Các thí nghiệm liên quan 45 5.3.2. Mô hình joint-sequence 48 5.3.2.1. Quá trình thực nghiệm 48 5.3.2.2. Các thí nghiệm liên quan 50 5.4. So sánh kết quả thực nghiệm của hai mô hình 52 5.5. Đánh giá chung 52 CHƢƠNG 6. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 54 6.1. Kết luận 54 6.2. Hƣớng phát triển 55 TÀI LIỆU TRÍCH DẪN 56 PHỤ LỤC 63 Các mô hình của GIZA++ 63 iv DANH SÁCH CÁC BẢNG Bảng 5.1 - Bảng âm vị (nguyên âm) tiếng Việt 43 Bảng 5.2 - Bảng âm vị (phụ âm) tiếng Việt 43 Bảng 5.3 - Âm vị tiếng nƣớc ngoài với xác suất ánh xạ sang âm vị tiếng Việt 44 Bảng 5.4 - Kết quả đánh giá tỉ lệ lỗi của mô hình chuyển ngữ dựa trên dịch máy thống kê 46 Bảng 5.5 - Bảng đánh giá tỷ lệ lỗi khi áp dụng những mô hình ngôn ngữ và mô hình dịch khác nhau 47 Bảng 5.6 - Tỷ lệ lỗi trên tiếng (WER) đánh giá trên nhiều bộ dữ liệu 50 Bảng 5.7 - Tỷ lệ lỗi trên âm vị (PER) đánh giá trên nhiều bộ dữ liệu 50 Bảng 5.8 - So sánh tỷ lệ lỗi trên tiếng giữa hai mô hình 52 Bảng 5.9 - So sánh tỷ lệ lỗi âm vị giữa hai mô hình 52 Danh mục chữ viết tắt iv DANH MỤC CHỮ VIẾT TẮT AP : Alkaline phosphatase CHO : Chinese hamster ovary CR : Consensus region E’MEM : Eagle’s minimum essential media EDTA : Ethylenediaminetetraacetic acid EGFP : Enhanced green fluorescent protein ELISA : Enzyme-linked immunosorbent assay FBS : Fetal bovine serum KTĐD : Kháng thể đơn dòng HEPES : 4-(2-hydroxyethyl)-1-piperazineethanesulfonic acid HPV : Human papillomavirus LCR : Long control region mAb : Monoclonal antibody OD : Optical density PBS : Phosphate buffered saline PCR : Polymerase chain reaction PFA : Paraformaldehyde PLL : Poly – L – lysine pRB : Retinoblastoma tumor suppressor protein STD : Standard deviation URR : Upstream regulatory region UTCTC : Ung thư cổ tử cung Danh mục các hình và đồ thị v DANH MỤC CÁC HÌNH VÀ ĐỒ THỊ Trang Hình 1.1. Cấu trúc bộ gene của HPV 3  Hình 1.2. Cấu trúc của protein E7 5 Hình 1.3. Tác động của protein E7 lên các quá trình nội bào 6 Hình 1.4. Hệ thống phát hiện trực tiếp 13 Hình 1.5. Hệ thống avidin-biotin. 13 Hình 1.6. Hệ thống polymer – kháng thể thứ cấp – enzyme 14 Hình 1.7. ELISA và immuno PCR. Nguyên lý và độ nhạy của hai phương pháp 15 Hình 1.8. Immuno-PCR cổ điển, sử dụng protein lai giữa protein A và streptavidin 17  Hình 1.9. Immuno-PCR phổ biến. 18 Hình 1.10. Sơ đồ mô tả đoạn DNA marker được gắn cộng hợp vào kháng thể. 19 Hình 1.11. Immuno-PCR trực tiếp. 20 Hình 1.12. Immuno-PCR sử dụng các hạt từ phủ kháng thể 21 Hình 1.13. Immuno-PCR sử dụng “bio-barcode” 21 Hình 1.14. Immuno-PCR sử dụng LG protein và hệ thống phát hiện Tus-Ter 22 Hình 2.1. Buồng đếm hồng cầu 31 Hình 2.2. Sơ đồ phương pháp ELISA 38 Hình 2.3. Sơ đồ phương pháp checkerboard 38 Hình 2.4. Sơ đồ phương pháp immuno-PCR 39 Hình 3.1. Mô hình phương pháp lai hóa tế bào miễn dịch sử dụng trong đề tài. 41 Hình 3.2. Lai hóa tế bào miễn dịch sử dụng KTĐD 1D5 trên dòng tế bào HeLa và C33A với các nồng độ kháng thể 10 µg/ml (A1, A2), 5 µg/ml (B1, B2), 2,5 µg/ml (C1, C2). 42  Hình 3.3. Lai hóa tế bào miễn dịch sử dụng KTĐD 4H5 trên dòng tế bào HeLa và C33A với các nồng độ kháng thể 10 µg/ml (A1, A2), 5 µg/ml (B1, B2), 2,5 µg/ml (C1, C2). 43  Danh mục các hình và đồ thị vi Hình 3.4. Lai hóa tế bào miễn dịch sử dụng kháng thể 1D5 (10 µg/ml) trên các dòng tế bào HeLa (A), C33A (B), CHO-K1 chuyển vector pEGFP-E7HPV18 (C), CHO- K1 chuyển vector pEGFP-C2 (D), CaSki (E) 44  Hình 3.5. Lai hóa tế bào miễn dịch sử dụng kháng thể 4H5 (10 µg/ml) trên các dòng tế bào HeLa (A), C33A (B), CHO-K1 chuyển vector pEGFP-E7HPV18 (C), CHO- K1 chuyển vector pEGFP-C2 (D), CaSki (E) 45  Hình 3.6. Lai hóa tế bào miễn dịch trên dòng tế bào HeLa với kháng thể 1D5 (10 µg/ml), sử dụng tác nhân bộc lộ kháng nguyên là citrate pH 6 10 mM (A), EDTA pH 8 1 mM (B), không xử lý với tác nhân bộc lộ kháng nguyên (C). 46  Hình 3.7. Lai hóa tế bào miễn dịch trên mẫu tế bào HeLa (A), CaSki (B), C33A (C) xử lý theo phương pháp ly tâm và trải lên. 47  Hình 3.8. Lai hóa tế bào miễn dịch trên các mẫu tế bào dịch phết cổ tử cung 49 Hình 3.9. Mô hình kĩ thuật immuno-PCR và ELISA sử dụng trong đề tài. 50 Hình 3.10. Đồ thị xác định hằng số ái lực của KTĐD 4H5-biotin với kháng nguyên E7 HPV 18 tái tổ hợp tinh sạch. 53  Hình 3.11. PCR tạo DNA đánh dấu biotin. 54 Hình 3.12. Đồ thị khảo sát nồng độ kháng thể “bắt giữ” 1D5 55 Hình 3.13. Đồ thị khảo sát nồng độ kháng thể “phát hiện” 4H5-biotin 56 Hình 3.14. Đồ thị khảo sát nồng độ STV-AP 57 Hình 3.15. Tối ưu hóa nồng độ DNA đánh dấu biotin sử dụng cho immuno-PCR. . 58 Hình 3.16. Tối ưu hóa nồng độ streptavidin sử dụng cho immuno-PCR. 59 Hình 3.17. Tối ưu hóa tác nhân khóa giếng. 60 Hình 3.18. Kết quả immuno-PCR với protein E7 HPV 18 tái tổ hợp 61 1 CHƢƠNG 1. GIỚI THIỆU 1.1. Đặt vấn đề Tổng hợp tiếng nói (TTS) 1 là quá trình tạo ra giọng nói nhân tạo của ngƣời trên máy tính từ dữ liệu đầu vào là văn bản. Một hệ thống TTS gồm hai phần chính: phần đầu FE (front-end) và phần cuối BE (back-end). Phần đầu có hai nhiệm vụ cơ sở. Trƣớc tiên FE nhận văn bản và chuyển đổi các ký tự nhƣ các chữ số hay các chữ viết tắt sang dạng viết đầy đủ. Quá trình này đƣợc gọi là quá trình chuẩn hoá hay tiền xử lý văn bản. Sau đó FE sẽ chuyển từng từ thành các đơn vị ngữ âm, rồi phân chia đánh dấu văn bản thành từng đoạn, từng câu, hay từng cụm từ. Quá trình chuyển từng từ sang các đơn vị ngữ âm đƣợc gọi là phép chuyển văn bản sang âm vị (text-to-phoneme). Các đơn vị ngữ âm và các thông tin về ngữ điệu của đoạn văn kết hợp với nhau tạo nên thể hiện biểu tƣợng ngôn ngữ - đây chính là đầu ra của FE. BE nhận diện biểu tƣợng ngôn ngữ từ FE và chuyển nó thành âm thanh. Hình 1.1 - Mô hình tổng hợp tiếng nói cơ bản Các hệ thống TTS có nhiều ứng dụng trong cuộc sống hằng ngày. Ví dụ nhƣ nó có thể giúp cho ngƣời khiếm thị nghe đƣợc máy đọc ra nội dung của văn bản. Hệ thống TTS cũng có thể đƣợc lắp đặt trong các phần mềm xử lý văn bản hay trình duyệt mạng. Tuy nhiên khả năng áp dụng nhiều nhất của TTS là ở các ứng dụng hỏi đáp trực tiếp giữa ngƣời và máy. Chính vì khả năng ứng dụng thực tiễn lớn nhƣ vậy cho nên trên thế giới, các nghiên cứu về TTS đã đƣợc thực hiện rất sớm, từ những năm 1930 và tiếp tục phát triển đến ngày nay. 1 TTS là từ viết tắt của Text-To-Speech Phones + Ngữ âm Xử lý văn bản Tổng hợp tiếng nói 2 Các nghiên cứu trên thế giới về TTS vẫn đang hƣớng đến giải quyết hai yêu cầu cơ bản về chất lƣợng của tiếng nói tổng hợp, đó là mức độ tự nhiên và mức độ dễ nghe. Một hệ thống tổng hợp tiếng nói lý tƣởng là phải thỏa mãn ở mức tối đa hai tính chất này. - Mức độ tự nhiên chỉ sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của ngƣời thật. Việc cải tiến hệ thống tổng hợp tiếng nói theo hƣớng nâng mức độ tự nhiên lên là làm sao cho giọng đọc nhân tạo gần giống với giọng con ngƣời nhất, và thậm chí chúng ta muốn hệ thống có thể tạo ra nhiều giọng đọc khác nhau của con ngƣời. Chúng ta có thể sử dụng phƣơng pháp tổng hợp ghép nối để ghép các đoạn âm thanh đã thu sẵn giọng đọc con ngƣời lại tạo thành âm thanh tổng hợp, kết hợp phƣơng pháp chọn lựa đơn vị để chọn đơn vị âm thanh nào phù hợp với ngữ cảnh tổng hợp nhất. Hoặc có thể sử dụng kỹ thuật xử lý tín hiệu số để tạo ra giọng đọc mới dựa trên những thông số về cách phát âm của con ngƣời và làm trơn các đoạn ghép nối. Hoặc cũng có thể điều chỉnh ngữ điệu của giọng đọc sau khi tổng hợp cho phù hợp với ngữ cảnh, trạng thái cảm xúc của ngƣời đọc trong ngữ cảnh đó chẳng hạn nhƣ buồn, vui, ngạc nhiên - Mức độ dễ nghe chỉ đến việc câu phát âm có thể hiểu đƣợc dễ dàng không. Để hiểu đƣợc văn bản nói một cách dễ dàng, vấn đề trƣớc tiên cần phải giải quyết là văn bản nói phải phát âm gần nhƣ đầy đủ tất cả các từ ngữ chính trong văn bản đó. Một số trƣờng hợp có thể làm hệ thống TTS phát âm sai hoặc thậm chí là không phát âm đƣợc nhƣ chữ số, ký hiệu, từ viết tắt, tiếng nƣớc ngoài Nhƣ vậy, vấn đề nâng cao mức độ dễ nghe của hệ thống TTS là giải quyết nhập nhằng của các trƣờng hợp trên. Trong thực tế, một số hệ thống thiên về mức độ dễ nghe hơn, hoặc mức độ tự nhiên hơn tùy thuộc vào mục đích và công nghệ đƣợc lựa chọn. Đối với mức độ dễ nghe, các nghiên cứu trƣớc đây đa phần chỉ tập trung vào chuẩn hoá chữ số, ký hiệu, từ viết tắt, khử nhập nhằng từ ngữ Riêng phần hiểu tiếng nƣớc ngoài ít đƣợc tập trung nghiên cứu. Các hệ thống TTS hiện tại đa số 3 chỉ làm việc tốt trên văn bản thuần ngữ. Bởi vì các nghiên cứu này giả định làm việc trên văn bản thuần ngữ để tập trung nâng cao chất lƣợng tổng hợp theo hƣớng mức độ tự nhiên. Tuy nhiên, trên thực tế tin tức trên các trang web xuất hiện ngày càng nhiều tiếng nƣớc ngoài, đặc biệt là tên riêng. Do đó, vấn đề hiểu tiếng nƣớc ngoài trong quá trình tổng hợp tiếng nói là nhu cầu cần thiết. Một số khó khăn trong vấn đề hiểu tiếng nƣớc ngoài có thể chỉ ra nhƣ sau: - Số lƣợng từ nƣớc ngoài quá lớn, đặc biệt là tên riêng nƣớc ngoài, các tên mới gần nhƣ xuất hiện mỗi ngày. - Các hệ thống khác nhau có giọng đọc khác nhau tuỳ thuộc vào dữ liệu huấn luyện. Do đó, khó có thể phối hợp giữa các hệ thống khác nhau đƣợc. Ví dụ nhƣ khó có thể sử dụng hệ thống tổng hợp tiếng nƣớc ngoài ráp vào hệ thống tổng hợp tiếng Việt đƣợc. Vì những khó khăn kể trên cũng nhƣ tầm quan trọng của bài toán, vấn đề đặt ra cho đề tài là tìm ra phƣơng pháp hiệu quả có thể giải quyết đƣợc phần lớn các khó khăn kể trên để nâng cao chất lƣợng của hệ thống tổng hợp tiếng nói. 1.2. Hướng tiếp cận đề tài Để giải quyết bài toán đặt ra, hƣớng tiếp cận chính của đề tài là dựa trên sự tƣơng đồng về cách phát âm, chuyển tiếng nƣớc ngoài thành chuỗi tiếng của ngôn ngữ gốc mà có cùng cách phát âm. Ví dụ, “David” (tên riêng tiếng Anh) sẽ đƣợc chuyển thành “đa vít” (có cùng cách phát âm trong tiếng Việt). Quá trình này gọi là quá trình chuyển ngữ. Trong đề này này, tôi sử dụng hai phƣơng pháp để thực hiện chuyển ngữ cụ thể nhƣ sau: 1. Phƣơng pháp chuyển ngữ dựa trên kỹ thuật dịch máy thống kê: Kỹ thuật dịch máy thống kê đã phát triển từ rất lâu, kỹ thuật này thực hiện việc dịch một ngôn ngữ này (hay còn gọi là ngôn ngữ nguồn) sang ngôn ngữ khác (hay còn gọi là ngôn ngữ đích) một cách tự động. Những đơn vị cơ bản dùng để dịch có thể là tiếng, từ hoặc cụm từ. Dựa trên ý tƣởng của dịch máy thống kê, [...]... (VP) Đ A V Í T Chuyển ngữ tiếng Việt (VT) ĐA VÍT Hình 4.1 - Ba bước quá trình chuyển ngữ tiếng nước ngoài sang tiếng Việt Đầu tiên hệ thống sử dụng hệ thống tổng hợp tiếng nói Festival chuyển tiếng nƣớc ngoài DAVID thành chuỗi âm vị D EY V IH D Từ các âm vị tiếng nƣớc ngoài này, hệ thống sử dụng một mô hình dịch máy thống kê để dịch chuỗi âm vị tiếng nƣớc ngoài thành chuỗi âm vị tiếng Việt tƣơng ứng... bày tổng quan các lý thuyết mô hình đƣợc dùng trong đề tài nhƣ mô hình dịch, mô hình ngôn ngữ N-gram, thuật toán Beam Search  Chƣơng 4 – CÁC MÔ HÌNH CHUYỂN NGỮ: trình bày hai mô hình chuyển ngữ trong đề tài là mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê và mô hình chuyển ngữ joint-sequence, quá trình chuẩn bị dữ liệu huấn luyện cho từng mô hình, xây dựng mô hình và quá trình chuyển ngữ. .. bộ từ điển chuyển ngữ tiếng nƣớc ngoài sang cách phát âm tiếng Việt đƣợc thiết kế thủ công với khoảng 7543 cặp từ; xây dựng các mô hình chuyển ngữ tiếng nƣớc ngoài sang cách phiên âm tiếng Việt trong văn bản tiếng Việt; so sánh đánh giá những phƣơng pháp chuyển ngữ đƣợc áp dụng trong tiếng Việt và chọn ra phƣơng pháp chuyển ngữ cho độ chính xác cao nhất ứng dụng vào hệ thống tổng hợp tiếng nói phƣơng... huấn luyện mô hình dịch, chúng ta sử dụng 6 mô hình trên tích hợp lại với nhau, đầu ra của mô hình này sẽ là đầu vào của mô hình tiếp theo Mỗi mô hình có thể thực hiện nhiều lần Các pha huấn luyện mô hình dịch bằng GIZA++ đƣợc mô tả trong Hình 3.2 5 lần 3 lần 3 lần 3 lần Kho ngữ mô mô mô mô Tập dữ liệu liệu song hình hình hình hình đã đƣợc căn 1 2 3 4 ngữ chỉnh Hình 3.2 - Các pha huấn luyện mô hình dịch... 4.1 Mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê Mô hình chuyển ngữ này sử dụng kĩ thuật dịch máy thống kê để “dịch” chuỗi âm vị tiếng nƣớc ngoài thành chuỗi các âm vị tiếng Việt tƣơng ứng rồi ánh xạ chuỗi âm vị này thành tiếng Việt Quá trình chuyển ngữ đƣợc chia làm nhiều bƣớc đƣợc minh hoạ trong Hình 4.1 Tiếng nước ngoài (FN) DAVID Âm vị tiếng nước ngoài (FP) D EY V IH D Âm vị tiếng Việt. .. luật tạo tiếng của ngôn ngữ tiếng Việt để gom nhóm các âm vị thích hợp lại với nhau tạo thành chuyển ngữ tiếng Việt ĐA VÍT 4.1.1 Chuẩn bị ngữ liệu Ngữ liệu dùng để huấn luyện mô hình chuyển ngữ gồm các cặp tiếng nƣớc ngoài và chuỗi các âm vị tiếng Việt không dấu tƣơng ứng Tôi sử dụng thuật ngữ ngữ liệu song ngữ để mô tả ngữ liệu trong ngữ cảnh này Ví dụ, DAVID / ĐA VÍT hay OBAMA / Ô BA MA Kho ngữ liệu... dụng trong tài liệu 6 CHƢƠNG 2 TỔNG QUÁT Chƣơng này sẽ mô tả các vấn đề lý thuyết về bài toán chuyển ngữ và các mô hình khác nhau để giải quyết bài toán này 2.1 Bài toán chuyển ngữ Chuyển ngữ là quá trình chuyển một chuỗi từ trong ngôn ngữ nguồn thành một chuỗi từ trong ngôn ngữ đích có cùng cách phát âm Chuyển ngữ đƣợc phân thành hai hƣớng chính: cho một cặp (o,t) trong đó o là một từ trong ngôn ngữ. .. các non-string17 Mô hình IBM-5 là một cải tiến của mô hình IBM-4 với một mô hình căn chỉnh đƣợc tinh chỉnh phù hợp để tránh những thiếu sót của mô hình trên Nhƣ vậy điểm khác nhau chủ yếu giữa các mô hình nằm trong mô hình căn chỉnh, có thể là zero-order hoặc first-order, cùng với sự tồn tại của mô hình fertility mở rộng để cải tiến bất kỳ lúc nào mô hình chƣa hoàn chỉnh Đối với mô hình HMM, IBM-4 và... nƣớc ngoài theo nhiều cách khác nhau, mỗi phần tử mang một chi phí cij Để xấp xỉ chi phí cho một con đƣờng đi, chúng ta xấp xỉ thông qua chuỗi các translation option c01c12c25=0.0052*0.1255*0.0003 =1.9578*10-7 29 CHƢƠNG 4 CÁC MÔ HÌNH CHUYỂN NGỮ Chƣơng này minh hoạ hai mô hình chuyển ngữ đƣợc thực hiện trong đề tài này, mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê và mô hình chuyển ngữ joint-sequence... trong mô hình này chúng ta có một mô hình căn chỉnh zero-order đảo ngƣợc p( j | a j , I , J ) với mô hình fertility16 bổ sung p( | e) mà mô tả số lƣợng từ  đƣợc căn chỉnh với một từ trong chuỗi đích e  Mô hình IBM-4 : trong mô hình này chúng ta có một mô hình căn chỉnh first-order đảo ngƣợc p( j | j ' ) và một mô hình fertility p( | e)  Mô hình IBM-5 : các mô hình IBM-3 và IBM-4 chƣa hoàn chỉnh . TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN CAO XUÂN NAM MÔ HÌNH CHUYỂN NGỮ TIẾNG NƯỚC NGOÀI TRONG HỆ THỐNG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01. bày tổng quan các lý thuyết mô hình đƣợc dùng trong đề tài nhƣ mô hình dịch, mô hình ngôn ngữ N-gram, thuật toán Beam Search.  Chƣơng 4 – CÁC MÔ HÌNH CHUYỂN NGỮ: trình bày hai mô hình chuyển. điển chuyển ngữ tiếng nƣớc ngoài sang cách phát âm tiếng Việt đƣợc thiết kế thủ công với khoảng 7543 cặp từ; xây dựng các mô hình chuyển ngữ tiếng nƣớc ngoài sang cách phiên âm tiếng Việt trong

Ngày đăng: 09/10/2014, 21:08

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan