nghiên cứu về tổng hợp tiếng việt và các ứng dụng

109 628 0
nghiên cứu về tổng hợp tiếng việt và các ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lê Tuấn Anh – Cao học khóa 2010 - 2012 TỔNG HỢP TIẾNG VIỆT i GIỚI THIỆU Tổng hợp tiếng nói đã được biết đến và nghiên cứu khá rộng rãi trên thế giới. Kết quả thu được rất khả quan, là tiền đề quan trọng cho sự giao tiếp giữa người và máy. Có khá nhiều ngôn ngữ đã được tổng hợp thành công với chất lượng khá tốt như tiếng Anh, tiếng Pháp và đã được ứng dụng trong nhiều lĩnh vực. Ở Việt nam, các nghiên cứu trong lĩnh vực này tuy mới phát triển nhưng cũng đã có một số kết quả khả quan. Với mục đích góp phần vào việc phát triển kỹ thuật tổng hợp tiếng Việt, luận văn “NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG VIỆT VÀ CÁC ỨNG DỤNG” sẽ tập trung vào những một số nội dung, bao gồm: trình bày các đặc trưng và các cách biểu diễn của tín hiệu tiếng nói; các phương pháp khác nhau trong tổng hợp tiếng nói; giải thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA; giới thiệu mô hình phần mềm kỹ thuật tổng hợp tiếng Việt và các lĩnh vực thực tế có khả năng ứng dụng. Học viên: Lê Tuấn Anh Lớp: Cao học Điện tử K3 2010 – 2012 Trường: Viện Đại học Mở Hà Nội – Khoa Sau Đại học Thầy hướng dẫn: TS. Nguyễn Hoàng Lê Tuấn Anh – Cao học khóa 2010 - 2012 TỔNG HỢP TIẾNG VIỆT ii LỜI CẢM ƠN Luận văn Thạc sỹ chuyên ngành Kỹ thuật Điện tử với đề tài “ NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG VIỆT VÀ CÁC ỨNG DỤNG” đã được hoàn thành, là kết quả của quá trình nghiên cứu và học tập tại Khoa Sau Đại học - Viện Đại học Mở Hà Nội. Đạt được kết quả này, ngoài nỗ lực bản thân còn có sự giúp đỡ của rất nhiều người. Trước hết, tôi xin gửi lời cảm ơn tới toàn thể gia đình tôi, những người đã cho tôi một điểm tựa vững chắc, cho tôi niềm tin vượt qua mọi khó khăn để hoàn thành tốt quá trình học tập của mình. Tôi xin bày tỏ lòng biết ơn tới Thầy giáo - Tiến sỹ Nguyễn Hoàng, người đã luôn tận tình hướng dẫn tôi trong suốt quá trình nghiên cứu, các thầy cô giáo của Khoa Sau Đại học - Viện Đại học Mở Hà Nội, những người đã trang bị cho tôi kiến thức, chuyên môn, là cở sở để tôi thực hiện luận văn này. Cuối cùng, tôi xin chân thành cảm ơn bạn bè và đồng nghiệp của tôi, những người đã giúp đỡ tôi trong học tập, trong công việc để tôi có thể hoàn thành tốt nhiệm vụ của mình. Hà Nội, tháng 10 năm 2012. Học viên LÊ TUẤN ANH Lớp CH Kỹ thuật Điện tử K3, 2010 - 2012 1 MỤC LỤC MỤC LỤC 6 DANH SÁCH HÌNH VẼ VÀ BẢNG BIỂU 4 LỜI NÓI ĐẦU 4 CHƯƠNG I: ĐẶC ĐIỂM ÂM HỌC VÀ BIỂU DIỄN TÍN HIỆU TIẾNG NÓI 8 1.1. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI 9 1.1.1. Cơ chế phát âm 9 1.1.1.1. Bộ máy phát âm: 9 1.1.1.2. Cơ chế phát âm: 10 1.1.2. Âm hữu thanh và âm vô thanh 10 1.1.2.1. Âm hữu thanh: 10 1.1.2.2. Âm vô thanh 10 1.1.3. Âm vị 11 1.1.3.1. Nguyên âm: 11 1.1.3.2. Phụ âm: 11 1.1.4. Âm tiết và từ ngữ 11 1.1.4.1. Âm tiết 11 1.1.4.2. Đặc điểm của âm tiết tiếng Việt 12 1.1.5. Các đặc tính khác: 13 1.1.5.1. Tỷ suất thời gian 13 1.1.5.2. Hàm năng lượng thời gian ngắn 13 1.1.5.3. Tần số cơ bản: 14 1.1.5.4. Formant và Antiformant: 14 1.2. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI 15 1.2.1. Biểu diễn tín hiệu tiếng nói dưới dạng số 15 1.2.1.1. Xác định tần số lấy mẫu 18 1.2.1.2. Lượng tử hóa 19 1.2.1.3. Nén tín hiệu tiếng nói 19 1.2.2. Mã hóa tín hiệu tiếng nói 20 1.2.2.1. Mã hóa trực tiếp tín hiệu 20 1.2.2.2. Mã hóa tham số tín hiệu 21 1.2.3. Các phương pháp biểu diễn tín hiệu tiếng nói 22 1.2.3.1. Dạng sóng theo thời gian 22 1.2.3.2. Phổ tín hiệu tiếng nói 23 1.2.3.3. Biểu diễn tín hiệu tiếng nói trong không gian ba chiều (Sonagram) 24 1.3. MÔ HÌNH TẠO TIẾNG NÓI 26 CHƯƠNG II: TỔNG HỢP TIẾNG NÓI 32 2.1. MỞ ĐẦU 32 2.2. CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 32 2.2.1. Phương pháp mô phỏng hệ thống phát âm 33 2.2.2. Phương pháp tổng hợp Formant 33 2.2.2.1. Bộ tổng hợp formant nối tiếp 34 2 2.2.2.2. Bộ tổng hợp formant song song 34 2.2.3. Phương pháp tổng hợp trực tiếp 35 2.2.3.1. Phương pháp tổng hợp trực tiếp đơn giản 35 2.2.3.2. Phương pháp tổng hợp PSOLA 37 2.2.3.3. Các phiên bản của PSOLA 38 2.3. TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN 40 2.3.1. Tổng hợp mức cao 40 2.3.1.1. Xử lý văn bản 40 2.3.1.2. Phân tích cách phát âm 41 2.3.1.3. Ngôn điệu 42 2.3.2. Tổng hợp mức thấp 42 2.4. SO SÁNH CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI 43 CHƯƠNG III: TD-PSOLA 45 3.1. GIẢI THUẬT PSOLA 45 3.1.1. Phân tích PSOLA 45 3.1.1.1. Bước 1: Tìm cực đại địa phương của hàm năng lượng. 46 3.1.1.2. Bước 2: Tối ưu tính tuần hoàn và năng lượng cực đại 47 3.1.2. Tổng hợp PSOLA 47 3.2. THAY ĐỔI TẦN SỐ CỦA TÍN HIỆU 48 3.3. TD-PSOLA VÀ TÍN HIỆU TIẾNG NÓI 51 3.4. CÁC VẤN ĐỀ LIÊN QUAN 52 3.4.1. Xác định tần số cơ bản 52 3.4.1.1. Dùng hàm tự tương quan 53 3.4.1.2. Dùng hàm vi sai biên độ trung bình 55 3.4.1.3. Sử dụng tốc độ trở về không - zero crossing rate 56 3.4.1.4. Phương pháp sử dụng STFT 57 3.4.2. Làm trơn tín hiệu khi ghép nối 58 3.4.2.1. Phương pháp Microphonemic 58 3.4.2.2. Mô hình hình sin 59 CHƯƠNG IV : XÂY DỰNG MÔ HÌNH CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT.62 4.1. PHÂN TÍCH GIẢI THUẬT 62 4.2. DIPHONE TRONG TIẾNG VIỆT 65 4.3. XÂY DỰNG CƠ SỞ DỮ LIỆU 67 4.3.1. Thu âm 68 4.3.1.1. Quá trình thu âm 68 4.3.1.2. Xử lý sau khi thu 68 4.3.2. Tách diphone 68 4.3.3. Lưu trữ dữ liệu 69 4.4. XỬ LÝ VÀ PHÂN TÍCH VĂN BẢN 71 4.4.1. Phân tích văn bản tiếng Việt thành các từ 71 4.4.1.1. Xác định câu trong văn bản 71 4.4.1.2. Xử lý câu 72 4.4.2. Tách từ thành các diphone 74 3 4.4.2.1. Chuyển từ biểu diễn tiếng Việt sang biểu diễn dạng telex 74 4.4.2.2 Tách từ thành hai diphone 75 4.5. GHÉP NỐI DIPHONE VÀ THAY ĐỔI TẦN SỐ CƠ BẢN 77 4.5.1. Ghép nối các diphone 77 4.5.1.1. Đặt vấn đề 77 4.5.1.2. Phân tích vấn đề 78 4.5.1.3. Giải pháp và các bước thực hiện 78 4.5.2. Ghép nối các diphone tạo thành các từ có dấu 80 4.5.2.1. Từ tạo thành từ các diphone thông thường. 81 4.5.2.2. Từ tạo thành từ các diphone đặc biệt 85 4.6. GIỚI THIỆU MỘT SỐ PHẦN MỀM TỔNG HỢP TIẾNG VIỆT 86 4.6.1. Vnspeech 86 4.6.1.1. Giới thiệu 86 4.6.1.2. Hệ TTS tiếng việt - VNSPEECH 86 4.6.2. NHMTTS 91 4.6.3 DovisocoTextAloRec 92 4.6.3.1 Đặc điểm của DovisocoTextAloRec 92 4.6.3.2 Cài đặt và sử dụng 93 CHƯƠNG V: ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 96 5.1. ỨNG DỤNG CHO NGƯỜI KHIẾM THỊ 96 5.2. ỨNG DỤNG CHO NGƯỜI KHIẾM TÍNH VÀ KHUYẾT TẬT TIẾNG NÓI.98 5.3. ỨNG DỤNG TRONG GIÁO DỤC 99 5.4. ỨNG DỤNG TRONG VIỄN THÔNG VÀ ĐA PHƯƠNG TIỆN 99 5.5. CÁC ỨNG DỤNG KHÁC VÀ XU THẾ PHÁT TRIỂN 100 KẾT LUẬN 101 PHỤ LỤC 103 BẢNG THỐNG KẾ CÁC ÂM VỊ KÉP (DIPHONE) 103 Bảng các diphone tiếng Việt 103 Bảng thống kê các vần làm phụ âm đầu trong tiếng Việt 104 Bảng thống kế các vần làm âm sau trong tiếng Việt 104 TÀI LIỆU THAM KHẢO 107 4 DANH SÁCH HÌNH VẼ VÀ BẢNG BIỂU Hình 1.1: Bộ máy phát âm của con người 9 Hình 1.2: Đường bao phổ và các Formant 15 Hình 1.3: Biểu diễn tín hiệu tiếng nói 16 Hình 1.4: Thông lượng cho các phương pháp biểu diễn tiếng nói 17 Hình 1.5: Dạng sóng theo thời gian 23 Hình 1.6: Phổ tín hiệu tiếng nói với số mẫu khác nhau 23 Hình 1.7: Chia tín hiệu thành các khung cửa sổ 24 Hình 1.8: Phổ của một khung cửa sổ 24 Hình 1.9: Các khung cửa sổ liền nhau và spectrogram tương ứng 25 Hình 1.10: Âm hữu thanh 25 Hình 1.11: Âm vô thanh 26 Hình 1.12: Mô hình hóa nguồn âm đối với âm hữu thanh 26 Hình 1.13: Chuỗi 5 đoạn ống âm học lý tưởng 27 Hình 1.14: Cách biểu diễn lý học và toán học 29 Hình 1.15: Mô hình số của hệ thống phát âm 29 Hình 2.1: Một vài ứng dụng xử lý tiếng nói 32 Hình 2.2: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp 34 Hình 2.3: Cấu trúc cơ bản của một bộ tổng hợp formant song song 35 Hình 2.4: So sánh kết quả từ bản tin tổng hợp trực tiếp và bản tin nguyên thủy 37 Hình 2.5: Mô hình tổng hợp tiếng nói 40 Hình 2.6: Sự phụ thuộc của ngôn điệu vào các yếu tố 42 Hình 3.1: Xác định cực đại địa phương của hàm năng lượng 46 Hình 3.2: Cộng xếp chồng các đoạn tín hiệu 48 Hình 3.3: Quá trình làm thay đổi tần số của tín hiệu 49 Hình 3.4: Sự thay đổi tần số và thời gian với TD-PSOLA 51 Hình 3.5: Hàm tự tương quan đối với âm hữu thanh 54 Hình 3.6: Mô tả hàm vi sai biên độ trung bình 56 Hình 3.7: Sự nén tần số 57 Hình 3.8: Ảnh phổ đã qua xử lý làm trơn tuyến tính trên miền thời gian 60 Hình 3.9: Xử lý làm trơn tuyến tính miền thời gian 61 Hình 4.1: Sơ đồ tổng hợp tiếng Việt từ văn bản 64 Hình 4.2: Lưu đồ thuật toán xác định câu trong văn bản 72 Hình 4.3: Sự biến đổi tần số cơ bản của từ theo tần số cơ bản của câu 73 Hình 4.4: Lưu đồ thuật toán xác định từ trong câu 74 Hình 4.5: Lưu đồ thuật toán xác định vị trí nguyên âm đầu tiên 76 Hình 4.6: Ghép nối hai diphone 78 Hình 4.7: Vị trí lấy cửa sổ 79 Hình 4.8: Cộng xếp chồng các tín hiệu thành phần 79 Hình 4.9: Lưu đồ ghép nối 2 diphone để tạo thành từ. 80 Hình 4.10: Biểu diễn tần số cơ bản của từ theo thời gian 81 Hình 4.11: Thanh điệu không dấu (âm a) 82 5 Hình 4.12: Dấu huyền (âm à) 82 Hình 4.13: Dấu sắc (âm á) 82 Hình 4.14: Dấu hỏi (âm ả) 83 Hình 4.15: Dấu nặng (âm ạ) 83 Hình 4.16: Dấu ngã (âm ã) 83 Hình 4.17: Tính chu kỳ cơ bản F 0 tại điểm i 84 Hình 4.18: Sơ đồ khối tổng hợp diphone đặc biệt 85 Hình 4.19: Sơ đồ khối hệ Vnspeech 87 Hình 4.20: Giao diện VnSpeech 88 Hình 4.21: Giao diện của NHMTTS 91 Hình 4.22: Giao diện cửa sổ Setting của DovisocoTextAloud 95 Bảng 1: Các diphone trong tiếng Việt 67 Bảng 2: Cấu trúc dữ liệu cho một diphone 69 Bảng 3: Cấu trúc lưu trữ của file cơ sở dữ liệu 70 Bảng 4: Các loại dấu câu 71 6 LỜI NÓI ĐẦU Tiếng nói là một phương tiện trao đổi thông tin tiện ích vốn có của con người. Cùng với sự phát triển không ngừng của công nghệ máy tính và vai trò của nó trong đời sống của con người, nhu cầu tăng tốc độ trao đổi thông tin giữa con người và máy tính bằng cách sử dụng tiếng nói, trở thành một yêu cầu cấp thiết. Ước mơ về những "máy nói" đã xuất hiện từ lâu trong các bộ phim khoa học viễn tưởng, nay trở thành động lực thôi thúc nhiều nhà nghiên cứu, nhóm nghiên cứu trên thế giới. Hoạt động nghiên cứu về tiếng nói đã trải qua gần một thế kỷ đã đạt được nhiều thành tựu to lớn, tuy nhiên, việc có được một "máy nói" mang tính tự nhiên (về giọng điệu, phát âm, ) vẫn còn khá xa vời. Sự phát triển nhanh chóng của công nghệ và khoa học kỹ thuật đã mang lại những cơ hội mới cho lĩnh vực xử lý tiếng nói, trong đó có tổng hợp tiếng nói. Tổng hợp tiếng nói là lĩnh vực đang được nghiên cứu khá rộng rãi trên thế giới và đã cho những kết quả khá tốt. Có ba phương pháp cơ bản dùng để tổng hợp tiếng nói là mô phỏng bộ máy phát âm, tổng hợp bằng formant và tổng hợp bằng cách ghép nối. Phương pháp mô phỏng bộ máy phát âm cho chất lượng tốt nhưng đòi hỏi nhiều tính toán vì việc mô phỏng chính xác bộ máy phát âm rất phức tạp. Phương pháp tổng hợp formant không đòi hỏi chi phí cao trong tính toán nhưng cho kết quả chưa tốt. Phương pháp tổng hợp ghép nối cho chất lượng tốt, chí phí tính toán không cao nhưng số lượng từ vựng phải rất lớn. Ở các nước phát triển, những nghiên cứu xử lý tiếng nói, đã cho các kết quả khả quan, làm tiền đề cho việc giao tiếp người-máy bằng tiếng nói. Ở Việt Nam, các nghiên cứu trong lĩnh vực này tuy mới được phát triển trong những năm gần đây nhưng cũng đã có một số kết quả khả quan. Với mục đích góp phần vào sự phát triển của tổng hợp tiếng Việt, luận văn này đề cập đến việc nghiên cứu tổng hợp tiếng Việt bằng phương pháp ghép nối dựa trên giải thuật TD-PSOLA. TD-PSOLA là phiên bản trên miền thời gian của giải thuật PSOLA (Pitch Synchronous Overlap-Add). Với PSOLA, tín hiệu tổng hợp được tạo nên bằng cách 7 cộng xếp chồng (Overlap-Add) các đoạn tín hiệu thành phần. Giải thuật này cho phép thao tác trực tiếp với tín hiệu tiếng nói trên miền thời gian, thay đổi tần số cơ bản và độ dài của tín hiệu. Để giảm số lượng từ vựng khi xây dựng ứng dụng, các từ tiếng Việt sẽ được tổng hợp từ các diphone. Sau khi nghiên cứu về mặt lý thuyết, luận văn này cũng trình bày việc áp dụng thuật toán để xây dựng mô hình chương trình tổng hợp tiếng Việt từ văn bản, giới thiệu một số phần mềm đã hoàn thiện và các ứng dụng thực tế của lý thuyết tổng hợp tiếng Việt. Với nội dung như vậy, luận văn được chia làm 5 chương: CHƯƠNG I: ĐẶC ĐIỂM ÂM HỌC VÀ BIỂU DIỄN TÍN HIỆU TIẾNG NÓI Chương này đề cập tới những vấn đề cơ bản nhất về các đặc trưng và các cách biểu diễn của tín hiệu tiếng nói. CHƯƠNG II: TỔNG HỢP TIẾNG NÓI Trình bày các phương pháp khác nhau trong tổng hợp tiếng nói đồng thời đưa ra đánh giá về hiệu quả của các phương pháp này. CHƯƠNG III: TD-PSOLA Chương này trình bày chi tiết về giải thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA, đồng thời cũng đề cập tới các vấn đề liên quan khi áp dụng cho tín hiệu tiếng nói. CHƯƠNG IV: XÂY DỰNG MÔ HÌNH CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT Dựa trên các nghiên cứu lý thuyết trong chương III, chương này sẽ trình bày cách áp dụng thuật toán TD-PSOLA để xây dựng chương trình tổng hợp tiếng Việt từ văn bản. CHƯƠNG V: ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 8 CHƯƠNG I. ĐẶC ĐIỂM ÂM HỌC VÀ BIỂU DIỄN TÍN HIỆU TIẾNG NÓI Tiếng nói là một phương tiện trao đổi thông tin của con người. Tiếng nói được tạo ra từ tư duy của con người: trung khu thần kinh điều khiển hệ thống phát âm làm việc và tạo ra âm thanh. Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói. Về bản chất, tiếng nói là sự dao động của không khí có mang theo thông tin. Các dao động này tạo thành những áp lực đến tai và được tai phát hiện, phân tích và chuyển kết quả đến trung khu thần kinh. Lúc này tại trung khu thần kinh, thông tin được tái tạo lại dưới dạng tư duy logic mà con người có thể hiểu được. Các tín hiệu tiếng nói là tập hợp của dãy các âm. Các âm này và các chuyển giọng (transitions) giữa chúng dùng làm biểu diễn ký hiệu thông tin. Việc sắp xếp các âm (các ký hiệu) này tuân theo các quy tắc của ngôn ngữ. Nghiên cứu các quy tắc này và sử dụng chúng trong thông tin là lĩnh vực ngôn ngữ học (linguistics). Việc nghiên cứu và phân loại các âm của ngôn ngữ gọi là ngữ âm học (phonetics). Ta sẽ không xét chi tiết về ngữ âm và ngôn ngữ học. Tuy nhiên, việc xử lý các tín hiệu ngôn ngữ để tăng cường và trích xuất thông tin là điều cần xét để có kiến thức về cấu trúc của ký hiệu, về cách thông tin được mã hoá thành ký hiệu. Như vậy, phải thảo luận về các lớp chính của âm trước khi xem xét chi tiết các mô hình toán học của việc tạo ra các tín hiệu. Đó là tất cả những điều ta sẽ xét về ngữ âm học và ngôn ngữ, nhưng như vậy không có nghĩa là ta sẽ làm giảm đi tầm quan trọng của chúng, đặc biệt là ở các lĩnh vực nhận dạng (recognition) và tổng hợp (synthetics) tiếng nói. [...]... quan tr ng n các u tiên nh c tính c a các âm v , các formant còn l i cũng có nh hư ng song r t ít 14 T n s formant c trưng cho các nguyên âm bi n nói trong i u ki n phát âm nh t i tuỳ thu c vào ngư i nh M c dù ph m vi c a các t n s formant tương ng v i m i nguyên âm có th trùm lên nhau nhưng v trí gi a các formant là không i vì s xê d ch c a các formant là song song Hình 1.2: ư ng bao ph và các Formant... ta ph i xác nh ư c các tham s formant mô i v i t ng lo i âm v , do ó vi c ánh giá, ư c lư ng các formant có ý nghĩa r t quan tr ng T n s formant bi n i trong m t kho ng r ng ph thu c vào gi i tính c a ngư i nói và ph thu c vào các d ng âm v tương ng v i formant ó ng th i, formant còn ph thu c các âm v trư c và sau ó V c u trúc t nhiên, t n s formant có liên h ch t ch v i hình d ng và kích thư c tuy... 1 + 2 K +1 ∑α z −1 i i =1 là hàm truy n tc ab l c Các h s ai c a b l c oán tuy n tính xác o T(z) là hàm truy n t c a mô hình toàn i m c c o s là các tham s quan tr ng trong phương pháp d nh các formant c a tuy n âm H n ch c a mô hình này là không th t o ra các âm xát h u thanh và các âm mũi i v i các âm mũi mô hình trên ư c c i ti n b ng cách thêm vào ph n trưng cho mũi t song song v i mô hình Lúc... ng c th mà s lư ng các âm v nhi u hay ít (thông thư ng s lư ng các âm v vào kho ng 20 – 30) Các âm v ư c chia thành hai lo i: nguyên âm và ph âm 1.1.3.1 Nguyên âm: Nguyên âm là âm h u thanh ư c t o ra b ng s c ng hư ng c a dây thanh khi dòng khí ư c thanh môn d ng nh t y lên Khoang mi ng ư c t o l p thành nhi u hình nh t o thành các nguyên âm khác nhau S lư ng các nguyên âm ph thu c vào t ng ngôn ng... ph i ư c xây d ng m t cách liên t c, nghĩa là các tham s c a mô hình ph i bi n thiên theo th i gian S bi n thiên này r t ch m nên các tham s có th coi như không kho ng th i gian mà tín hi u ư c coi là d ng: 20 ms 31 i trong CHƯƠNG II T NG H P TI NG NÓI 2.1 M U chương u, chúng ta ã xem xét các tín hi u ti ng nói, ó cũng chính là cơ s c i m và các cách bi u di n c a hình thành nên các ng d ng trong lĩnh... ng d dàng ư c liên h v i các tính ch t c a m i quan h âm thanh-âm ti t (acoustic-phonetic) và có th quan sát ư c m t cách d dàng Phương pháp này yêu c u ph i t ng h p ư c t i thi u 3 formant hi u ư c ti ng nói, và có ư c ti ng nói ch t lư ng cao thì c n t i 5 formant Ti ng nói ư c t o ra t các b t ng h p formant v i thành ph n chính là các b c ng hư ng Tùy theo cách b trí các b c ng hư ng mà ta có... bi u hi n ý nghĩa + ti ng Vi t, như toàn b các âm ti t i a s các âm ti t u ho t u có ý nghĩa Hay, ti ng Vi t, g n ng như t + Có th nói, trong ti ng Vi t, âm ti t không ch là m t ơn v ng âm ơn thu n mà còn là m t ơn v t v ng và ng pháp ch y u 12 ây, m i quan h gi a âm và nghĩa trong âm ti t cũng ch t ch và thư ng xuyên như trong t c a các ngôn ng Âu châu, và ó chính là m t nét c trưng lo i hình ch... s 24 Hình 1.9: Các khung c a s li n nhau và spectrogram tương ng Bi u di n tín hi u ti ng nói theo không gian 3 chi u là m t công c r t m nh quan sát và phân tích tín hi u Ví d : theo phương th c bi u di n này ta có th d dàng phân bi t âm vô thanh và âm h u thanh d a theo các c i m sau: *Âm vô thanh: - Năng lư ng t p trung - Các t n s phân b khá t n s cao ng u trong 2 mi n t n s cao và t n s th p *... nói nh danh và xác nh n ngư i nói Nh n d ng ti ng nói Thi t b tr giúp ngư i Tăng cư ng ch t lư ng ti ng nói Hình 2.1: M t vài ng d ng x lý ti ng nói Trong ó, m t trong nh ng ng d ng quan tr ng nh t là T ng h p ti ng nói T ng h p ti ng nói là quá trình t o ra tín hi u âm thanh b ng cách i u khi n m t mô hình m u v i m t t p các tham s N u mô hình m u này và các tham s ư c xây d ng m t cách hoàn h o... mô ph ng chính xác cao nh t gi ng v i b máy phát âm sinh h c c a con ngư i và m t mô hình th c ti n thi t k và th c hi n C hai khó khăn này cho n nay v n ư c coi là thách th c v i các nhà nghiên c u Và ây cũng chính là lý do mà cho n nay có r t ít các h th ng t ng h p theo nguyên lý mô ph ng b máy phát âm có ch t lư ng so v i các b t ng h p theo nguyên lý khác 2.2.2 Phương pháp t ng h p Formant Phương . vào việc phát triển kỹ thuật tổng hợp tiếng Việt, luận văn “NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG VIỆT VÀ CÁC ỨNG DỤNG” sẽ tập trung vào những một số nội dung, bao gồm: trình bày các đặc trưng và các. 4.6.3.2 Cài đặt và sử dụng 93 CHƯƠNG V: ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT 96 5.1. ỨNG DỤNG CHO NGƯỜI KHIẾM THỊ 96 5.2. ỨNG DỤNG CHO NGƯỜI KHIẾM TÍNH VÀ KHUYẾT TẬT TIẾNG NÓI.98 5.3. ỨNG DỤNG TRONG GIÁO. học khóa 2010 - 2012 TỔNG HỢP TIẾNG VIỆT ii LỜI CẢM ƠN Luận văn Thạc sỹ chuyên ngành Kỹ thuật Điện tử với đề tài “ NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG VIỆT VÀ CÁC ỨNG DỤNG” đã được hoàn

Ngày đăng: 17/08/2014, 23:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan