Xử lý tiếng nói - Speech Synthesis

Thông tin tài liệu

Bài 5:Bài 5: Tổng hợp tiếng nóiTổng hợp tiếng nói  Thành phần tổng hợp tiếng nói của một hệ Thành phần tổng hợp tiếng nói của một hệ thống TTS có chức năng tạo ra dạng sóng thống TTS có chức năng tạo ra dạng sóng tiếng nói tương ứng với văn bảntiếng nói tương ứng với văn bản  Dữ liệu vào thường là âm vị đã được chuyển Dữ liệu vào thường là âm vị đã được chuyển đổià ữ â ứ ủ âóiđổià ữ â ứ ủ âóiđổi và ngữ âm tương ứng của câu nói. đổi và ngữ âm tương ứng của câu nói. Ngoài ra, dữ liệu vào có thể gồm văn bản Ngoài ra, dữ liệu vào có thể gồm văn bản thô cùng vớicácthẻ đánh dấu để có chấtthô cùng vớicácthẻ đánh dấu để có chấtthô cùng với các thẻ đánh dấu để có chất thô cùng với các thẻ đánh dấu để có chất lượng tiếng nói tốt hơnlượng tiếng nói tốt hơn Phân loại các hệ thống tổng hợp Phân loại các hệ thống tổng hợp ạ ệ g g ợpạ ệ g g ợp tiếng nóitiếng nói  Các hệ thống tổng hợp tiếng nói gồm 3 loại:Các hệ thống tổng hợp tiếng nói gồm 3 loại: ––Tổng hợp tiếng nói dựa vào đặc điểm âm họcTổng hợp tiếng nói dựa vào đặc điểm âm học ––Tổng hợp tiếng nói dựa vào FormantTổng hợp tiếng nói dựa vào Formant ––Tổng hợp tiếng nói dựa vào sự ghép nốiTổng hợp tiếng nói dựa vào sự ghép nối Tổng hợp tiếng nói dựa vào đặc Tổng hợp tiếng nói dựa vào đặc g ợp g ự ặg ợp g ự ặ điểm âm họcđiểm âm học  Là một mô hình tổng hợp tiếng nói dựa vào Là một mô hình tổng hợp tiếng nói dựa vào luậtluật  Sử dụng các tham số để mô hình chuyển Sử dụng các tham số để mô hình chuyển động của bộ phận trong bộ máy âm học và động của bộ phận trong bộ máy âm học và h đổiá ấ khô khíh đổiá ấ khô khísự thay đổi áp suất không khísự thay đổi áp suất không khí Tổng hợptiếng nói dựa vào FormantTổng hợptiếng nói dựa vào FormantTổng hợp tiếng nói dựa vào FormantTổng hợp tiếng nói dựa vào Formant  Ta có thể tổng hợp một nguyên âm có âm ổn Ta có thể tổng hợp một nguyên âm có âm ổn định bằng cách cho một sóng tuần hoàn đi định bằng cách cho một sóng tuần hoàn đi qua một bộ lọc với tần số formant của ống qua một bộ lọc với tần số formant của ống âm họcâm học Đối ớiá hââ ôhh óhểĐối ớiá hââ ôhh óhể  Đối với các phụ âm, âm vô thanh, ta có thể Đối với các phụ âm, âm vô thanh, ta có thể dùng nhiễu ngẫu nhiên đi qua bộ lọc để tạo dùng nhiễu ngẫu nhiên đi qua bộ lọc để tạo ra âmra âmra âmra âm  Trong thực tế, âm tiếng nói là thay đổi liên Trong thực tế, âm tiếng nói là thay đổi liên tụcvìthế ta phảithayđổinguồnkíchthíchtụcvìthế ta phảithayđổinguồnkíchthíchtục, vì thế, ta phải thay đổi nguồn kích thích tục, vì thế, ta phải thay đổi nguồn kích thích và tần số formant theo thời gianvà tần số formant theo thời gian  Phương pháp này còn được gọi là tổng hợp Phương pháp này còn được gọi là tổng hợp dựa vào các luật để thay đổi nguồn kích dựa vào các luật để thay đổi nguồn kích ểểthích, tần số formant, và các tham số để thích, tần số formant, và các tham số để chuyển từ âm này sang âm khácchuyển từ âm này sang âm khác Tổng hợptiếng nói dựavàosự ghép nốiTổng hợptiếng nói dựavàosự ghép nốiTổng hợp tiếng nói dựa vào sự ghép nốiTổng hợp tiếng nói dựa vào sự ghép nối  Tiếng nói được tổng hợp bằng sự ghép nối Tiếng nói được tổng hợp bằng sự ghép nối các âm đã được lưu trữ từ trước tương ứng các âm đã được lưu trữ từ trước tương ứng với các âm vị với các âm vị  Mỗi âm đã được lưu từ trước giống với âm Mỗi âm đã được lưu từ trước giống với âm hiê ì hế iế ói đ ổhiê ì hế iế ói đ ổtrong tự nhiên, vì thế, tiếng nói được tổng trong tự nhiên, vì thế, tiếng nói được tổng hợp có chất lượng caohợp có chất lượng cao Thiêế hiđ âkhá hThiêế hiđ âkhá h  Tuy nhiên, nếu hai đoạn âm khác nhau Tuy nhiên, nếu hai đoạn âm khác nhau được ghép nối lại có thể dẫn đến sự không được ghép nối lại có thể dẫn đến sự không liên tục trong ngữ điệuvàphổ tầnsốliên tục trong ngữ điệuvàphổ tầnsốliên tục trong ngữ điệu và phổ tần sốliên tục trong ngữ điệu và phổ tần số Các vấn đề khi tổng hợp tiếng nói Các vấn đề khi tổng hợp tiếng nói g ợp gg ợp g dựa vào sự ghép nốidựa vào sự ghép nối  Sử dụng đơn vị tiếng nói loại nào: âm vị, âm Sử dụng đơn vị tiếng nói loại nào: âm vị, âm tiết, từ, cụm từ, …tiết, từ, cụm từ, …  Xây dựng cơ sở dữ liệu đơn vị tiếng nói từ Xây dựng cơ sở dữ liệu đơn vị tiếng nói từ các âm thu được bằng ghi âm: độ dài ngắn các âm thu được bằng ghi âm: độ dài ngắn ủ ừ đ ị iế ói ố l đ ịủ ừ đ ị iế ói ố l đ ịcủa từng đơn vị tiếng nói, số lượng đơn vị, …của từng đơn vị tiếng nói, số lượng đơn vị, …  Lựa chọn cách phát âm tốt nhất từ dữ liệu đã Lựa chọn cách phát âm tốt nhất từ dữ liệu đã óócócó  Biến đổi ngữ điệu các âm đã có để thu được Biến đổi ngữ điệu các âm đã có để thu được ngữ điệumongmuốnngữ điệumongmuốnngữ điệu mong muốnngữ điệu mong muốn Đơnvị âmĐơnvị âmĐơn vị âmĐơn vị âm  Đơn vị âm là đại diện cho một khoảng tiếng Đơn vị âm là đại diện cho một khoảng tiếng nói nhỏ nhất được sử dụng trong sự ghép nói nhỏ nhất được sử dụng trong sự ghép nốinối  Thể hiện là một khoảng tiếng nói đã được Thể hiện là một khoảng tiếng nói đã được ứ ới đ ị â ủ óHệứ ới đ ị â ủ óHệtạo ra tương ứng với đơn vị âm của nó. Hệ tạo ra tương ứng với đơn vị âm của nó. Hệ thống TTS có thể có nhiều thể hiện cho một thống TTS có thể có nhiều thể hiện cho một đơnvị âm để sử dụng ghép nốiđơnvị âm để sử dụng ghép nốiđơn vị âm để sử dụng ghép nốiđơn vị âm để sử dụng ghép nối So sánh các loại đơnvị âmSo sánh các loại đơnvị âmSo sánh các loại đơn vị âmSo sánh các loại đơn vị âm Các khó khănkhilựachọn đơnvị âmCác khó khănkhilựachọn đơnvị âmCác khó khăn khi lựa chọn đơn vị âmCác khó khăn khi lựa chọn đơn vị âm  Tăng sự chính xác ghép nối: Tăng sự chính xác ghép nối: ––Giảm số lượng ghép nối, vì thế, cần các đơn vị Giảm số lượng ghép nối, vì thế, cần các đơn vị âm dài như từ hoặc cụm từâm dài như từ hoặc cụm từ –– Tuy nhiên, cách này đòi hỏi số lượng nhiều đơn Tuy nhiên, cách này đòi hỏi số lượng nhiều đơn vị âm và thể hiệncủa nó không phải lúc nàovị âm và thể hiệncủa nó không phải lúc nàovị âm và thể hiện của nó, không phải lúc nào vị âm và thể hiện của nó, không phải lúc nào cũng thực hiện đượccũng thực hiện được  Tăng sự chính xác của ngữ điệu:Tăng sự chính xác của ngữ điệu:g ự g ệg ự g ệ ––Bằng cách thay đổi tần số cơ bản và khoảng thời Bằng cách thay đổi tần số cơ bản và khoảng thời gian của các đơn vị âm đã cógian của các đơn vị âm đã có [...]... ngữ điệu đơn vị âm khi ghép nối Ngữ điệu của các đơn vị âm đã có thường không đáp ứng được yêu cầu Mục đích: thay đổi cường độ âm, thời gian phát âm, tần số cơ bản của đơn vị âm Phương pháp OLA- Overlap and Add OLA- . hợptiếng nói dựavàosự ghép nốiTổng hợptiếng nói dựavàosự ghép nốiTổng hợp tiếng nói dựa vào sự ghép nốiTổng hợp tiếng nói dựa vào sự ghép nối  Tiếng nói. hợp tiếng nói dựa vào FormantTổng hợp tiếng nói dựa vào Formant ––Tổng hợp tiếng nói dựa vào sự ghép nốiTổng hợp tiếng nói dựa vào sự ghép nối Tổng hợp tiếng

Ngày đăng: 07/11/2013, 07:15

Xem thêm: Xử lý tiếng nói - Speech Synthesis, Xử lý tiếng nói - Speech Synthesis

Xử lý tiếng nói - Speech Synthesis

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan