thiết kế hệ thống trả lời tự động, chương 9 pps

Thông tin tài liệu

Chương 9: Kỹ thuật ngoại diện 1. Chuẩn hóa văn bản. Quá trình chuẩn hóa văn bản thường không ñơn giản. Lý do là cácc văn bản thường chứa nhiều từ cùng chữ, số và viết tắt ñòi hỏi hiểu ñể diễn ñạt lại trong văn bản ñầy ñủ. Trong một số ngôn ngữ, các từ có thể ñược phát âm khác nhau từy theo ngữ cảnh. ð a số hệ thống tổng hợp giọng nói không tạo ra thể hiện văn phạm cho văn bản, vì quá trình này hiện chưa có công nghệ ñáng tin cậy. Thay vào ñó, nhiều cách lần mò ñược dùng ñể phân biệt các cách phát âm, như tìm các từ kế cận hay dùng thống kê về tần số xuất hiện. Việc chọn cách phát âm số cũng là một vấn ñề. Lý do là cũng có nhiều cách phất âm số từy theo văn cảnh. Như 1325 có thể ñọc "một nghìn ba trăm hai mươi nhăm" nếu nó là một số tự nhiên, nhưng cũng có thể là "một ba hai năm" nếu nó là bốn số mật mã ngân khoản. Thường hệ thống tổng hợp giọng nói có thể ñoán văn cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh, hoặc dùng trường hợp mặc ñịnh khi không thể phân ñịnh. Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa, từy thuộc quy ước của người viết. 2. Chuyển Văn bản sang âm vị. Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản ñể xác ñịnh cách phát âm cho một từ, một quá trình còn ñược gọi là chuyển ñổi văn bản-sang- âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữ dùng bởi các nhà ngôn ngữ học ñể mô tả các âm khác nhau trong ngôn ngữ. Cách thứ nhất, và ñơn giản nhất, là dựa vào từ ñiển, sử dụng một từ ñiển lớn chứa tất cả các từ của một ngôn ngữ và chứa cách phát âm ñúng tương ứng cho từng từ, lưu trong máy tính. Việc xác ñịnh cách phát âm ñúng cho một từ chỉ ñơn giản là tra trong từ ñiển và thay ñoạn văn bản bằng mã phát âm ñã ghi trong từ ñiển. Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát âm ñể tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với quy tắc. Mỗi cách ñều có ưu ñiểm và nhược ñiểm. cách dựa trên từ ñiển nhanh và chính xác, nhưng sẽ không hoạt ñộng nếu từ cần phát âm không có trong từ ñiển và lượng từ vựng cần lưu là lớn. Cách dùng quy tắc hoạt ñộng với mọi văn bản (miễn là phù hợp với quy tắc) nhưng ñộ phức tạp của các quy tắc có thể tăng cao nếu ngôn ngữ có nhiều trường hợp bất quy tắc trong phát âm. Hầu hết các hệ thống tổng hợp giọng nói ñều dùng kết hợp cả hai cách. Một số ngôn ngữ, như tiếng Tây Ban Nha hay tiếng Việt có hệ thống viết dựa trên cách phát âm một cách rất có quy tắc, và việc tiên ñoán cách phát âm từ cách viết thường có tỷ lệ thành công cao. Các hệ thống tổng hợp giọng nói cho các ngôn ngữ này thường dùng chủ yếu cách dựa trên quy tắc, chỉ tra từ ñiển một vài từ ñặc biệt như tên vay mượn từ nước ngoài. Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rất bất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếu trên từ ñiển và dùng các quy tắc cho những từ không có trong từ ñiển. 2. 2. 6 Giải thuật TD- PSOLA. Như ñã ñề cập trong phần trước, người ta có thể tổng hợp tiếng nói theo nhiều phương pháp như mô phỏng hệ thống phát âm của con người, tổng hợp formant và tổng hợp ghép nối. Mỗi phương pháp ñều có những ưu, nhược ñiểm riêng. Phương pháp mô phỏng hệ thống phát âm của con người cho chất lượng tốt, song rất khó mô phỏng một cách hoàn hảo bộ máy phát âm. Phương pháp tổng hợp bằng formant lại không cho chất lượng cao. Trong ba phương pháp này thì tổng hợp tiếng nói bằng ghép nối ñược sử dụng rộng rãi hơn cả. PSOLA là giải thuật dùng cho phương pháp ghép nối. Trước hết tiếng nói ñược phân tích thành các tín hiệu thành phần, sau ñó, khi cộng xếp chồng các thành phần này ta sẽ ñược tín hiệu tiếng nói tổng hợp. Phương pháp này thao tác trực tiếp với tín hiệu trên miền thời gian nên có chi phí tính toán thấp. Người ta kéo dãn thời gian trong tín hiệu tổng hợp bằng cách lặp lại các ñoạn tín hiệu thành phần. PSOLA có thể hiểu như sau: • Tổng hợp tín hiệu từ các thành phần, trong ñó mỗi thành phần có một tần số cơ bản. • Tổng hợp dựa trên mô hình nguồn-lọc (source-filter). Với phương pháp này tín hiệu phải ñiều hoà (harmonic) và phải thích hợp cho việc phân tích thành các tín hiệu thành phần khi sử dụng cửa sổ, ñiều này có nghĩa là năng lượng của tín hiệu phải tập trung xung quanh một khoảng thời gian nào ñó trong mỗi chu kỳ. a. Phân tích PSOLA Phân tích PSOLA bao gồm việc phân tích một tín hiệu s(t) thành các tín hiệu thành phần s i (t) bằng cách sử dụng cửa sổ h(t) : s i (t) =h( t − m i )s(t) trong ñó m i ñược gọi là các ñiểm mốc (markers) phải thoả mãn các ñiều kiện sau: m i − m i-1 phải gần với chu kỳ cơ bản. Phải gần với ñiểm có biên ñộ cực ñại (maxima energy). ð iều kiện này ñược ñưa ra ñể tránh làm hỏng tín hiệu khi lấy cửa sổ. Sau khi tìm ñược chu kỳ cơ bản T 0(t) và hàm năng lượng e(t). b. Tổng hợp PSOLA Tổng hợp PSOLA ñược thực hiện bằng cách cộng xếp chồng các tín hiệu thành phần si(t) ñược sắp xếp theo các thời ñiểm m i ở ñây mi là các ñiểm mốc gần nhất với tín hiệu vào. Chu kỳ cơ bản ñược ñiều chỉnh từ T 0(t ) tới T (t) bằng cách thay ñổi khoảng cách giữa các ñoạn tín hiệu liên tiếp m j − m j−1=T (t). Với PSOLA việc co dãn trên miền thời gian ñược thực hiện bằng cách lặp lại các ñoạn tín hiệu. Hình 2. 6. Cộng xếp chồng các ñoạn tín hiệu Tuy nhiên, khi thời gian ñược kéo giãn nhiều bằng cách lặp lại các tín hiệu thành phần có thể làm cho tín hiệu tổng hợp không liên tục. Giải thuật TD – PSOLA (Time Domain PSOLA)ñược trình bày ở phần tiếp theo sẽ khắc phục nhược ñiểm này. Hiện nay TD-PSOLA còn ñược mở rộng ñể sử dụng cho các phương pháp tổng hợp ghép nối khác, bởi vì nó là phương pháp tổng hợp chất lượng cao và chạy tốt ở cả những máy tính tốc ñộ thấp (tổng hợp thời gian thực có thể ñược thực hiện với bộ vi xử lý Intel 386). c. Giải Thuật TD-PSOLA. Giả sử rằng s(n) là tín hiệu tuần hoàn, S(n ) là tín hiệu s(n) sau khi ñã thay ñổi tần số bằng cách lấy tổng của các khung OLA của si(n). w(n) là cửa sổ, sự thay ñổi chu kỳ tần số gốc T0 tới chu kỳ tần số T tạo ra sự thay ñổi của s i ( n), s ~ (n) : 1 Nếu T≠T 0 thì ta phải làm hài hoà lại s i (n) với tần số cơ bản là T Công thức trên rất hiệu quả khi muốn thay ñổi tần số của tín hiệu tuần hoàn. Hình 2. 7 Quá trình làm thay ñổi tần số của tín hiệu Nếu T=T 0 và cửa sổ phân tích ñủ hẹp, tín hiệu tổng hợp gần như trùng với tín hiệu gốc Trong trường hợp ñặc biệt với cửa sổ tam giác thì kích thước của cửa sổ ñược chọn bằng 2 lần chu kỳ cơ bản, khi ñó dấu gần ñúng của biểu thức trên sẽ tịnh tiến tới dấu bằng với K=1. Rõ ràng, với giải thuật này, cơ sở dữ liệu phải ñược lưu trữ dưới dạng danh sách tham số (một danh sách cho mỗi ñoạn). Trên thực tế, ñối với TD-PSOLA, thì các danh sách này chứa chuỗi các ñiểm mốc (markers) là tâm các cửa sổ xếp chồng ηi . V ị trí các ñiểm mốc này . bất quy tắc trong phát âm. Hầu hết các hệ thống tổng hợp giọng nói ñều dùng kết hợp cả hai cách. Một số ngôn ngữ, như tiếng Tây Ban Nha hay tiếng Việt có hệ thống viết dựa trên cách phát âm một. một số tự nhiên, nhưng cũng có thể là "một ba hai năm" nếu nó là bốn số mật mã ngân khoản. Thường hệ thống tổng hợp giọng nói có thể ñoán văn cảnh bằng việc quan sát các từ kế cận,. như tên vay mượn từ nước ngoài. Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rất bất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếu trên từ ñiển và dùng các quy tắc cho

Ngày đăng: 01/07/2014, 21:20

Xem thêm: thiết kế hệ thống trả lời tự động, chương 9 pps, thiết kế hệ thống trả lời tự động, chương 9 pps

thiết kế hệ thống trả lời tự động, chương 9 pps

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan