Bài giảng môn học : xử lý tiếng nói P2

25 750 10
Bài giảng môn học : xử lý tiếng nói P2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 26 CNT45DH GROUP sách này, mặc dù đƣợc viết để hƣớng dẫn "đọc" các ảnh phổ, cung cấp nhập môn tuyệt vời về ngữ âm học. 2.2.Ngữ âm học (Acoustic Phonetics): Nhiều ngôn ngữ, bao gồm cả tiếng Anh Mỹ, có thể mô tả theo tập hợp các âm khác nhau gọi là các âm vị (phoneme). Tiếng Anh Mỹ có khoảng 42 âm vị, bao gồm các nguyên âm (vowel), nguyên âm đôi (diphthong), bán nguyên âm (semivowel) và phụ âm (consonant). Có nhiều cách để nghiên cứu ngữ âm học; chẳng hạn, các nhà ngôn ngữ nghiên cứu các đặc trƣng của âm vị. Với mục đích của chúng ta, nghiên cứu xử tiếng nói, chỉ cần xét đặc trƣng âm học của các âm vị, bao gồm vị trí và cách phát âm, các dạng sóng âm và các đặc trƣng về phổ của các âm này. Bảng 3.1 nêu cách phân các âm tiếng Anh Mỹ ra các lớp âm vị. Bốn lớp lớn của các âm là nguyên âm (NA), nguyên âm đôi, bán nguyên âm và phụ âm (PA). Mỗi lớp lại đƣợc chia thành các lớp con theo cách thức, vị trí phát âm của âm trong bộ máy phát âm. Mỗi âm vị của bảng 3.1 có thể phân ra thành âm xát (continuant) hoặc âm không xát (noncontinuant). Các âm xát đƣợc tạo ra bởi hình dạng bộ máy phát âm cố định (không biến đổi theo thời gian) đƣợc tác động bởi nguồn hơi thích hợp. Lớp các âm xát bao gồm nguyên âm, âm mũi (nasal) và phụ âm rung (fricative). Các âm còn lại (nguyên âm đôi (diphthong), bán nguyên âm (semivowel), dừng (stop) và tắc xát (affricate)) đƣợc tạo ra bằng cách thay đổi hình dạng bộ máy phát âm và do vậy đƣợc phân lớp là không xát. 2.2a. Nguyên âm. (NA) đƣợc tạo ra bằng cách kích động bộ máy phát âm cố định với các xung gần tuần hoàn của không khí do các dây thanh âm rung động. Theo Từ điển Tiếng Việt, nguyên âm là âm mà khi phát âm, luồng hơi từ phổi ra không gặp trở ngại đáng kể. Ví dụ của nguyên âm tiếng Việt là a, e, i, o, u, y; phụ âm là âm mà khi phát âm, luồng hơi từ phổi ra đi lên qua thanh hầu, gặp phải trở ngại đáng kể. Ví dụ của phụ âm tiếng Việt là b, c, d, đ, g, . . Ngƣời ta thấy diện tích mặt cắt ngang thay đổi dọc theo bộ máy phát âm xác định các tăng cƣờng và do đó âm đƣợc tạo ra. Sự phụ thuộc của diện tích mặt cắt ngang vào khoảng cách dọc theo bộ máy phát âm đƣợc gọi là hàm diện tích (area function) của bộ máy phát âm. Hàm diện tích của một nguyên âm nào đó đầu tiên đƣợc xác định bởi vị trí của lƣỡi, tuy nhiên các vị trí của hàm, môi và vòm miệng mềm cũng ảnh hƣởng đến kết quả của âm. Ví dụ để tạo ra âm a: trong từ "father" fa:ðә (cha), Bộ máy phát âm mở ở phía trƣớc và đôi khi thu hẹp lại ở phía sau do thân lƣỡi. Trái lại, nguyên âm i trong từ "eve" iv (buổi chiều) đƣợc tạo ra bằng cách nâng lƣỡi lên vòm miệng, do vậy tạo ra khe hẹp ở phía trƣớc và tăng khe hở ở cuối bộ máy phát âm. Nhƣ vậy, mỗi nguyên âm có thể đặc trƣng bởi cấu hình bộ máy phát âm (hàm diện tích) dùng để phát ra nó. Đặc trƣng này không chính xác lắm vì sự khác nhau bên trong của bộ máy phát âm của những ngƣời nói khác nhau. Một biểu diễn khác đƣợc xây dựng trên tần số cộng hưởng của bộ máy phát âm. Việc này cũng vƣớng mắc phải sự đa dạng của bộ máy phát âm của ngƣời nói. Peterson và Barney (J. Acoust. Soc. Am. Vol24 No2, 1952) đã đo tần số tăng cƣờng (dùng đồ thị phổ của âm) của các nguyên âm. Ngƣời ta đo các dạng sóng âm và ảnh phổ (spectrogram) cho mỗi nguyên âm tiếng Anh (ở hình 3.6 gồm i , i: , e , ổ , ә , a , Ɔ , u , u: , Ə: ). Các ảnh phổ thể hiện BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 27 CNT45DH GROUP rõ ràng mẫu các cộng hƣởng khác nhau cho mỗi nguyên âm. Các dạng sóng âm, bên cạnh việc chỉ ra đặc trƣng tuần hoàn của các âm hữu thanh, còn hiển thị các tính chất phổ thô (gros) của các "chu kỳ" (period) đơn. Chẳng hạn, nguyên âm i thể hiện dao động tắt dần với tần số thấp mà ở trên nó có một dao động tần số cao đè lên. Điều này phù hợp với tăng cƣờng thứ nhất thấp và hai tăng cƣờng sau cao. Trái lại, nguyên âm u thể hiện năng lƣợng tần số cao tƣơng đối ít vì là kết quả của tần số tăng cƣờng thứ nhất và thứ hai thấp. 2.2b. Các nguyên âm đôi: Mặc dù còn có một chút không rõ ràng trong việc phân biệt âm vị nào là nguyên âm đôi, một định nghĩa có thể chấp nhận đƣợc của nguyên âm đôi là: "phát âm đơn âm lướt bắt đầu ở hoặc gần ở vị trí phát âm cho một nguyên âm và di chuyển đến hoặc về phía vị trí phát âm cho nguyên âm kia." Theo định nghĩa này có 6 nguyên âm đôi trong tiếng Anh Mỹ, bao gồm: ei: (ở bay), ou: (ở boat), ai: (ở buy), au: (ở how), i: (ở boy) và ju (ở you). Các nguyên âm đôi đƣợc tạo ra bằng cách thay đổi bộ máy phát âm mềm mại giữa các cấu hình nguyên âm thích hợp với nguyên âm đôi. Dựa trên điều này và các số đo khác, các nguyên âm đôi có thể đƣợc đặc trƣng bởi hàm diện tích của bộ máy phát âm theo thời gian thay đổi giữa hai nguyên âm cấu thành. 2.2c. Các bán nguyên âm: Nhóm các âm gồm w , l , r và y khá khó mô tả đặc điểm. Các âm này gọi là bán nguyên âm vì bản chất khá giống nguyên âm của chúng. Nói chung, chúng đƣợc đặc trƣng bởi việc thay đổi chút ít ở hàm diện tích của bộ máy phát âm giữa các âm vị liền kề. Nhƣ vậy, các đặc trƣng âm học của các âm này bị tác động lớn của ngữ cảnh mà chúng đƣợc tạo ra. Chúng đƣợc mô tả tốt nhất nhƣ là các âm giống nguyên âm, chuyển tiếp và do đó, về bản chất, tƣơng tự nhƣ các nguyên âm và nguyên âm đôi. 2.2d. Các âm mũi: Các âm mũi /m/, /n/ và / / đƣợc tạo ra do kích thích thanh môn và bộ máy phát âm thắt lại hoàn toàn tại một điểm ở đƣờng miệng. Vòm miệng mềm hạ xuống làm không khí đi qua đƣờng mũi với âm đƣợc phát xạ tại lỗ mũi. Khoang miệng, mặc dù hẹp lại ở phía trƣớc, vẫn nối âm với cổ họng. Nhƣ vậy, mồm dùng làm khoang cộng hƣởng, bẫy năng lƣợng âm ở các tần số tự nhiên xác định. Theo chừng mực âm phát xạ đƣợc chú ý đến, các tần số cộng hƣởng của khoang miệng xuất hiện nhƣ các phản cộng hưởng (anti-resonance) hay là các không điểm của việc truyền âm (zero of sound transmission) (theo J. L. Flanagan [2]). Hơn nữa, các phụ âm mũi và các nguyên âm phát âm theo giọng mũi (. một số nguyên âm đi trƣớc hoặc đi sau phụ âm mũi) đƣợc đặc trƣng bởi các cộng hƣởng rộng hơn về phổ, hoặc là bị tắt dần nhanh hơn các cộng hƣởng cho các nguyên âm. Việc mở rộng của các cộng hƣởng mũi là do mặt trong của BMmũi bị quấn xoắn lại, nhƣ vậy khoang mũi có tỷ lệ bề mặt tƣơng đối rộng so với diện tích mặt cắt của nó. Do vậy, việc dẫn nhiệt và các mất mát nhớt lớn hơn bình thƣờng. Ba phụ âm mũi đƣợc phân biệt do vị trí thắt lại hoàn toàn dọc theo bộ máy miệng đƣợc thực hiện của chúng. Với /m/ thì việc thắt lại ở môi; /n/ thì ở ngay sau răng; còn / / thì ở ngay trƣớc vòm miệng mềm. Rõ ràng là các dạng sóng của /m/ và /n/ nhìn rất giống nhau. Các ảnh phổ cho thấy việc tập trung của năng lƣợng tần số thấp với phạm vi trung bình của các tần số chứa các đỉnh lồi lên. Điều này là do tổ hợp riêng của các cộng hƣởng và các phản cộng hƣởng là kết quả của việc ghép đôi bộ máy mũi và bộ máy BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 28 CNT45DH GROUP miệng (xem O. Fujimura, Analysis of Nasal Consonants (Phân tích các phụ âm mũi), J. Acoust. Soc. Am., Vol. 34, No12, pp1865-1875, December 1962). 2.2e. Các phụ âm xát vô thanh (Unvoiced Fricatives) Các phụ âm xát vô thanh /f/, / /, /s/ và /sh/ đƣợc tạo ra khi kích thích bộ máy phát âm bằng luồng không khí đều đặn, luồng này trở nên hỗn loạn (turbulent) trong vùng hẹp của bộ máy phát âm. Vị trí của vùng hẹp xác định phụ âm xát đƣợc tạo ra. Với âm /f/ vùng hẹp ở gần môi; âm / / vùng hẹp ở gần răng; âm /s/ vùng hẹp ở gần giữa bộ máy miệng; còn âm /sh/ thì vùng hẹp ở gần cuối của bộ máy miệng. Nhƣ vậy, hệ thống để tạo ra các phụ âm xát vô thanh có nguồn của tiếng ồn ở vùng hẹp, vùng này chia bộ máy phát âm thành 2 khu vực. Âm đƣợc phát ra từ môi,từ khu vực trƣớc. Khu vực sau, giống nhƣ trƣờng hợp các phụ âm mũi, dùng để bẫy năng lƣợng và do đó đƣa ra các phản cộng hƣởng vào đầu ra của phụ âm. Bản chất không tuần hoàn của các kích thích phụ âm xát thấy rõ ở dạng sóng. Các sai khác về phổ trong các phụ âm xát dễ dàng thấy đƣợc khi so sánh các ảnh phổ. 2.2f. Các phụ âm xát hữu thanh (Voiced Fricatives) Các phụ âm xát hữu thanh /v/, /th/, /z/ và /zh/ là các bản sao (counterpart) của các phụ âm xát vô thanh /f/, / /, /s/ và /sh/ tƣơng ứng, theo nghĩa là vị trí của vùng hẹp cho mỗi âm vị tƣơng ứng là đồng nhất. Tuy nhiên, các phụ âm xát hữu thanh khác biệt rõ ràng với các phụ âm xát vô thanh ở chỗ là 2 nguồn kích thích có liên quan với nhau khi tạo ra chúng. Với các phụ âm xát hữu thanh, các dây thanh âm rung động và nhƣ vậy, một nguồn kích thích là ở thanh môn. Tuy nhiên, vì bộ máy phát âm bị thu hẹp ở một vị trí nào đó phía trƣớc thanh môn nên luồng khí bị xáo trộn ở gần chỗ thu hẹp. Nhƣ vậy, các phổ của các phụ âm xát hữu thanh có thể hy vọng là có 2 thành phần phân biệt. Sự tƣơng tự của phụ âm xát vô thanh /f/ với phụ âm xát hữu thanh /v/ có thể thấy rõ ràng bằng cách so sánh các ảnh phổ. 2.2g. Các phụ âm tắc hữu thanh (Voiced Stops): Các phụ âm tắc hữu thanh /b/, /d/ và /g/ là các âm ngắn (transient, tạm thời), không xát (noncontinuant), đƣợc phát âm bằng cách tạo ra áp lực sau khi đóng hoàn toàn ở một chỗ nào đó trong khoang miệng và bất ngờ giải phóng áp lực ấy. Với âm /b/ đóng tại môi; âm /d/ đóng sau răng; còn âm /g/ đóng ở gần vòm miệng mềm. Trong khoảng thời gian đóng hoàn toàn khoang miệng, không có một âm nào phát xạ từ môi cả. Tuy nhiên, thƣờng có một lƣợng nhỏ năng lƣợng tần số thấp phát xạ qua các vách ngăn của họng (đôi khi gọi là thanh âm (voice bar)). Điều này xảy ra khi các dây thanh âm (vocal cord) có thể rung động dù bộ máy phát âm bị đóng ở một chỗ nào đó. Do các phụ âm tắc có bản chất động nên các tính chất của chúng bị ảnh hƣởng lớn bởi nguyên âm đi liền sau (xem P.C. Delattre, A.M. Liberman, and F.S. Cooper, A coustic Loci and Transitional Cues for Consonant (Vị trí âm học và các dấu hiệu chuyển tiếp cho Phụ âm), J. Acoust. Soc. Am., Vol. 27, ¹ 4, pp. 769-773, July 1955). Nhƣ vậy, các dạng sóng của các phụ âm tắc cung cấp ít thông tin về chúng. Dạng sóng của /b/ cho thấy các nét khác biệt nhỏ trừ ra kích thích hữu thanh và thiếu năng lƣợng tần số cao. 2.2h. Các phụ âm tắc vô thanh (Unvoiced Stops): Các phụ âm tắc vô thanh /p/, /t/ và /k/ giống nhƣ các phụ âm hữu thanh bản sao của chúng /b/, /d/ và /g/, chỉ trừ ra một ngoại lệ lớn. Trong lúc BMmiệng đóng hoàn toàn, để áp lực tăng lên thì các dây thanh âm không rung. Nhƣ vậy, sau thời gian đóng kín, khi áp suất không khí đƣợc thoát ra, có một khoảng ngắn ma sát (do sự náo động bất ngờ của không khí thoát ra), tiếp sau là một BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 29 CNT45DH GROUP khoảng bật hơi (luồng không khí đều đặn từ thanh môn kích thích các cộng hƣởng của bộ máy phát âm) trƣớc khi kích thích hữu thanh bắt đầu. Xét hình vẽ dạng sóng và ảnh phổ của các phụ âm tắc vô thanh /p/ và /t/. "Lỗ hổng tắc" (Stop gap), hoặc là khoảng thời gian trong đó áp lực tạo ra, đƣợc nhìn thấy rõ ràng. Cũng có thể thấy chiều dài và tần số của ồn cọ xát (frication noise) và sự bật hơi (aspiration) thay đổi lớn ở phụ âm tắc. 2.2i. Các phụ âm tắc xát và /h/ (affricate): Các phụ âm còn lại của tiếng Anh Mỹ là các phụ âm tắc xát /t∫/, /j/ và âm /h/. phụ âm tắc xát vô thanh /t∫/ là âm động, có thể mô hình hoá nhƣ dán phụ âm tắc /t/ vào phụ âm xát /∫/. Phụ âm tắc xát /j/ có thể mô hình hoá nhƣ dán phụ âm tắc /d/ vào phụ âm xát /zh/. Cuối cùng, âm /h/ đƣợc tạo ra bằng cách kích thích bộ máy phát âm bằng luồng không khí đều đặn,không rung các dây thanh âm mà tạo ra luồng không khí náo động ở thanh môn (đó cũng là kiểu kích thích để nói thầm). BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 30 CNT45DH GROUP § 3. THUYẾT ÂM HỌC CỦA VIỆC TẠO TIẾNG NÓI Phần trên đã xét sơ lƣợc mô tả định tính của các âm tiếng nói và cách tạo ra chúng. ở phần này ta sẽ xét các biểu diễn toán học của quá trình tạo. Các biểu diễn toán học này là cơ sở để phân tích (analysis) và tổng hợp (synthesis) . 3.1. Sự truyền âm (Sound Propagation): Âm gần nhƣ đồng nghĩa với rung động (vibration). Sóng âm đƣợc tạo ra do rung động và đƣợc lan truyền trong không khí hoặc các môi trƣờng khác bằng các dao động của các hạt của môi trƣờng. Do vậy, các định luật vật là cơ sở để mô tả việc tạo ra và truyền đi của âm thanh trong hệ thống phát âm. Đặc biệt, các định luật cơ bản về bảo toàn khối lƣợng, bảo toàn động lƣợng và bảo toàn năng lƣợng cùng với các luật nhiệt động học và cơ chất lỏng, đều đƣợc áp dụng cho dòng chất lỏng (không khí) ít dẻo, chịu nén là môi trƣờng để truyền âm trong. Dùng các nguyên vật này, có thể thu đƣợc một tập hợp các phƣơng trình vi phân đạo hàm riêng mô tả chuyển động của không khí trong hệ thống phát âm. Việc phát biểu và giải các phƣơng trình này là cực kỳ khó, trừ ra khi đặt các giả thiết đơn giản về bộ máy phát âm và về việc mất năng lƣợng trong hệ thống âm. thuyết âm chi tiết phải gồm những phần sau: 1. Sự thay đổi theo thời gian của hình dạng bộ máy phát âm. 2. Các tổn hao do dẫn nhiệt và ma sát nhớt ở các vách ngăn của bộ máy phát âm. 3. Tính mềm của các vách ngăn của bộ máy phát âm. 4. Các bức xạ của âm tại môi. 5. Ghép nối âm mũi (Nasal coupling). 6. Kích thích âm trong bộ máy phát âm. thuyết âm học chi tiết, đầy đủ, kết hợp chặt chẽ tất cả các phần trên vƣợt quá phạm vi của chƣơng này, và dĩ nhiên, còn chƣa có thể có đƣợc. Chúng ta đành phải hài lòng với việc xét các nhân tố này, cung cấp các tài liệu chi tiết khi có thể, và thảo luận định tính khi chƣa có các tài liệu thích hợp. Bộ máy phát âm đƣợc mô phỏng nhƣ một ống không đều, có diện tích mặt cắt ngang thay đổi theo thời gian. Cho các tần số tƣơng ứng với những bƣớc sóng dài so với những kích thƣớc của bộ máy phát âm (nhỏ hơn khoảng 4000 Hz), có thể giả thiết hợp là việc truyền sóng phẳng dọc theo chiều dài ống. Một giả thiết làm đơn giản hoá hơn nữa là không có mất mát do nhớt hoặc dẫn nhiệt cả trong khối chất lỏng hoặc ở thanhf ống. Với các giả thiết này và các định luật bảo toàn khối lƣợng, động lƣợng và năng lƣợng, Portnoff đã chứng tỏ, trong luận án Thạc sỹ (năm 1973) của ông, là các sóng âm trong ống thoả mãn cặp phƣơng trình vi phân đạo hàm riêng sau: 2 p (u / A) (1a) xt u 1 (pA) A (1b) x c t t trong đó p = p(x,t) là biến đổi của áp lực âm lên ống tại vị trí x và thời gian t. u = u(x,t) là biến đổi của luồng vận tốc âm tại vị trí x và thời gian t. BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 31 CNT45DH GROUP là mật độ không khí trong ống; c là vận tốc âm. A = A(x,t) là "hàm diện tích" của ống;giá trị của diện tích mặt cắt vuông góc với trục ống, phụ thuộc vào vị trí x và thời gian t. Ngƣời ta chƣa có lời giải dạng giải tích của các phƣơng trình (1), ngoại trừ các trƣờng hợp có cấu hình đơn giản. Tuy nhiên có thể có các lời giải bằng số. Lời giải đầy đủ của hệ phƣơng trình vi phân yêu cầu phải có p và u tại mọi giá trị x và t trong miền giới hạn bởi thanh môn và môi. Để có lời giải phải cho các điều kiện biên tại mỗi đầu của ống. Điều kiện biên tại môi phải tính đến hiệu suất truyền âm. Tại thanh môn (hoặc một điểm nào đó ở giữa) điều kiện biên chịu tác động của kích thích tự nhiên. Bên cạnh các điều kiện biên, còn phải biết hàm diện tích A(x,t). Với các phụ âm xát có thể giả sử A(x,t) không thay đổi theo thời gian, còn với các phụ âm không xát thì không phải nhƣ vậy. Đo đạc chi tiết A(x,t) là cực kỳ khó ngay cả với các phụ âm xát. Một cách đo dùng X-quang đã đƣợc thực hiện vào năm1969 (xem J.S. Perkell, Phisology of Speech Production: Results and Implications of a Quantitative Cineradiographic Study, (Sinh học của việc tạo ra tiếng nói: Các kết quả và liên quan của nghiên cứu chụp phim X-quang định lƣợng), MIT Press, Cambridge, Mass., 1969), nhƣng cách đo này chỉ thực hiện đƣợc ở một phạm vi hạn chế. Một cách tiếp cận khác là coi bộ máy phát âm nhƣ hình thành từ các dụng cụ đo âm, Sondhi và Gopinath đã mô tả một cách tiếp cận có kích thích bên ngoài vào bộ máy phát âm (M.M. Sondhi and B. Gopinath, Determination of Vocal- Tract Shape from Impulse Response at the Lips, (Xác định sự hình thành của bộ máy phát âm từ đáp ứng xung tại môi), J. Acoust. Soc. Am., Vol. 49, ¹ 6 (Part 2), pp. 1847-1873, June 1971). Cả hai cách tiếp cận này cho thấy tính chất động của việc tạo ra tiếng nói, tuy nhiên chúng không có ứng dụng trực tiếp vào việc biểu diễn các tín hiệu tiếng nói (cho mục đích truyền tiếng nói). Atal đã đƣa ra các nghiên cứu để nhận đƣợc A(x,t) trực tiếp từ tín hiệu tiếng nói trong các điều kiện nói chuẩn (B.S. Atal, Towards Determining Articulator Positions from the Speech Signal, (Về việc xác định những vị trí phát âm rõ từ tín hiệu tiếng nói), Proc. Speech Comm. Seminar, Stockholm, Sweden, pp. 1-9, 1974). Năm 1973 M.R. Portnoff đã đƣa ra lời giải phƣơng trình (1) theo A(x,t). Tuy nhiên cũng không cần phải giải các phƣơng trình theo các điều kiện chung nhất để nhận đƣợc bản chất bên trong của tín hiệu tiếng nói. Nhiều cách giải gần đúng và đơn giản đã đƣợc đƣa ra để thu đƣợc các lời giải chấp nhận đƣợc. 3.2. Ống mất ít đều (Uniform Lossless Tube): Bằng cách xét mô hình rất đơn giản, trong đó hàm diện tích của bộ máy phát âm đƣợc giả thiết là không đổi theo cả x và t (mặt cắt đều và thời gian không đổi), ta có thể có đƣợc hiểu biết sâu về bản chất của tín hiệu tiếng nói. Trƣớc hết, ta sẽ kiểm tra mô hình này, sau đó quay lại kiểm tra các mô hình hiện thực hơn. Nguồn tƣởng đƣợc biểu diễn bằng pittông có thể chuyển động theo cách mong muốn, độc lập với việc thay đổi áp lực trong ống. Giả thiết thêm nữa là ở đầu mở cuối ống không có tác động của áp lực không khí mà chỉ có tác động của tốc độ âm. Các giả thiết này, rõ ràng là để đơn giản đi rất nhiều, khó có thể đạt đƣợc trong thực tế; tuy nhiên, ta phải xét ví dụ nhƣ vậy do vì muốn tiếp cận cơ bản đến việc phân tích và các nét căn bản của lời giải thu đƣợc có rất nhiều điểm chung với các mô hình thực tế hơn. Sau đây ta sẽ chửng tỏ là các mô hình tổng quát hơn có thể xây dựng bằng cách ghép các ống đều. BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 32 CNT45DH GROUP Nếu A(x,t) = A là hằng số thì các phƣơng trình vi phân DHR (1) có dạng: 2 pu (2a) x A t u A p (2b) x c t Lời giải của các phƣơng trình (2) có dạng (có thể giải hoặc thay trực tiếp vào các phƣơng trình để kiểm tra): u(x,t) = u + (t - x/c) - u - (t + x/c) (3a) p(x,t) = c A [ u + (t - x/c) + u - (t + x/c)] (3b) Ở các phƣơng trình (3), các hàm u + (t - x/c) và u - (t + x/c) có thể hiểu là các sóng chạy tƣơng ứng theo các hƣớng dƣơng và âm. Quan hệ giữa các sóng chạy (traveling wave) này đƣợc xác định bởi các điều kiện biên. Các biểu diễn miền tần số của các hệ thống tuyến tính theo các đƣờng truyền và các vòng tròn truyền là rất hữu ích. Tƣơng tự, ta có thể có các biểu diễn nhƣ vậy cho ống mất ít đều. Có thể nhận đƣợc biểu diễn miền tần số của mô hình này bằng cách giả thiết điều kiện biên tại x = 0 là u(0,t) = u G (t) = U G ( )e j t . Điều này có nghĩa là ống đƣợc kích thích bởi biến đổi luỹ thừa phức của tốc độ âm có tần số và biên độ phức U G ( ). Do các phƣơng trình (2) tuyến tính, lời giải u + (t - x/c) và u - (t + x/c) phải có dạng: u + (t - x/c) = K + e j (t - x/c) u - (t + x/c) = K - e j (t + x/c) Thế các phƣơng trình này vào (3.3) và dùng điều kiện biên p(l,t) = 0 tại môi của ống và điều kiện biên tại thanh âm, ta có thể tìm các hằng số K + và K - . Lời giải là: p(x,t) = j Z 0 jt G sin[ (t x) / c] U ( )e cos[ / c] (4a) u(x,t) = jt G cos[ ( x) / c] U ( )e cos[ / c]   (4b) trong đó Z 0 = c A (4c) đƣợc gọi là trở kháng âm học đặc trưng (characteristic acoustic impedance) của ống. Ta sẽ dùng một cách viết khác để tránh lời giải viết bằng các sóng chạy xuôi và chạy ngƣợc là biểu diễn trực tiếp p(x,t) và u(x,t) dƣới dạng kích thích luỹ thừa phức (complex exponential excitation): p(x,t) = P(x, ) e j t u(x,t) = U(x, ) e j t (Do vậy ta sẽ ký hiệu các biến trong miền thời gian bằng chữ thƣờng, nhƣ u(x,t), còn các biểu diễn trong miền tần số tƣơng ứng bằng chữ hoa, nhƣ U(x, )). Thay các lời giải này vào phƣơng trình (1) ta có các phƣơng trình vi phân thƣờng liên hệ các biên độ phức BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 33 CNT45DH GROUP - dP dx = Z U (5a) - dU dx = Y P (5a) trong đó Z = j A (5c) có thể gọi là trở kháng âm học (acoustic impedance) theo đơn vị dài và Y = 2 A j c là độ dẫn tạp âm (acoustic admittance) theo đơn vị dài. Các Phƣơng trình vi phân (5) có các lời giải dạng P(x, ) = A e x + B e - x U(x, ) = C e x + D e - x trong đó ZY j / c Các hệ số chƣa biết có thể xác định đƣợc bằng cách dùng các điều kiện biên P(ℓ, ) = 0 U(0, ) = U G ( ) Dĩ nhiên kết quả cũng là các phƣơng trình (4). Các phƣơng trình (4) biểu diễn quan hệ giữa nguồn vận tốc âm hình sin, áp lực và vận tốc âm tại mọi điểm của ống. Đặc biệt, nếu ta xét quan hệ giữa vận tốc âm tại môi và nguồn vận tốc âm thì từ phƣơng trình (4b) ta có: u(ℓ,t) = U(ℓ, )e j t = jt G 1 U ( )e cos( / c) Tỉ số G U( , ) U ( )  = V a (j ) = 1 cos( / c) là đáp ứng tần số (frequency response) liên kết các tốc độ âm vào và ra. Thay bằng s/j ta đƣợc biến đổi Laplace hay hàm hệ thống V a (s) = s / c s2 / c 2e 1e   Lƣu ý rằng V a (s) có số vô hạn các cực đặt tại các điểm cách đều trên trục j tại s n = (2n 1) c j 2 n = 0, 1, 2, . Các vị trí cực này vẽ ở hình 3.15b. Các cực của hàm Hệ thống của Hệ thống tuyến tính bất biến theo thời gian là các tần số riêng (tần số tự nhiên) của hệ thống. Các cực cũng tƣơng ứng với các tần số cộng hưởng (resonnance frequency) của hệ thống. Các tần số cộng hƣởng còn đƣợc gọi là các tần số tăng cường (formant frequency) khi xét việc tạo ra tiếng nói. Ta sẽ thấy là các hiệu ứng cộng hưởng (resonance effect) sẽ đƣợc xét theo độ chính xác của tuyến âm. BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 34 CNT45DH GROUP Cần nhắc lại ở đây là hàm đáp ứng tần số (frequency response function) V a (j ) cho phép ta xác định đáp ứng của hệ thống không chỉ cho các cái vào hình sin mà còn cho các cái vào bất kỳ bằng việc sử dụng giải tích Fourier. Có thể suy luận tổng quát hơn rằng V a (j ) là tỷ số của biến đổi Fourier (FT, Fourier Transform) của tốc độ âm tại môi (cái ra) với FT của tốc độ âm tại thanh môn (cái vào hoặc nguồn). đáp ứng tần số là đặc trƣng thuận tiện của mô hình cho Hệ thống âm. Nhƣ vậy, ta đã xác định đáp ứng tần số của mô hình âm học tạo tiếng nói đơn giản nhất có thể có đƣợc, bây giờ ta có thể xét các mô hình sát với thực tế hơn. 3.3. Các hiệu ứng mất mát (Effects of losses) trong bộ máy phát âm Các phƣơng trình chuyển động cho việc truyền âm trong bộ máy phát âm đã cho ở trên đƣợc thiết lập theo giả thiết là không có năng lƣợng bị mất trong ống. Trong thực tế, năng lƣợng bị mất do ma sát nhớt (viscous friction) giữa không khí và thành ống, do sự dẫn nhiệt qua thành ống và do rung động của thành ống. Để tính đến các hiệu ứng này, ta phải trở lại các luật vật cơ bản và đƣa ra các phƣơng trình chuyển động mới. Việc này rất khó do sự phụ thuộc tần số của các mất mát. Ngƣời ta đã có cách tiếp cận chung để mô phỏng biểu diễn miền tần số của các phƣơng trình chuyển động ([2]). Sau đây ta sẽ xét qua các kết quả của cách tiếp cận chung này. Trƣớc hết, ta xét các hiệu ứng rung động (effect of the vibration) của thành bộ máy phát âm. Các thay đổi áp lực không khí bên trong bộ máy phát âm làm cho các thành ống rung động. Nhƣ vậy, nếu thành ống đàn hồi (elastic) thì diện tích mặt cắt của ống sẽ thay đổi phụ thuộc vào áp lực trong ống. Giả sử ống phản ứng "địa phƣơng" thì diện tích A(x,t) là hàm của p(x,t). Do sự biến đổi của áp lực rất nhỏ thì dao động của diện tích mặt cắt có thể coi là thay đổi nhỏ của diện tích "định sẵn" ("norminal" area),có thể giả thiết rằng A(x,t) = A 0 (x,t) + A(x,t) (6) trong đó A 0 (x,t) là diện tích định sẵn, còn A(x,t) là thay đổi nhỏ. Điều này đƣợc minh hoạ ở hình 3.16. Do khối lượng (mass) và đàn hồi (elasticity) của thành bộ máy phát âm nên quan hệ giữa thay đổi nhỏ A(x,t) và áp lực p(x,t) có thể mô hình hoá bằng Phƣơng trìnhVP m w 2 2 d ( A) dt + b w d( A) dt + k w ( A) = p(x,t) (7) trong đó m w (x) là khối lượng theo độ dài (mass/unit length); b w (x) là độ ẩm theo độ dài (damping/unit length); k w (x) là độ cứng theo độ dài (stiffness/unit length) của thành bộ máy phát âm. Hình 3.16. Minh hoạ các hiệu ứng rung động của thành bộ máy phát âm. Bỏ qua số hạng bậc hai ở các đại lƣợng u/A và pA ta có thể viết các phƣơng trình (1) dƣới dạng - p x = 0 (u / A ) t (8a) - u x = 0 2 (pA ) 1 t c + 0 A t + ( A) t (8b) BÀI GIẢNG XỬ TIẾNG NÓI CAO QUYẾT THẮNG Trang 35 CNT45DH GROUP Nhƣ vậy, sự truyền âm trong ống thành mềm nhƣ bộ máy phát âm đƣợc biểu diễn bằng tập hợp các phƣơng trình (6), (7), (8). Để kiểm tra hiệu ứng này chi tiết hơn ta lấy biểu diễn miền tần số nhƣ ở trên, xét ống bất biến theo thời gian đƣợc kích thích bởi nguồn vận tốc âm phức,điều kiện biên ở thanh môn là u(0,t) = U G ( )e i t Do các Phƣơng trình vi phân (7), (8) ở trƣờng hợp này là tuyến tính và không phụ thuộc thời gian nên tốc độ và áp lực âm cũng có dạng p(x,t) = P(x, )e j t (9a) u(x,t) = U(x, )e j t (9b) Thay (9) vào (7) và (8) ta đƣợc - P x = ZU (10a) - U x = YP + Y P (10b) trong đó Z(x, ) = j 0 ()Ax (11a) Y(x, ) = j 0 2 ()Ax c (11b) và Y (x, ) = 1 () ( ) ( ) w ww kx j m x b x j (11c) Chú ý rằng các phƣơng trình (10) đồng nhất với các phƣơng trình (5) trừ ra việc cộng với số hạng hầp thụ của thành Y và ở đây trở kháng âm học Z và độ dẫn nạp Y là các hàm của biến x. Nếu ta xét ống đều thì A 0 (x) là hằng số và các phƣơng trình (5) đồng nhất với các phƣơng trình (11). Dùng các ƣớc lƣợng nhận đƣợc từ việc đo các vật thể mịn màng ([2]), ngƣời ta xác định các tham số ở (11c) và các Phƣơng trình vi phân (10) đƣợc giải với điều kiện biên tại môi (xem M. R. Portnoff, MS Thesis MIT, Cambridge, Mass., 1973). Tỉ số V a (j ) = ( , ) () G U U  (11) đƣợc vẽ theo biến ở hình 3.17 cho trƣờng hợp ống đều dài 17,5 cm (xem M. R. Portnoff). Các kết quả cũng giống ở hình 3.15, nhƣng có khác biệt ở một điểm quan trọng. Rõ ràng là các cộng hƣởng không thể chính xác trên trục j của s - mặt phẳng vì đáp ứng tần số không thể là vô hạn ở các tần số 500 Hz, 1500 Hz, 2500 Hz, v. v ., dù các ĐƢ là cao nhất ở gần các tần số này. Các tần số trung tâm và các độ rộng dải của cộng hưởng (bandwidths of the resonances), đƣợc định nghĩa là khoảng tần số xung quanh cộng hƣởng mà trong đó đáp ứng tần số lớn hơn 0,707 lần giá trị lớn nhất ở tần số trung tâm, của các tần số trong hình 3.17 đƣợc cho trong bảng kèm theo. ở Ví dụ này [...]... GROUP BÀI GIẢNG XỬ TIẾNG NÓI D0(z) = 1; Dk(z) = Dk-1(z) + rk.z - k.Dk-1(z - 1), k = 1 N; D(z) = DN(z) CAO QUYẾT THẮNG Trang 49 CNT45DH GROUP BÀI GIẢNG XỬ TIẾNG NÓI §5 CÁC MÔ HÌNH SỐ CHO CÁC TÍN HIỆU TIẾNG NÓI Ta đã thấy ở §3 là có thể đƣa ra các biểu diễn toán học khá chi tiết của thuyết âm học tạo tiếng nói Mục đích của chúng ta khi xét thuyết này là nghiên cứu các nét cơ bản của tín hiệu tiếng. .. ngẫu nhiên Các tham số của nguồn và hệ thống đƣợc chọn lựa để tạo ra cái ra có các tính chất giống tiếng nói mong muốn Nếu có thể làm đƣợc điều đó thì mô hình có thể xử dụng cho việc xử Ở phần sau của chƣơng này ta sẽ xét một số mô hình dạng này CAO QUYẾT THẮNG Trang 40 CNT45DH GROUP BÀI GIẢNG XỬ TIẾNG NÓI §4 CÁC MÔ HÌNH ỐNG MẤT ÍT Các diện tích mặt cắt không đổi {A k} đƣợc chọn xấp xỉ hàm diện tích,... với cùng hệ thống có bộ máy CAO QUYẾT THẮNG Trang 38 CNT45DH GROUP BÀI GIẢNG XỬ TIẾNG NÓI miệng kết thúc nhƣ cho nguyên âm Khi đó, tín hiệu tiếng nói sẽ là các cái ra mũi và miệng chồng lên nhau Mô hình toán học cho cấu hình này gồm 3 tập hợp các phƣơng trình vi phân đạo hàm riêng có các điều kiện biên tạo ra bởi dạng kích thích thanh môn, các kết thúc của bộ máy phát âm mũi và mồm, và các quan hệ... luồng không khí ra từ phổi và qua cửa giữa các dây thanh âm (thanh môn) Định Bernoulli nói rằng khi dòng chất lỏng qua một lỗ (orifice), áp lực nhỏ đi ở chỗ thắt lại hơn ở chỗ khác Nếu sự căng ở các dây thanh âm đƣợc điều chỉnh hợp lý, áp lực giảm cho phép các dây thanh âm đi CAO QUYẾT THẮNG Trang 39 CNT45DH GROUP BÀI GIẢNG XỬ TIẾNG NÓI cùng nhau, làm thắt lại hoàn toàn dòng khí (Điều này đƣợc vẽ... "Mô hình hệ thống nguồn của việc tạo tiếng nói" (Đ3.7) Đó là hệ thống tuyến tính mà cái ra có tính chất giống tiếng nói (speech-like) khi đƣợc kiểm tra bằng tập hợp các tham số có quan hệ xác định với quá trình tạo tiếng nói Mô hình này tƣơng đƣơng với mô hình vật ở kết thúc (ở cái ra), nhƣng có cấu trúc bên trong không giống mô hình vật của việc tạo tiếng nói Đặc biệt, chúng ta chú ý đến các... (Excitation of sound) ở bộ máy phát âm: Các mục trƣớc đã xét cách dùng các định luật vật để mô tả việc truyền và phát xạ âm trong việc tạo ra tiếng nói Bây giờ, để hoàn thiện việc nghiên cứu các nguyên âm học, ta phải xét cơ chế tạo ra các sóng âm ở hệ thống phát âm Nhớ lại rằng khi xét tổng quan việc tạo ra tiếng nói ở §3.1 ta đã chỉ ra 3 cơ chế kích thích chính l : 1 Luồng không khí từ phổi đƣợc... ở phần sau là kết thúc phát xạ tại môi là nguồn mất mát tần số cao lớn hơn nhiều Điều này CAO QUYẾT THẮNG Trang 36 CNT45DH GROUP BÀI GIẢNG XỬ TIẾNG NÓI cung cấp lí lẽ bào chữa cho việc bỏ qua mất mát do nhiệt và ma sát trong các mô hình hoặc các mô phỏng tạo ra tiếng nói 3.4 Các hiệu ứng của phát xạ tại môi (Effects of Radiation at the Lips) Cho đến đây ta đã xét cách mà các mất mát nội tại tác... cái ra của Hệ thống thứ nhất Nếu N lẻ thì phải nội suy để có các mẫu CAO QUYẾT THẮNG Trang 44 CNT45DH GROUP BÀI GIẢNG XỬ TIẾNG NÓI cái ra của hình 3.39a Việc làm chậm này giống nhƣ là bỏ qua một cách nào đó (xem ở dƣới) vì nó không để lại hậu quả lắm trong một số ứng dụng của các mô hình tiếng nói ZT của v ( n ) là Va ( s) với eST thay bởi z Nhƣ vậy ak z Va ( z ) = k k 0 Một cách tƣơng tự, biểu đồ... CNT45DH GROUP BÀI GIẢNG XỬ TIẾNG NÓI này yêu cầu 2 phép tính nhân và 4 phép tính cộng Một cách thực hiện khác là nhóm các số hạng có r nhƣ u ( n) = w (n) + r[ w (n) + u ( n) ] w (n) = u ( n) - r[ w (n) + u ( n) ] Vì số hạng r[ w (n) + u ( n) ] có mặt ở cả hai phƣơng trình thì cấu hình này chỉ có 1 phép tính nhân và 3 phép tính cộng Khi sử dụng mô hình ống mất ít để tổng hợp tiếng nói, việc chọn... cả các hiệu ứng của bộ máy phát âm vì việc thay đổi áp lực trong bộ máy phát âm ảnh hƣởng đến việc thay đổi áp lực ở thanh môn 3.8 Các mô hình dựa trên thuyết âm học: Toàn bộ phần này đã xét tƣơng đối chi tiết các nét quan trọng của thuyết âm học trong việc tạo ra tiếng nói Các mô hình chi tiết về việc tạo ra, lan truyền và phát xạ âm, về nguyên tắc có thể giải đƣợc với các giá trị kích thích . thanh môn (đó cũng là kiểu kích thích để nói thầm). BÀI GIẢNG XỬ LÝ TIẾNG NÓI CAO QUYẾT THẮNG Trang 30 CNT45DH GROUP § 3. LÝ THUYẾT ÂM HỌC CỦA VIỆC TẠO TIẾNG. cho mỗi nguyên âm tiếng Anh (ở hình 3.6 gồm i , i: , e , ổ , ә , a , Ɔ , u , u: , : ). Các ảnh phổ thể hiện BÀI GIẢNG XỬ LÝ TIẾNG NÓI CAO QUYẾT THẮNG

Ngày đăng: 20/10/2013, 08:15

Hình ảnh liên quan

đƣợc vẽ theo biến ở hình 3.17 cho trƣờng hợp ống đều dài 17,5 cm (xem M.R. Portnoff).  Các  kết  quả  cũng  giống  ở  hình  3.15,  nhƣng  có  khác  biệt  ở  một    điểm  quan  trọng - Bài giảng môn học : xử lý tiếng nói P2

c.

vẽ theo biến ở hình 3.17 cho trƣờng hợp ống đều dài 17,5 cm (xem M.R. Portnoff). Các kết quả cũng giống ở hình 3.15, nhƣng có khác biệt ở một điểm quan trọng Xem tại trang 10 của tài liệu.
Từ hình 3.36 có thể thấy rằng điều kiện biên ở thanh môn có thể viết là U G(z) = 2 - Bài giảng môn học : xử lý tiếng nói P2

h.

ình 3.36 có thể thấy rằng điều kiện biên ở thanh môn có thể viết là U G(z) = 2 Xem tại trang 22 của tài liệu.
CAO QUYẾT THẮNG Trang 48Tổng quát, từ (27), (28) ta thấy hàm truyền (transfer function) cho mô hình ống mất ít có  - Bài giảng môn học : xử lý tiếng nói P2

rang.

48Tổng quát, từ (27), (28) ta thấy hàm truyền (transfer function) cho mô hình ống mất ít có Xem tại trang 23 của tài liệu.
Nói cách khác, hàm truyền của mô hình ống mất ít có làm chậm (delay) tƣơng ứng với số các phần của mô hình, không có các không mà chỉ có các cực - Bài giảng môn học : xử lý tiếng nói P2

i.

cách khác, hàm truyền của mô hình ống mất ít có làm chậm (delay) tƣơng ứng với số các phần của mô hình, không có các không mà chỉ có các cực Xem tại trang 23 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan