ĐIỆN tử VIỄN THÔNG chapter 2 fundamental of speech signal processing khotailieu

31 120 0
ĐIỆN tử VIỄN THÔNG chapter 2   fundamental of speech signal processing khotailieu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Multimedia Engineering Lecture 2: Fundamental of Speech Signal Processing Lecturer: Dr Đỗ Văn Tuấn Department of Electronics and Telecommunications Email: tuandv@epu.edu.vn Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis Introduction  Speech signal is complicated:    Noise + periodic segments Nonlinear Time variant Bộ máy phát âm Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu 10 Nắp đóng quản 11 Dây giả 12 Dây 13 Thanh quản 14 Thực quản 15 Khí quản Bợ máy phát âm  Bộ máy phát âm bao gồm thành phần riêng rẽ phổi, khí quản, quản, đường dẫn miệng, mũi  Trong đó:  Thanh quản chứa đơi dây dao động tạo cộng hưởng cần thiết để tạo âm  Tuyến âm ống không môi, kết thúc dây thanh quản  Khoang mũi ống không mơi, kết thúc vòm miệng, có độ dài cố định khoảng 12cm người lớn  Vòm miệng nếp chuyển động Cơ chế phát âm  Trong q trình tạo âm khơng phải âm mũi, vòm miệng mở, khoang mũi đóng lại, dòng khí qua khoang miệng  Khi phát âm mũi, vòm miệng hạ thấp dòng khí qua khoang mũi  Tuyến âm kích thích (excitation) nguồn lượng mơn Tiếng nói tạo tín hiệu nguồn từ mơn phát ra, đẩy khơng khí có phổi lên tạo thành dòng khí, va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ mơn đến khoang miệng) sau qua khoang mũi, mơi, tạo tiếng nói  Tín hiệu tiếng nói hình thành thơng qua yếu tố:  Excitation  Signal shaping Excitation  Voiced excitation by its periodicity,  voiceless excitation by its noise-like waveform,  transient excitation by a certain sequence in the temporal course Signal shaping  A speech sound is not only determined by the excitation signal, but also strongly by the "forming" of the air stream in the vocal tract The most important components are the lips and tongue  The components in the vocal tract contributing substantially to the timbre (âm sắc) of the speech signal are:  tongue position  lip position Presentation of speech signal  Speech signal is continuous Presentation of the speech signal digitally in order to maintain the characteristics of signal is very important Speech signal presentation Wave form Parametric Parametric excitation Parameters of vocal tract Presentation of speech signal  Speech signal needs presenting in discrete form following three required steps:  Sampling  Quantizing  Compressing  Sampling: in order to recover the signal without loosing information, sampling rate f0 ≥2Fmax (Shannon theorem) (for example: telephone – 8Kz, music and voice – 48Kz)  Quantizing: Each sample needs to be quantized for efficient processing and transmission This will produce white noise  Compressing: When transmitted, the speech signal contains a huge ‘redundancy’ Hence, the signal normally is compressed with a compression technique to have a compact signal for delivery 10 Đặc điểm của tín hiệu tiếng nói  Formant   Với phổ tín hiệu tiếng nói, đỉnh có biên độ lớn xét khoảng (cực đại cục bộ) tương ứng với formant Ngoài tần số, formant xác định biên độ dải thông chúng Về mặt vật lý formant tương ứng với tần số cộng hưởng tuyến âm Tần số formant biến đổi khoảng rộng phụ thuộc vào giới tính người nói phụ thuộc vào dạng âm vị tương ứng với formant 17 Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis 18 Bộ lọc nguồn  Tuyến âm người lọc phi tuyến phụ thuộc thời gian (tham số thay đổi theo thời gian) phức tạp kích thích nhiều nguồn lượng khác Mơ hình thực cho tính chất âm học vô phức tạp  Để tạo mơ hình đơn giản hóa sau  Tuyến âm biểu diễn lọc tuyến tính khơng mát với đầu vào  Nguồn kích thích dãy xung tuần hồn nhiễu, phụ thuộc vào tiếng nói hữu hay vơ  Các đặc tính lọc nguồn kích thích tĩnh (khơng biến đổi) chu kỳ khoảng 10 ms  19 Bợ lọc nguồn  Mơ hình  Khi dùng cho tổng hợp, tham số lọc cập nhật theo chu kỳ khoảng 10 ms  Khi dùng cho phân tích, tín hiệu tiếng nói phân chia thành khung độ dài khoảng 10-25 ms Với khung, tập tham số lọc xác định cách tối thiểu khác biệt tiếng nói tạo mơ hình tiếng nói thực 20 Mơ hình tồn cực  Là mơ hình lọc–nguồn tuyến âm biểu diễn lọc số phụ thuộc thời gian có đáp ứng tần số là: S ( z) H  z   U ( z) 1 G p k a z  k k 1  Hệ thống kích thích dãy xung tiếng nói hữu hay dãy nhiễu ngẫu nhiên tiếng nói vơ Tần số tham số hữu thanh/ vơ xác định sử dụng phân tích tiên đốn tuyến tính Các mẫu tiếng nói s(n) có cách sử dụng phương trình: p s  n   a k s n  k   G.u  n  k 1 21 Hàm tương quan  Hàm tương quan dùng để khảo sát tính tương quan hai hàm cách so sánh chồng hai hàm lên với hai hàm dịch sang trái hay sang phải  Liên tục r ( x)  g (u )h( x  u )du   Rời rạc r(k)   g(m).h(m  k) m -  Với tín hiệu ngắn hạn chiều dài N mẫu, hàm tương quan xác định sau: N1 R (k )  g ( k  m)h(m) k 0 22 Hàm tự tương quan   Định nghĩa R (k )   x m .x m  k  m   Nếu tín hiệu x(n) tuần hồn với chu kỳ P hàm tự tương quan tuần hoàn với chu kỳ P:  Tính chất  Là hàm chẵn  R(k) đạt giá trị cực đại  Giá trị R(0) lượng tín hiệu: R     x   m m   Sử dụng hàm tự tương quan để phân tích tần số 23 Kỹ thuật tiên đoán tuyến tính (LP)  Tiên đốn tuyến tính  Bộ tiên đốn tuyến tính với hệ số tiên đốn thống có đầu là: p k bậc p hệ ~ s (n)   k s n  k  k 1  Sai số tiên đoán e n   s  n   ~ s  n e n   s ( n )  p   s n  k  k k 1  Bộ lọc sai số tiên đoán hệ thống có hàm truyền đạt A z  1  p  k z  k k 1  hàm truyền đạt mơ hình tồn cực H  z  S ( z)  U ( z) 1 G p a k z  k k 1 24 Kỹ thuật tiên đoán tuyến tính (LP)  Tiên đoán tuyến tính  Tín hiệu đầu hàm truyền đạt p s n   a k s n  k   G.u  n  k 1  Nếu  k a k e(n) G u (n) với điều kiện đó, lọc lỗi tiên đoán A(z) lọc đảo hệ H(z): G H ( z)  A( z ) 25 Giải toán LP  Xét mẫu tín hiệu s(n), ta tìm cách biểu diễn mẫu tín hiệu thành tổ hợp tuyến tính mẫu trước Lỗi tiên đốn trung bình ngắn hạn E   s ( n)  ~ s ( n) E  e ( n) n n  E   s ( n )  n   Tối thiểu lỗi tuyến tính bình phương để tìm giá trị E 0  i  s ( n ) s ( n  i ) a n Đặt p   k s  n  k    k 1  k i  p  p  a     k s n  k   s n  i  n  k 1  n  i, k   s n  i  s n  k  n p Thì     i, k    i,0 k k 1 n n  phương trình tiên đốn tuyến tính (Yuke-Walker) 26 Tự đọc thêm  Tìm hiểu cách giải tốn tiên đốn tuyến tính LP  Sử dụng hàm tự tương quan (giải thuật đệ quy Levison-Durbin )  Sử dụng phương pháp covariant  Đọc thêm phổ tiên đoán tuyến tính 27 Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis 28 Phương pháp tổng hợp tiếng nói  Được chia làm nhóm:  Tổng hợp mơ máy phát âm: Mơ lại q trình xử lý vật lý máy phát âm người cách trực tiếp  Tổng hợp Formant: Mô tần số điểm cực tín hiệu tiếng nói hàm truyền đạt tuyến âm dựa mơ hình lọc-nguồn  Tổng hợp trực tiếp: Sử dụng mẫu tiếng nói ghi âm có chiều dài khác từ tiếng nói tự nhiên  Phương pháp tổng hợp LP (mã hóa tổng hợp LP - Presentation) 29 Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis – your task 30 End of the lecture 31 ... to the timbre (âm sắc) of the speech signal are:  tongue position  lip position Presentation of speech signal  Speech signal is continuous Presentation of the speech signal digitally in order... characteristics of signal is very important Speech signal presentation Wave form Parametric Parametric excitation Parameters of vocal tract Presentation of speech signal  Speech signal needs presenting...Lecture contents Introduction Speech signal analysis Speech signal synthesis Introduction to Vietnamese analysis and synthesis Introduction  Speech signal is complicated:    Noise +

Ngày đăng: 12/11/2019, 13:32

Từ khóa liên quan

Mục lục

  • Multimedia Engineering --------- Lecture 2: Fundamental of Speech Signal Processing

  • Lecture contents

  • Introduction

  • Bộ máy phát âm

  • Slide 5

  • Cơ chế phát âm

  • Excitation

  • Signal shaping

  • Presentation of speech signal

  • Slide 10

  • Speech signal coding

  • Đặc điểm của tín hiệu tiếng nói

  • Slide 13

  • Slide 14

  • Slide 15

  • Slide 16

  • Slide 17

  • Slide 18

  • Bộ lọc nguồn

  • Slide 20

Tài liệu cùng người dùng

Tài liệu liên quan