tăng cường chất lượng tín hiệu tiếng nói

24 451 0
tăng cường chất lượng tín hiệu tiếng nói

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trường Đại Học Bách Khoa Hà Nội VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG =======&&&======= Báo cáo đồ án Đề tài: Tăng cường chất lượng tín hiệu tiếng nói GVHD : PGS.TS Trịnh Văn Loan SV thực hiện : Nguyễn Hưng 20071458 LỚP : KTMT – K52 1 Người Nhận : PGS.TS Trịnh Văn Loan Người Gửi : Nguyễn Hưng Đề tài: Tăng Cường Chất Lượng Tín Hiệu Tiếng Nói I. Tăng cường chất lượng tín hiệu tiếng nói là gì: Tăng cường chất lượng tín hiệu tiếng nói liên quan đến việc cải thiện cảm nhận của người nghe với tiếng nói bị suy giảm chất lượng do sự ảnh hưởng của nhiễu có trong tiếng nói. Trong hầu hết các ứng dụng thì việc tăng cường chất tín hiệu tiếng nói chính là cải thiện về chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu gây ra. Việc xử lý mà tốt thì sẽ giúp cho người nghe dễ nghe hơn. Kể cả trong môi trường có mức độ nhiễu cao và liên tục trong thời gian dài. Trong thực tế có rất nhiều nguồn nhiễu như là nhiễu trên tàu hỏa,trên máy bay, trong phòng , trong bệnh viện…Tùy vào mỗi môi trường sẽ có yêu cầu tăng cường chất lượng và xử lý khác nhau. Ví dụ : với thông tin thoại thì chịu ảnh hưởng của nhiễu nền từ ô tô, nhà hàng khi truyền tới đich. Vì thế thuất toán tăng cường chất lượng tín hiệu có thể được xử lý ngay tại điểm thu, trong các khối tiền xử lý. Tuy nhiên nếu xét về phương diện thực tế thì các thuật toán Speed Enhancement chỉ có thể cải thiện được chất lượng của tiếng nói. Nó có thể giảm được nhiễu nền trong tiếng nói. Tuy nhiên nó sẽ làm tăng độ méo của tiếng nói. Do đó yêu cầu chính của việc thiết kế một thuật toán là việc đảm bảo nén được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói. Giái pháp đưa ra còn phụ thuộc vào ứng dụng chúng ta sử dụng. Các vấn đề như là nguồn nhiễu, giao thoa nhiễu, mối liên hệ giữa nhiễu và tiếng nói sạch. 2 II. Lý thuyết về nhiễu: II.1.Nguồn nhiễu : Nguồn nhiễu tồn tại ở mọi nơi, trên phố, văn phòng, nhà hàng, các bến xe, khu vui chơi giải trí, các công trường xây dựng…Nó tồn tại dưới nhiều hình dạng và hình thức khác nhau. Nhiễu có thể hình thành ở một nơi cố định và không thay đổi theo thời gian. Ví dụ tiếng ồn phát ra từ quạt máy tính. Nhiễu có thể ở nhiều chỗ khác nhau, như trong các quán ăn, nhà hàng. Các đặc tính về phổ trong nhà hàng thay đổi không theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy sẽ gặp nhiều khó khăn. Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ và sự phân bố của năng lượng nhiễu trong miền tần số. Ví dụ nhiễu gây ra bởi gió thì năng lượng nó tập trung ở tần số thấp hơn 500 Hz. Nhưng đối với nhiễu trong nhà hàng,trên xe lửa…thì nó lại phân bố trên một dải tần số rộng. Hình1 : Dạng và sự phân bố năng lượng trung bình nhiễu trên xe Hình 2.Dạng và sự phân bố năng lượng trung bình trên tàu. 3 Hình 3.Dạng và sự phân bố năng lượng trung bình trong nhà hàng. 2.2.Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau: Điểm tới hạn trong việc thiết kế các thuật toán của Speed Enhancement là sự nhận biết sự biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế. Từ đó chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu (SNR) được bắt gặp trong môi trường thực tế. Mức độ của tiếng nói và nhiễu được đo bằng mức độ âm thanh. Phép đo ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(Sound Pressure Level). Khoảng cách cũng ảnh hưởng tới cường độ âm thanh. Khoảng cách đặc trưng trong giao tiếp mặt giáp mặt là 1m. Khi khoảng cách tăng gấp đôi thì mức cường độ âm giảm đi 6 dB. Hình 4:Mức nhiễu và tiếng nói(được đo bằng SPL dB) trong các môi trường khác nhau Hình trên là sự tổng hợp về mức độ âm trung bình giữa tiếng nói và nhiễu trong các môi trường khác nhau. Mức độ nhiễu nhỏ nhất trong các môi trường phòng học trong nhà 4 ở trong bệnh viện và trong các tòa nhà. Trong các môi trương khác nhau thì mức độ nhiễu nằm trong khoảng 50-55 dB SPL. Và mức độ của tiếng nói là 60-70 dB SPL. Và ta đưa ra mức tỷ số tín hiệu trên nhiễu là 5-15 dB. Mức độ âm của nhiễu cao trong các môi trường tàu điện, trên máy bay nó đạt 70-75 dB SPL. Do đó mức tỷ số SNR() là bằng 0 dB. III. Một số phương pháp đánh giá chất lương tín hiệu tiếng nói. III.1 . Đánh giá chủ quan III.1.1 .Phương pháp đánh giá tuyệt đối ACR: -MOS (Mean Opinion Scores ): là phép đo chất lượng thoại nổi tiếng. Mang tính chất chủ quan. Có 2 phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe. Score Quality of the Speed Level of Distortion 5 Excellent Imperceptible 4 Good Just perceptible,but not annoying 3 Fair Perceptible and slight annoying 2 Poor Annoying but not Objectinable 1 Bad Very annoying and Objectionable III.1.2 Các phương pháp đánh giá tương đối III.1.2.1 Đánh giá bằng phương pháp so sánh mẫu tín hiệu Đó là thích nghe mẫu nào hơn. Hay thường gọi là so sánh đánh giá theo từng cặp tín hiệu. Phương pháp này thì người nghe sẽ được nghe 2 mẫu thoại và sẽ đánh giá thích mẫu nào hơn. Một biến thể của phương pháp này là Theshold Test. Phương pháp này thì so sánh tín hiệu đã qua xử lý với tín hiệu gốc chuẩn mà độ suy giảm của nó có thể được kiểm soát. Rating Quality of speech 3 Much better 2 Better 1 Slightly Better 0 About the Same -1 Slightly Worse -2 Worse -3 Much Worse III.1.2.2 Phương pháp đánh giá theo suy giảm chất lượng Degradation Category Rating (DCR) đó là sự giảm sút về chất lượng của tín hiệu đã qua xử lý so với tín hiệu chất lượng cao chưa được xử lý 5 Rating Degradation 1 Very Annoying 2 Annoying 3 Sightly annoying 4 Audible but not annoying 5 Inaudible III.2 Đánh giá Khách quan Là phương pháp đánh giá dựa trên các phép đo thuộc tính của tín hiệu 3.2.1 PESQ Là 1 trong các phương pháp đánh giá khách quan.Nó có độ phức tạp tính toán nhất. Được khuyến nghị bởi ITU-T cho việc đánh giá chất lượng tiếng nói với tần số 3.2kHz (narrow-band) máy thu phát điện thoại cầm tay và narrow-band speech codecs.Thuật ngữ PESQ được tính như phương trình tuyến tính kết hợp giữa giá trị nhiễu loạn trung bình D ind và giá trị nhiễu loạn bất đối xứng A ind như công thức bên dưới: PESQ=a 0 + a 1 D ind + a 2 A ind (1) Khi mà a 0 = 4.5 , a 1 = -0.1 và a 2 = -0.0309. Giá trị a 0, a 1, a 2 là optimized cho việc xử lý tiếng nói trên mạng và không cho việc xử lý tiếng nói bởi các thuật toán nén. Một cách không mong muốn PESQ lien quan tới 3 tiêu chí cho các phương pháp đo lường đó là: méo tíêng nói, méo tiếng ồn, và toàn bộ chất lượng. Chúng ta hãy tối ưu hóa phương pháp PESQ bằng việc quan tâm tới 1 trong 3 tiêu chí trên. Ứng với mỗi tiêu chí sẽ có 1 tập (a 0, a 1, a 2 ) khác nhau. Nhiều bộ hồi quy tuyến tính thường quyết định tham số a 0, a 1 và a 2 . Giá trị D ind , A ind được tính toán như giá trị độc lập trong phân tích hồi quy. Thực tế thì điểm chủ quan cho 3 tiêu chí được sử dụng trong phân tích hồi quy. 3.2.2 Đo tỷ số tín hiệu trên nhiễu từng khung: Đo SNR trên từng khung trong miền thời gian là phương pháp đánh giá về mặt toán đơn giản nhất. Quan trong là tín hiệu gốc và đã qua xử lý phải trong cùng miền thời gian, độ lệch pha hiện thời phải được hiệu chỉnh chính xác. Công thức: 6 SNR seg = (2) Trong đó : x(n) là tín hiệu gốc( tín hiệu thu được có nhiễu). là tín hiệu đã được tăng cường đã loại nhiễu. N : là chiều dài khung. M : là số khung của tín hiệu. Một cách khác xác định SNRseg do Richards đề xuất: SNR segR = ) (3) Như vậy có thể tránh được các giá trị sai lệch lớn trong suốt các khoảng lặng của tín hiệu tiếng nói. Chú ý rằng giá trị nhỏ nhất có thể đạt được bây giờ là 0 đã tốt hơn nhiều so với các giá trị âm vô cùng. Ưu điểm chính của việc xác định trước phân đoạn SNR là tránh được việc phải làm rõ ràng giữa các khoảng tiếng nói và khoảng lặng. Đo SNR cho từng khung có thể mở rộng trong miền tần số: fwSNR seg = (4) trong đó : B j là trọng lượng tại dải tần thứ j K: số dải tần. M: tổng số khung tín hiệu. F(m,j): Dãy tín hiệu gốc qua bộ lọc đã được khuếch đại tại dải lần thứ j và khung thứ m. 7 : dãy tín hiệu đã được tăng cường qua lọc khuếch đại ở cùng một dải tần với F(m,j). Ưu điểm chính của việc sử dụng SNRseg trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau. 3.2.3 Đo khoảng cách dựa trên LPC 3.2.3.1.Phương Pháp LLR Được định nghĩa theo công thức sau. d LLR ( p , c ) = log( ) (5) trong đó c là vector LPC của khung tín hiệu ban đầu. p là vector LPC của khung tín hiệu đã được tăng cường và R c là ma trận tự tương quan của tín hiệu tiếng nói ban đầu. Chỉ 1 khoảng nhỏ 95% giá trị của khung LLR là được sử dụng để tính giá trị trung bình LLR, giá trị LLR được giới hạn trong [0, 2] để giảm bớt giá trị ngoại lệ. 3.2.3.2Phương pháp IS(Itakura Saito) Là phương pháp đo khoảng cách dựa trên LPC của 2 khung tín hiệu tương ứng. d IS ( p , c ) = ( ) + log( ) -1 (6) trong đó là sự gia tăng LPC của tín hiệu sạch và tín hiệu được tăng cường tương ứng. Giá trị IS được giới hạn trong khoảng [0,100] . Đó là cần thiết để cực tiểu hóa giá trị ngoại lệ. 3.2.3.3 Phương pháp Cepstrum distance provides(CEP) Là 1 sự ước lượng log spectral distance giữa 2 phổ. Nó tồn tại đệ quy từ hệ số tiên đoán LPC { a m } sử dụng biểu thúc bên duwois. c(m)= a m + c(k) a m-k 1<= m<=p (7) 8 với p là bậc của phân tích LPC. d CEP ( c , p ) = (8) với c , p là vector cepstrum coefficient của tín hiệu sạch và tăng cường. Khoảng cách Cepstrum được giới hạn trong khoảng [0,10] để cực tiểu hóa giá trị không mong muốn. 3.2.4 Đánh giá theo mô phỏng cảm nhận nghe của con người Phương pháp này chú ý tới khă năng nghe của con người.mà các phương pháp khác không có. 3.2.4.1Phương pháp đo Weighted spectral Slope Weighted spectral Slope Measure (WSSM) được định nghĩa là phương pháp đo số lần giá trị trung bình mà chỉ những khung tín hiệu tốt được tính. WSSM có khác biệt so với Spectral Slope ở trên 25 dải tần số tới hạn giữa 2 khung tín hiệu tương ứng. Đấu tiên năng lượng của 25 dải tần số này là được tính toán cả 2 tín hiệu s(n) gốc sạch và tín hiệu được tăng cường và kết quả là E s (f) và độc lập với nhau. Độ dốc phổ của mỗi dải tần số được định nghĩa như sau. (9) (f)= (f+1) - (f) (10) Sau đó đỉnh gần nhất P(f) được xác định tìm kiếm đi lên nếu E(f)>0 và đi xuống còn lại. Sau đó trọng lượng của mỗi dải sẽ được tính : W(f) = (11) Với : = (12) 9 (13) Độ lớn trọng lượng hoạc là đỉnh của dải gần nhất hoặc là các chân( chỗ trũng như thung lũng) và có thể là đỉnh lớn nhất trong phổ. Cuối cùng WSSM được tính như là WSS = (14) Giá trị trung bình được tính dựa trên sự đồng bộ giữa các khung tín hiệu tốt. 3.2.4.2 Phương pháp đo Bark Distortion Phương pháp đánh giá WSS làm mẫu cho việc đánh giá bằng cách nào con người nhận biết được tiếng nói, đặc biệt là nguyên âm . Các phương pháp về sau thì càng dựa vào sự xử lý âm thanh của tai người, cách mà thính giác của con người xử lý âm thanh và nhiễu. Các lập luận đưa ra là : + Sự phân tích tần số của tai người là không đổi. + Độ nhạy của tai người phụ thuộc vào tần số âm thanh. + Âm thanh lớn ứng với độ mạnh của tín hiệu trong miền phi tuyến tính. Thính giác thì mô phỏng theo 1 loạt biến đổi của tín hiệu âm thanh.Cả tín hiệu gốc và qua xử lý phải trải qua hang loạt biến đổi này. Xuất hiện cái gọi là phổ âm lượng. Phương pháp BS sử dụng khoảng cách giữa các phổ này như là đánh giá chất lượng chủ quan. 10 [...]... lý tiếng nói như là tăng cường chất lượng tín hiệu nhờ loại bỏ nhiễu Tiếng nói tạm ngừng hay chỉ có nhiễu là được ước lượng để ước lượng cập nhật nhiễu Do đó việc ước lượng là chính xác hơn.Trong kỹ thuật mã hóa tiếng nói, mục đích của cách làm này là làm tăng tốc độ truyền tải thông tin Chỉ những đoạn có tiếng nói mới được truyền đi Do đó làm tăng tính dễ nghe của tín hiệu. Thông tin chứa trong tín hiệu. .. có thể thay thế bằng giá trị trung bình của nó được tính trong khi không có tiếng nói, và pha của tín hiệu nhiễu có thể thay thế bằng pha của tín hiệu bị nhiễu (18) Ký hiệu ‘^’ để chỉ rằng giá trị đó là giá trị ước tính gần đúng Tín hiệu tiếng nói được tăng cường có thể được bằng cách biến đổi IDFT của Chú ý biên độ phổ của tín hiệu đã được tăng cường có thể bị âm Tuy nhiên, biên độ của phổ thì không... trong tín hiệu Nó dựa trên một nguyên tắc cơ bản là,thừa nhận sự có mặt của nhiễu,ước lượng phổ của tiếng nói sạch bằng cách tiếng nói đã bị nhiễu trừ đi phổ của nhiễu Phổ của nhiễu có thể được ước lượng cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu( áp dụng với nhiễu có tốc độ biến thiên chậm) Việc tăng cường tín hiệu đã đạt được bằng cách tính IDFT của phổ tín hiệu đã được ước lượng có... detection Một vấn đề quan trọng trong ứng dụng xử lý tiếng nói là xác định thời gian có tiếng nói trong 1 tín hiệu âm thanh nhất định Đặc điểm của tiếng nói có thể coi như đoạn tín hiệu không liên tục Nó chỉ mang thông tin khi ai đó đang nói Các phần mà tồn tại tiếng nói gọi là vùng có tiếng nói, ngược lại là khoảng lặng Một thuật toán để xác định nơi nào có tiếng nói hoạt động, nơi nào không có ví dụ như là...IV.Thuật toán tăng cường chất lượng tín hiệu tiếng nói: 4.1.Sơ đồ khối chung của Spectral Subtraction và Wienner Filtering: Phân tích tín hiệu thành các frame Overlap và FFT Hàm xử lý giảm nhiễu IDFT adding Tín hiệu sạch Ước lượng nhiễu Tín hiệu bị nhiễu Cả 2 thuật toán Spectral Subtraction và Wiener filter chỉ khác nhau ở khối... biên độ điển hình.p=2 là phương pháp trừ phổ công suất Sơ đồ khối : Ước lượng, cập nhật nhiễu Tín hiệu bị nhiễu Y (ω ) FFT |.|p ^ | D(ω ) | p + Pha của tín hiệu Tín hiệu sau khi tăng cường IFFT |.|1/p 4.3 Thuật toán Wiener Filtering: Nguyên lý cơ bản ,giả sử y(n) là tín hiệu vào đã bị nhiễu,nó là tổng của tín hiệu sạch và tín hiệu nhiễu d(n): y(n)=x(n) + d(n) (25) Y(ω)=X(ω)+D(ω) (26) thực hiện F ta... sử dụng tổng năng lượng tín hiệu để so sánh với 1 mức ngưỡng được tính toán Bên cạnh việc tính tổng năng lượng thuật toán được bổ sung bởi đo chu kỳ tín hiệu và tỷ lệ năng lượng tần số cao tới năng lượng tần số thấp cho viếc xác định chính xác hơn sự có mặt của nhiễu 5.1.1Những yếu tố cơ bản của thuật toán Những yếu tố cơ bản đó là một phần của những đặc tính hay chất lượng của tín hiệu đầu vào sau... lượng và cập nhật nhiễu Phương pháp ước lượng nhiễu ảnh hưởng lớn đến chất lượng của tín hiệu sau khi đã được tăng cường Nếu nhiễu được ước lượng quá nhỏ thì nhiễu vẫn còn Còn nếu quá lớn thì tiếng nói sẽ bị méo ảnh hưởng đến sự dễ nghe của nó Sử dụng thuật toán thăm dò (voice actity detection –VAD).Phương pháp này chỉ thỏa mãn với nhiễu không thay đổi Giảm tính hiệu quả trong các môi trường thực (ngoài... nhiễu Tiếng nói được phát hiện khi mà năng lượng ước tính lớn hơn ngưỡng If( E j> k E r ) với k > 1, frame là có tiếng nói (39) Else frame là không có tiếng nói Trong công thức này thì E r là biểu diễn cho năng lượng của frame nhiễu, khi k E r là ngưỡng được sử dụng trong sự phát hiện tiếng nói Có hệ số tỷ lệ k cho phép một dải an toàn cho việc sửa lại Er ( sửa lại giá trị ngưỡng ) Sự khác biệt năng lượng. .. (http://sound.eti.pg.gda.pl/denoise/noise.html ) Mục lục 2.2.Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau: 4 3.2.3.1.Phương Pháp LLR 8 3.2.4 Đánh giá theo mô phỏng cảm nhận nghe của con người 9 3.2.4.1Phương pháp đo Weighted spectral Slope 9 3.2.4.2 Phương pháp đo Bark Distortion 10 IV.Thuật toán tăng cường chất lượng tín hiệu tiếng nói: 11 4.1.Sơ đồ khối chung của Spectral . Loan Người Gửi : Nguyễn Hưng Đề tài: Tăng Cường Chất Lượng Tín Hiệu Tiếng Nói I. Tăng cường chất lượng tín hiệu tiếng nói là gì: Tăng cường chất lượng tín hiệu tiếng nói liên quan đến việc cải thiện. với tiếng nói bị suy giảm chất lượng do sự ảnh hưởng của nhiễu có trong tiếng nói. Trong hầu hết các ứng dụng thì việc tăng cường chất tín hiệu tiếng nói chính là cải thiện về chất lượng và tính. thuật xử lý tiếng nói như là tăng cường chất lượng tín hiệu nhờ loại bỏ nhiễu. Tiếng nói tạm ngừng hay chỉ có nhiễu là được ước lượng để ước lượng cập nhật nhiễu. Do đó việc ước lượng là chính

Ngày đăng: 21/06/2014, 21:34

Từ khóa liên quan

Mục lục

  • 2.2.Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau:

    • 3.2.3.1.Phương Pháp LLR

    • 3.2.4 Đánh giá theo mô phỏng cảm nhận nghe của con người

    • 3.2.4.1Phương pháp đo Weighted spectral Slope

    • 3.2.4.2 Phương pháp đo Bark Distortion

    • IV.Thuật toán tăng cường chất lượng tín hiệu tiếng nói:

      • 4.1.Sơ đồ khối chung của Spectral Subtraction và Wienner Filtering:

      • 4.2.Thuật toán Spectral Subtraction:

        • 4.2.1 Spectral subtraction đối với phổ biên độ:

        • 4.2.2.Spectral subtraction đối với phổ công suất:

        • 4.3 Thuật toán Wiener Filtering:

        • V.Ước lượng và cập nhật nhiễu

          • 5.1 Voice activity detection

            • 5.1.1Những yếu tố cơ bản của thuật toán

            • 5.1.2Thuật toán VAD dựa trên cơ sở ngưỡng năng lượng

            • 5.1.3.Năng lượng của 1 frame

            • 5.1.5Giá trị ngưỡng

            • VI .Chương trình Mô phỏng:

Tài liệu cùng người dùng

Tài liệu liên quan