Xây dựng bộ điều khiển và nhận dạng tiếng nói phần 10

Thông tin tài liệu

Xây dựng bộ điều khiển và nhận dạng tiếng nói bằng sử lý tín hiệu số DSP 56002

GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói XƯÛ LÝ TÍN HIỆU TIẾNG NÓIChương trình này giới thiệu cụ thể về phép phân tích thời gian ngắn (Short-time Analysis). Tín hiệu được tách thành các frame dài N mẫu và mọi phép toán đều thực hiện trên frame đó mà thôi. Đây là phương pháp phân tích cổ điển đối với các tín hiệu không dừng (non-stationary) như tín hiệu tiếng nói. Khi đã chia thành các frame thì tín hiệu trên từng frame có thể được xem như là một tín hiệu dừng và mọi phép xử lý trên frame được áp dụng như là xử lý trên một tín hiệu dừng. Sau khi thực hiện STFT trích được đặc trưng của tín hiệu tiếng nói sẽ dùng phương pháp kết hợp mẫu để nhận dạng tiếng nói.I .TRÍCH ĐẶC TRƯNG TIẾNG NÓI DÙNG PHÉP PHÂN TÍCH STFTSau khi đã số hoá tín hiệu, chúng ta bắt đầu trích đặc trưng tiếng nói của một tiết như chu kỳ cao độ, formant nhưng trước hết là phải tách tín hiệu tiếng nói khỏi nhiễu nền (khoảng im lặng) vì tín hiệu thu trong môi trường nhiễu nên khoảng im lặng chính là nhiễu. Tất cả công việc trên đều có thể xử lý bằng phép phân tích thời gian ngắn (Short-time Analysis).SVTH:Huỳnh Quốc Trâm 9-104 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói1 . Các khái niệma) Frame : một frame tiếng nói fs(n,m) là tích của một cửa sổ được dòch w(m-n) với chuỗi tiếng nói s(n).fs(n,m)=s(n).w(m-n) (9.1)b) Năng lượng thời gian ngắn : hàm năng lượng thời gian ngắn (short-time energy function) của tín hiệu tiếng nói có thể được tính bằng cách chia tín hiệu tiếng nói ra thành các khung, tức là các đoạn N mẫu liên tiếp và tính tổng bình phương của các mẫu tín hiệu này trong từng khung. Việc chia tín hiệu ra thành các khung có thể được thực hiện bằng cách nhân tín hiệu đó với một hàm cửa sổ w(n) thích hợp với n=0,1,2…N-1. Hàm này sẽ có giá trò bằng 0 bên ngoài khoảng (0, N-1), thông thường các cửa sổ này là các cửa sổ chữ nhật có bề rộng từ 10 đến 20 ms. Với một cửa sổ kết thúc tại mẫu thứ m, hàm năng lượng thời gian ngắn E(m) được xác đònh bởi: [ ]∑∞−∞=−=n2)nm(w)n(s)m(E (9.2) Đồ thò của hàm năng lượng thời gian ngắn của một đoạn tín hiệu được thể hiện trên hình 9.1. Ta thấy năng lượng của tín hiệu lớn hơn rất nhiều so với khoảng im lặng (có thể xem là nhiễu).Hình 9.1a) Tín hiệu b) Năng lượng thời gian ngắn c) Tỷ lệ qua điểm zero (Zero-crossing rate): Tỷ lệ này là một thông số cho biết số lần mà biên độ tín hiệu đi qua điểm zero trong một khoảng thời gian cho trước được xác đònh bởi:SVTH:Huỳnh Quốc Trâm 9-105 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói)nm(w2)}1n(ssgn{)}n(ssgn{N1)m(Zm1Nmns−−−=∑+−=(9.3) Trong đó, N là chiều dài của cửa sổ w(m-n).d) Hàm tự tương quan thời gian ngắn : Hình 9.2 Hàm tự tương quan của frame tương ứng khoảng cực đại của tín hiệu Hàm tự tương quan (autocorrelation function) cho ta thông số về sự tương quan của tín hiệu với một phiên bản trễ của chính nó. Hàm tự tương quan thời gian ngắn của frame kết thúc tại m:∑+−=η+−η−−=ηm1Nmn)}nm(w)n(s)}{nm(w)n(s{)m,(r(9.4) Hình 9.2 là đồ thò hàm tự tương quan thời gian ngắn tương ứng khoảng cực đại của tín hiệu hình 9.1 a) sử dụng cửa sổ hình chữ nhật N=250. Nếu tín hiệu tuần hoàn thì hàm này cực đại khi khoảng trễ là bội số của chu kỳ cơ bản.SVTH:Huỳnh Quốc Trâm 9-106 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói2 . Phát hiện điểm đầu và cuối của một âm tiết dùng năng lượng frame Một trong những vấn đề cơ bản nhất trong xử lý tiếng nói là việc xác đònh điểm đầu và điểm cuối của chuỗi tiếng nói được phát ra. Đây là một khâu quan trọng trong quá trình nhận dạng mẫu tiếng nói sử dụng kiểu nhận dạng từ đơn (isolated-word) theo hướng phối hợp mẫu (Pattern Matching Approach) và được gọi là end-point detection. Theo kiểu này, các âm tiết trong mẫu ghi âm sẽ được tách riêng và trích đặc trưng của từng âm tiết. Việc phát hiện end-point rất khó thực hiện trong thực tế trừ trường hợp tỷ số tín hiệu trên nhiễu rất lớn. Tín hiệu tiếng nói thu được thông qua các thiết bò ngoại vi luôn nằm giữa khoảng im lặng. Việc ghi âm trong môi trường nhiễu nên khoảng im lặng còn gọi là nhiễu. Năng lượng thời gian ngắn của các cửa sổ chứa tín hiệu có ích luôn lớn hơn nhiều so với đoạn chỉ có nhiễu. Do đó, nếu chúng ta đặt ra một mức ngưỡng để phân biệt giữa frame chứa tín hiệu và frame chỉ gồm nhiễu thì đoạn chứa âm tiết sẽ được tách ra. Vì thế, giải thuật phát hiện end-point dùng năng lượng frame như hình 9.3 Trước tiên, các frame nhiễu nền sẽ được thu thập liên tục trước khi ghi âm tín hiệu tiếng nói nhằm thiết lập ngưỡng nhiễu. Ngưỡng này có thể xác đònh bằng bội số nào đó của năng lượng frame nhiễu lớn nhất. Sau đó, ghi âm tín hiệu của một âm tiết trong khoảng thời gian đủ dài để âm tiết được thu trọn vẹn và tính năng lượng frame cho tín hiệu vừa ghi âm. Dò từ đầu về cuối tín hiệu nếu frame nào có năng lượng lớn hơn ngưỡng chính là frame bắt đầu của tín hiệu và tiếp tục dò nếu frame có năng lượng nhỏ hơn ngưỡng (frame chứa nhiễu) thì đây là frame kết thúc của tín hiệu. Cuối cùng xét tín hiệu vừa tách được có phải là nhiễu hay không bằng cách so sánh chiều dài này với chiều dài SVTH:Huỳnh Quốc Trâm 9-107 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nóitối thiểu của một từ. Nếu thỏa điều kiện này thì đây thật sự là âm tiết, ngược lại phải ghi âm lại.SVTH:Huỳnh Quốc Trâm 9-108YNBEGINTính năng lượng frame của phần nhiễu N[k]Ngưỡng nhiễu ThrNoise = a*max(N[k])Ghi một âm tiếtTính năng lượng các frame tín hiệu tiếng nói E[k]k = 1Nk = k+1YFrame đầu từ kYFrame cuối từ k-1ENDE[k]<ThrNoise?E[k]>ThrNoise?Nk = k+1Chiều dài >ngưỡng? GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng NóiHình 9.3 Giải thuật phát hiện điểm đầu và điểm cuối dùng năng lượng frameGiá trò a từ 2-5% Nhận xét : Giải thuật này tuy đơn giản nhưng lại có nhiều nhược điểm. Chúng ta không thể xác đònh được điểm đầu và điểm cuối của một âm tiết vì nếu frame đầu được xác đònh chính xác thì điểm bắt đầu âm tiết có thể nằm ở vò trí nào đó trong frame này, dẫn đến độ sai lệch điểm đầu có thể bằng chiều dài frame N và tương tự cho điểm cuối. Đó là trường hợp lý tưởng, còn nếu frame đầu xác đònh sai ( trong môi trường nhiễu dao động nên đònh mức ngưỡng nhiễu không chính xác), thì độ sai lệch sẽ là bội số của N. vậy dùng năng lượng frame để phát hiện điểm đầu và cuối của từng âm tiết trong câu lệnh sẽ thiếu chính xác. Lưu ý : Công việc truy tìm frame đầu của tín hiệu tiếng nói có thể được xuất phát từ vò trí frame có năng lượng cực đại trên ngưỡng nhiễu (trong đoạn tín hiệu thực sự). Thực hiện theo cách này sẽ tăng thời gian xử lý nhưng hệ thống thiếu tính thực tế vì tín hiệu được thu xong mới tiến hành endpoint detection. Vì vậy, mục đích của người thiết kế giải thuật là tạo cho giải thuật có tính thực tế cao bởi vì bộ cảm biến (cụ thể ở trường hợp này là micro) của hệ thống điều khiển chỉ cần thăm dò và kiểm tra một frame tín hiệu (khoảng 10-20ms) trên ngưỡng nhiễu là biết có tín hiệu tiếng nói thu vào hay chưa. Từ đó có thể thực hiện các công việc song song khác như vừa truy tìm tín hiệu vừa tính STFT để thu được phổ cục bộ. Như vậy kết thúc endpoint detection cũng là kết thúc công việc nhận dạng. Một nổ lực khác để khắc phục nhược điểm trên khi tín hiệu tiếng nói được thu trong môi trường nhiễu cao là kết hợp năng lượng frame và tỷ lệ qua điểm zero với nhận xét: bản chất của “nhiễu” là tín hiệu ngẫu nhiên nên tỷ lệ qua SVTH:Huỳnh Quốc Trâm 9-109 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nóiđiểm zero sẽ lớn trong miền nhiễu và nhỏ trong miền tín hiệu. Trong khi năng lượng frame lại lớn trong miền tín hiệu và nhỏ trong miền nhiễu. Nếu kết hợp cả năng lượng frame và zero-crossing thì chúng ta tận dụng được cả tính chất của tín hiệu và nhiễu. Tuy nhiên nổ lực này vẫn không cải thiện hiệu quả cho lắm vì chúng ta phải dùng đến hai mức ngưỡng cho năng lượng frame và zero-crossing. Hình 9.4(a,b) Tín hiệu và năng lượng của từ ‘LEFT’ trước khi tách khỏi khoảng nhiễu .(c,d) Tín hiệu và năng lượng của từ ‘LEFT’ sau khi tách khỏi khoảng nhiễu .3 . Trích formant dùng phép biến đổi STFT Tiếng nói là tín hiệu không dừng (nonstationary signal) gồm nhiều thành phần. Về mặt toán học, một đoạn tiếng nói được biểu diễn với độ chính xác cao trong không gian Hilbert là tổng của các hàm mũ:SVTH:Huỳnh Quốc Trâm 9-110 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói∑∑==φη==NiiNi)t(iji)t(e)t(A)t(S11(9.5)Trong đó, {Ai(t)} và {φi(t)} lần lượt là tập biên độ và pha tức thời của N thành phần tần số của tín hiệu. Tần số góc tức thời của ηi(t) làti'iid)t(d)t(φ=φ=ω (9.6) Thực hiện STFT đối với tín hiệu S(t) trong biểu thức (9.5), ta được:dte)t(S)t(w),(STFTtj* ω−∞∞−τ−=τω∫ (9.7) p dụng đònh lý Parserval, ∫∫∞∞−∞∞−ωωωπ= d)(G)(F21dt)t(g)t(f** (9.8)và tính chất dòch theo thời gian, đònh lý điều chế của biến đổi Fourier vào (9.7) ta thu được :dt)t(S)e)t(w(),(STFT*tjω∞∞−τ−=τω∫( )[ ]ωτ−π=ω∞∞−∫d)t(SFe)t(wF21*tj[ ]ω′ω′ω−ω′π=∫∞∞−τω−ω′d)(S.e)(W21)(j*ω′ω′ω−ω′π=τω′∞∞−ωτ−∫de)(S)(W2ej* (9.9)Trong đó, W(ω′) và S (ω′) lần lượt là biến đổi Fourier của cửa sổ w (t) và tín hiệu S(t),ω là tần số đang phân tích.Hàm W (ω−ω′) có tác dụng như một bộ lọc thông dãy, làm giới hạn phổ tín hiệu S(ω′) xung quanh tần số trung tâm ω (hình 9.5). Do đó theo (9.9), các thành phần tần số iω trong tín hiệu tiếng nói sẽ ảnh hưởng lên kết quả STFT SVTH:Huỳnh Quốc Trâm 9-111 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nóitrong lân cận của các iω, tạo thành các ridge của STFT (hình 9.7). Điểm cực đại của các ridge chính là tần số iω.Hình 9.5 Biểu diễn phổ của tín hiệu và phổ của hàm cửa sổ tại t=τSTFT chuyển tín hiệu một chiều thành hàm hai biến ωvàτ. Do đó, kết quả của STFT là một ảnh biểu diễn các thành phần tần số của tín hiệu theo thời gian. Hình ảnh này được gọi là spectralgram.Từ kết quả phân tích trên, chúng ta thu được các ridges tương ứng với các tần số tức thời trong tín hiệu mà có biên độ tương đối lớn. Nếu xem mỗi thành phần tần số này là một formant thì đỉnh của các ridges chính là hình ảnh của các formant trong tín hiệu tiếng nói.Hình 9.7c cho phép chúng ta rút ra kết luận là đỉnh của các ridges chính là cực đại đòa phương của module STFT tính theo hướng tần số. Như vậy nếu tính được cực đại đòa phương module của phép biển đổi STFT theo hướng tần số thì có thể thu được hình ảnh biểu diễn các formant có trong tín hiệu tiếng nói.Như vậy, đặc trưng formant trong tín hiệu tiếng nói được trích ra từ dữ liệu STFT theo giải thuật tổng quát hình 9.6. Đầu tiên, tín hiệu tiếng nói của một âm tiết sau khi qua endpoint detection được phân tích thời gian-tần số bằng STFT để thu được các ridges tương ứng với các formant. Sau đó, kết quả STFT được lấy cực đại đòa phương module (local maxima modulus) theo hướng tần số để đònh vò chính xác vò trí của các formant. Bước cuối cùng trong công việc trích các formant là lần theo vết của các cực đại đòa phương để thu được giá trò của SVTH:Huỳnh Quốc Trâm 9-1121ω2ωωW()iSω GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nóimỗi formant theo thời gian. Để phục vụ cho mục đích nhận dạng, chỉ cần trích 3-5 formant là đủ để phân biệt các âm tiết với nhau.Hình 9.6 Giải thuật tổng quát trích đặc trưng formant dùng STFTSVTH:Huỳnh Quốc Trâm 9-113TínhSTFTTrích cực đạiđòa phươngtheo hướngtần sốTríchformantformantsS[n] [...]... tiếng nói dùng DSP56002: N Điều kiện nhận thỏa? Y Nhận dữ liệu và lưu vào RAM Trích âm tiết khỏi khoảng im lặng Trích formant của tín hiệu vào bằng STFT Tính D của tín hiệu vào với tín hiệu chuẩn N Từ cần nhận dạng =có? Y Ứùng dụng điều khiển SVTH:Huỳnh Quốc Trâm N Điều kiện kết thúc? Y END 9-126 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói III CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI : SVTH:Huỳnh Quốc Trâm... Tuấn Anh Nhận Dạng Tiếng Nói Hình 9.12 Lưu đồ trích một formant từ Local Maxima Kết quả trích formant của từ ‘LEFT’ được trình bày ở hình 9.13 Tín hiệu được lấy mẫu ở tần số 8kHz SVTH:Huỳnh Quốc Trâm 9-123 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói Hình 9.13 Kết quả trích formant của từ ‘LEFT’ dùng STFT II NHẬN DẠNG TIẾNG NÓI : Trong hệ thống điều khiển bằng tiếng nói, phần quan trọng nhất và phức tạp... chương trình nhận dạng tiếng nói Bằng các công cụ phân tích tín hiệu hiện có, hệ thống nhận dạng tiếng nói được thiết lập theo hướng phối hợp mẫu, trong đó mẫu được sử dụng để phối hợp là các đặc trưng tiếng nói của từng từ như dạng sóng một chu kỳ cao độ nguyên âm, formant 1 Giải thuật nhận dạng tiếng nói : Từ âm tiết tách được ,bằng phương pháp STFT ta sẽ trích được formant của tín hiệu và thu được... của phần tồn tại formant của hai từ Nếu 2 từ có các formant càng giống nhau thì các giá trò D (D1 hoặc D2) Khai báo hằng và biến tính được càng nhỏ.Do đó quyết đònh nhận dạng sẽ dựa vào cực tiểu của các giá trò D của từ cần nhận dạng với các từ trong bộ từ vựng Trong luận văn này em sử dụng công thức tính D1 để làm cơ sở phối Đònh dạng CS4215 và hợp mẫu DSP56002 2 Lưu đồ giải thuật nhận dạng tiếng nói. .. bit lưu trong bộ nhớ X/Y ; phần thực và phần ảo tương ứng ; -coef :đòa chỉ nền của bảng SIN/COS ; ;Các thanh ghi sử dụng trong chương trình : ; r0: trỏ vào ar,ai trong sơ đồ bướm DIT SVTH:Huỳnh Quốc Trâm 9-137 GVHD:Thầy Lê Tuấn Anh ; ; ; ; Nhận Dạng Tiếng Nói r4: trỏ vào ar',ai' trong sơ đồ bướm DIT r1: trỏ vào br,bi trong sơ đồ bướm DIT r5: trỏ vào br',bi' trong sơ đồ bướm DIT r6: trỏ vào wr,wi trong... thuật trích cực đại đòa phương 9-115 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói Y Kết quả trích local maxima của từ “báo” được vẽ trên hình 9.9 Tín hiệu được lấy mẫu ở tần số Fs=8KHz và chiều dài của tín hiệu được giới hạn còn 1600 mẫu để tiện cho việc phối hợp mẫu khi nhận dạng SVTH:Huỳnh Quốc Trâm 9-116 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói Hình 9.9 Kết quả trích cực đại đòa phương của từ ‘LEFT’... EQU LOCAL1 EQU POINTS1 EQU DULIEU EQU HESO EQU KQ EQU $100 0 $0FA0 $100 0 $0300 $0700 $2000 $2D00 $11FF 512 $0C00 $0900 $3000 $3200 $1200 $100 0 $3000 $100 0 0.1 $0A00 nhan formant dieukhien jmp START ;********************************************************************* SVTH:Huỳnh Quốc Trâm 9-128 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói ;PHẦN ĐỊNH DẠNG CHO CS4215(init.asm) ;*********************************************************************... 1, n) ~= 0) Trong đó : SVTH:Huỳnh Quốc Trâm 9-125 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói F(2f-1,n), F(2f,n): lần lượt là giá trò và biên độ tại điểm n của formant thứ f của từ cần nhận dạng Fstore { i} (2f-1,n), Fstore { i} (2f,n): lần lượt làø giá trò và biên độ tại điểm n của formant thứ f của từ thứ i trong bộ từ vựng và Fstore { i} = Ftừ i Do các formant dùng để phối hợp mẫu không phải lúc... Tuấn Anh Nhận Dạng Tiếng Nói Hình 9.7 Spetralgram của tín hiệu a)Tín hiệu gồm 3 thành phần tần số 200,500,700Hz liên tiếp nhau theo thời gian b)Biểu diễn STFT trong mặt phẳng thời gian tần số c)Biểu diễn STFT trong không gian 3 chiều Giải thuật trích cực đại hoá đòa phương : Sau khi tính STFT của tín hiệu tiếng nói, ta thu được một ma trận M PQ có P hàng ứng với P giá trò rời rạc tần số và Q cột... SVTH:Huỳnh Quốc Trâm N Điều kiện kết thúc? Y END 9-126 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói III CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI : SVTH:Huỳnh Quốc Trâm 9-127 GVHD:Thầy Lê Tuấn Anh Nhận Dạng Tiếng Nói CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI ;******************************************** ;CHƯƠNG TRÌNH CHÍNH (main.asm) ;******************************************** include 'init.asm' include 'sincos' include 'bitrev' . điểm đầu và điểm cuối của chuỗi tiếng nói được phát ra. Đây là một khâu quan trọng trong quá trình nhận dạng mẫu tiếng nói sử dụng kiểu nhận dạng từ đơn. trích được đặc trưng của tín hiệu tiếng nói sẽ dùng phương pháp kết hợp mẫu để nhận dạng tiếng nói. I .TRÍCH ĐẶC TRƯNG TIẾNG NÓI DÙNG PHÉP PHÂN TÍCH STFTSau

Ngày đăng: 16/11/2012, 09:21

Xem thêm: Xây dựng bộ điều khiển và nhận dạng tiếng nói phần 10, Xây dựng bộ điều khiển và nhận dạng tiếng nói phần 10