Nhận dạng tiếng nói dùng giải thuật trích đặc trưng MFCC và lượng tử vector trên KIT DSKTMS320C6713 của TI

102 361 0
Nhận dạng tiếng nói dùng giải thuật trích đặc trưng MFCC và lượng tử vector trên KIT DSKTMS320C6713 của TI

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

v MC LC Trang ta TRANG Quy tài Lý lch cá nhân i L ii Cm t iii Tóm tt iv Mc lc v Danh sách các ch vit tt vi Danh sách các hình vii Danh sách các bng viii . TNG QUAN 1 1.1      1 1.2           2 1.3 Tính cp thit c tài 5 1.4 Mc tiêu nghiên cu ca lu 5 1.5        6 1.6 ng và phm vi 6 1.7 Cu trúc lu 7 .  LÝ THUYT 8 2.1  8 2.2            12 2.2.1      12 2.2.2          13 2.2.3        14 2.2.4  15 2.3          16 2.3.1 Frame Blocking 16 -scale Frequency Cepstral Coefficient) 20 2.3.2.1 Windowing 22 2.3.2.2 Phân tích ph FFT 23 2.3.2.3 Mel frequency filter Bank 25 2.3.2.4 Phân tích cepstral 28 2.4      34                   MATLAB 39 v 3.1 Tách t 39 3.2 ng 41 3.3 Pre_emphasis 41 3.4 Windowing 41 3.5 Tính FFT 41  42 3.7 Mel-filter bank 42 3.8 Tinh log 42 3.9 Tính h s cepstral 42 3.10 Kt qu 43 .                 T DSKTMS320C6713 48 4.1 B x lý tín hiu s TMS320C6713 48 4.2 Code Composer Studio 50 4.3 Tng quan v kit DSKTMS320C6713 53 4.4 Xây dng h thng nhn dng âm thanh trên nn Kit DSP DSKTMS320C6713 56 4.4.1 Hun luyn 57 4.4.1.1 Record 59 4.4.1.2 Framing Windowing 60 4.4.1.3 FFT 61 4.4.1.4 Power spectrum 62 4.4.1.5 Mel frequency spectrum 63 4.4.1.6 Log energy 65 4.4.1.7 Bii Cosine ri rc DCT 66 ng t vector VQ 68 4.4.2 Nhn dng 73 T LUN 82 TÀI LIU THAM KHO 84 PH LC 86 vi            MFLOPS floating-point operations per second MIPS instructions per second MMACS million multiply-accumulate operations per second VLIW very-long-instruction-word L1P Level 1 program L1D Level 1 data TI Texas Instruments CCS Code composer studio COFF common object file format CCSv5 Code composer studio version 5 CSL Chip support library BSL Board support library DSK DSP starter kit ADC analog digital converter DAC digital ananog converter MFCC Mel-frequency cepstral coefficients FFT Fast Fourier transform ASR Automatic speech recognition vii DANH SÁCH CÁC HÌNH BNG TRANG Hình 2.1: Cu t 8 Hình 2.2: Cu ti 9 Hình 2.3: Dng sóng theo thi gian 11 Hình 2.4: Dng sóng  min tn s 12 Hình 2.5:  khi quá trình hun luyn và nhn dng âm thanh 16 Hình 2.6: Tín hic chia thành các sub-frame 18 Hình 2.7: Tín hic và sau khi qua khi pre-emphasis 20 Hình 2.8: Ph ca tín hic và sau khi qua khi pre-emphasis 20 Hình 2.9:   21 Hình 2.10: Ca s Hamming 22 Hình 2.11: c khi nhân ca s hamming 23 Hình 2.12: Tín hiu sau nhân ca s hamming 23 Hình 2.13: Thang tn s Mel 25 Hình 2.14: B lc Mel frequency 26 Hình 2.15: Quá trình to ra các h s sau khi qua dãy b lc 27 Hình 2.16: Các h s  31 vii Hình 2.17: Minh ha gii thung t vector 32 Hình 2.18: Thut toán to chùm 34 Hình 2.19: Minh ha thut toán to chùm 35 Hình 2.20: Quá trình nhn dng âm thanh 36 Hình 3.1: c khi tách t 37 Hình 3.2: Sau khi tách t 38 Hình 3.3: Dng sóng các ký hiu âm thanh t 1 ti 10 40 Hình 3.4: Không gian vector n luyn ca t  43 Hình 3.5: Không gian vector n dng ca t  44 Hình 3.6: Giao din chính c 44 Hình 3.7: Giao din luyn 45 Hình 3.8: Tín hiu ghi âm 45 Hình 3.9: Tín hiu sau khi tách 45 Hình 3.10: H s MFCC 46 Hình 3.11: Giao din dng 46 Hình 4.1: Cu trúc b x lý DSP TMS320C6713 49 Hình 4.2: Memory map ca TMS320C6713 50 Hình 4.3: BSL và CSL cn cho CCS 53 vii Hình 4.4: Tng quan phn cng board DSK 54 Hình 4.5: Giao tip ngõ vào và ngõ ra ca các thit b âm thanh và b Codec 55 Hình 4.6: Loi b nh và pha ch trên kit DSK 56 Hình 4.7:  khi tng quát quá trình hun luyn và nhn dng âm thanh 57 Hình 4.8:  khi quá trình hun luyn âm thanh 57 Hình 4.9:  khi hàm Framming Windowing 60 Hình 4.10: D liu sau khi tính toán ph công sut 62 Hình 4.11: D lic tính toán qua cac b lc tam giác thang tn sô Mel 64 Hình 4.12: Mt ví d v Acoustic vector ca 1 frame m 65 Hình 4.13: Acoustic vector ca 20 frame liên tip 66 Hình 4.14: D liu sau khi tính toán bii Cosine ri rc 67 Hình 4.15:  khi gii thut ca thut toán LBG s d 70 Hình 4.16: D liu codebook ca t cn hun luyn sau khi tính toán 71 Hình 4.17: D liu khong cách Euclidean ca t cn nhn dng 73 Hình 4.18: Kt qu nhn dng hin th trên màn hình 73 DANH SÁCH CÁC BNG BNG TRANG Bng 1: Kt qu nhn dng b 45 Bng 2: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 160 mu trên mt frame, chng ln 80 mu, t l nhn dng trung bình là 87.1% 74 Bng 3: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 200 mu trên mt frame, chng ln 100 mu, t l nhn dng trung bình là 89.8% 75 Bng 4: Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 256 mu trên mt frame, chng ln 156 mu, t l nhn dng trung bình là 86.9%. 76 Bng 5: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 160 mu trên mt frame, chng ln 80 mu, t l nhn dng trung bình là 78.8%. 77 Bng 6: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 200 mu trên mt frame, chng ln 100 mu, t l nhn dng trung bình là 81.3%. 78 Bng 7: Kt qu nhn dng ca mô hình Codebook gm 8 codeword, 256 mu trên mt frame, chng ln 156 mu, t l nhn dng trung bình là 80.9%. 79 Bng 8:Kt qu nhn dng ca mô hình Codebook gm 16 codeword, 256 mu trên mt frame, chng ln 156 mu, s ng t vng là 6 t có t l nhn dng trung bình là 96%. 80 1 NG QUAN 1.1 Gii thiu: Tin giao tin nht ci, nó hình thành song song vi quá trình tin hóa ci vi, s dng ting nói là cách din và hiu qu nhm ca giao tip bng tic tiên là  t giao tip, ting nói t i nghe hic phát ra. Bên cng nói là cách giao tic s dng rng rãi nht. V nhn dng ting nói là mt v ln, nhiu nghiên cu c hin trong vài thp niên g thng vi b t vng nh, nhp t ri rc có th áp trong nhng ng d ci thin hiu qu nhng sn xut, hoc trong nhng ng dng t xa vi thit bu nh thng nhn dng tic thit k  nhn dng phát âm ri rng nhiu thp. Các h thng dùng b t vng nh (10-100 tng hp ngui hun luyn. T n nay, cùng vi s phát trin ca khoa hc, k thut nhn dng ting ng s tin b t bc thc hin bng nh pháp gii thut mi hii và hiu qu ngày càng cao. Nhn dng ting nói là mt quá trình nhn dng mu, vi m lu vào là tín hiu ting nói thành mt dãy tun t các mu c h trong b nh. Các m nhn dng, chúng có th là các t, hoc các âm v. Nu các mu này là bt bin và không thay i thì công vic nhn dng ting nói tr in bng cách so sánh d liu ting nói cn nhn dng vi các mc h trong b nh n ca nhn dng ting nói luôn bin thiên theo thi gian và có s khác bit ln gia ting nói ca nhi nói khác nhau, t nói, ng cnh ng âm hnh nhng thông tin bin thiên nào ca ting nói là có ích và nhi vi nhn dng ting nói là rt quan trt nhim v r vi các k thut xác 2 sut thng kê mc tng quát hoá t các mu ting nói nhng bin thiên quan trng cn thit trong nhn dng ting nói. Các nghiên cu v nhn dng ting nói da trên ba nguyên tn:  Tín hiu tic biu din chính xác bi các giá tr ph trong mt khung thi gian ngn (short-term amplitude spectrum). Nh vy ta có th m ting nói t nhng khong thi gian ngn và dùng các m này làm d li nhn dng ting nói.  Ni dung ca tic biu dii dng ch vit, là mt dãy các ký hiu ng a mc bo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiu ng âm.  Nhn dng ting nói là mt quá trình nhn thc. Thông tin v ng  (seman     trong quá trình nhn dng ting nói, nht là khi thông tin v âm hc là không rõ ràng. 1.2 Tình hình nghiên cc Tình hình nghiên c  c: Hin nay trên th gii có rt nhiu nghiên cu v h thng nhn dng gic nhng thành t Via Voice Mellennium (IBM), Via Voice Standard ( IBM), SLU (Center of Spoken Language Understanding), HTK ng h thc xây d nhn dng ting Anh, ngoài ra còn có mt sô h thng nhn dng ting nói ca các ngôn ng . Mt s d án nghiên cu tiêu bi - CMU SPHINX: còn gi là SPHINX là mt h nhn dng tic phát trin ti hc Carnegie Mellon, bao gm mt Engine nhn dng tên là SPHINX và m   n luyn âm v là SphinxTrain. Ngoài ra còn mt s n luyn mô hình âm v (acoustic mod ch mô hình ngôn ng (language model) và t n n thi s dng Sphinx. Có th tham kho ta ch cmusphinx.sourceforge.net. 3 - Microsoft Speech Recognition: sau khi tuyn d  i  u nhóm nghiên cu Sphinx  X.Huang t i hc Carnegie Mellon, Microsoft bu nghiên cu nhn dng ting nói và chuyn sang ting nói. Công ty này sau    ng Speech API (SAPI), mt giao din lp trình dành cho nhng ai mun phát trin ng dn ging Windows. Có th tham kho thêm ta ch Microsoft.com/speech/speech2007/default.mspx. - Julius: là d án mã ngun m nghiên cu phát trin nhn dng ting Nht da trên mô hình Markov n ph thuc vào ng c  nghiên cu m rng cho nhiu ngôn ng khác nhau. Có th tham kho thêm ta ch Julius.sourceforge.jp/en_index.php. - Dragon: là sn phi ca công ty NUACE. Có nhiu phiên bn c y khoa, Dragon phc v hc t  u. Có th tham kho thêm ta ch nuance.com/dragon/index.htm. Tình hình nghiên cc: Vit Nam hin nay có 2 trung tâm ln nghiên ch vc x lý ting nói và ting Vit là Vin Công Ngh thông tin và trung tâm nghiên cu quc t n truyn thông và ng dng MICA  i hc Bách Khoa Hà Ni (mica.com.vn). Mt s sn phm và  tài nghiên cu nhn dng ting nói trc: -    a mt nhóm nhng sinh viên khoa Công ngh i hc Bách khoa TP H t gii ng Trí tu Ving da trên b nhn dng ting nói ca Microsoft tích hp sn trên Windows. Da trên s  i ging nhau khi phiên âm latin ca mt s t ting Anh và ting Vit, nhóm  dn dng ting nói ca Microsoft cung cp, thc hin thao tác nhn d t ting Anh nhc sang t ting Vit có phiên âm latinh gn ging nhm c cu xây d c mt h nhn dng âm thanh hoàn chnh mà ch da trên s ng trong cách phiên âm nên kt qu nhn dng không c ci thin [...]... C6000 của Texas Instruments Co 5 1.5 Nhịm v lu năvĕnă Nội dung 1: Nghiên cứu phương pháp và thực hiện các giải thuật tách từ, trích đặc trưng ti ng nói, thực hiện huấn luyện và nhận dạng ti ng nói dùng thuật toán trích đặc trưng ti ng nói MFCC và thuật toán lươ ̣ng tử vectơ VQ Cụ thể có 4 bước chính: - Trích đặc trưng: đó chính là các giá trị đo đạt tín hiệu ngõ vào để xác định các hệ số MFCC -... nghiệp của sinh viên Nguyễn Quốc Đính: Thiết kế bộ nhận dạng ti ng nói dựa trên nền tảng DSP TMS320C2812 Thực hiện nhận dạng với số lượng từ vựng nhỏ (4 từ) bằng phương pháp trích đặc trưng MFCC và lượng tử vector VQ cho tỉ lệ trên 70% - Đề tài tốt nghiệp của học viên Hà Thúc Phùng: Điều khiển thiết bị bằng ti ng nói Thực hiện trên Matlab, sử dụng mô hình Markov ẩn Thực hiện nhận dạng với số lượng từ... ti u nghiên cứu của lu năvĕn: Luận văn được xây dựng với hai mục ti u chính: - Đánh giá vai trò của hai thông số: kích thước Codebook và số lượng mẫu trên Frame âm thanh (sau khi thực hiện Framming chia một từ thành các frame nhỏ) đối với độ chính xác của mô hình nhận dạng âm thanh dùng giải thuật trích đặc trưng MFCC và lượng tử vector VQ - Xây dựng mô hình đánh giá thuật toán nhận dạng âm thanh trên. .. dựa trên từ cần nhận dạng và tập huấn luyện codebook để chọn ra từ nào phù hợp nhất Nội dung 2: Xây dựng chương trình đánh giá thuật toán nhận dạng trên Matlab để có một cái nhìn tổng quan về công việc sẽ thực hiện trên phần cứng Nội dung 3: Tìm hiểu về Kit DSK TMS320C6713 và thiết kế mô hình nhận dạng ti ng nói dựa trên kit này, dùng phương pháp trích đặc trưng MFCC và lượng tử vector VQ Cụ thể đề... chương trình nhận dạng trên Kit DSK TMS320C6713 Ph m vi nghiên cứu: - Việc đánh giá chỉ được thực hiện trên hai thông số kích thước Codebook và số lượng mẫu trên Frame âm thanh - Chương trình xây dựng trên Kit DSP với số lượng từ vựng 16 từ, cơ sở dữ liệu cho mỗi từ dùng để huấn luyện và nhận dạng được ghi âm 100 lần - Môi trường ghi âm ít nhiễu và ti ng nói dùng cho huấn luyện và nhận dạng của cùng một... ngữ phổ biến nhất Nội dung 4: Trên nền tảng chương trình xây dựng trên chip DSP ở nội dung 3 ti n hành đánh giá vai trò của kích thước Codebook và số lượng mẫu trên frame âm thanh đối với độ chính xác của quá trình nhận dạng 1.6ăĐốiăt Đốiăt ng và ph m vi: ng nghiên cứu: - Luận văn nghiên cứu phương pháp nhận dạng âm thanh dựa trên thuật toán trích đặc trưng MFCC và lượng tử vector VQ 6 - Luận văn nghiên... thạc sĩ hay luận án ti n sĩ liên quan đến vấn đề xử lý ti ng nói ở các trường đại học trong nước Trong số đó, một số đề tài đư ứng dụng kỹ thuật nhận dạng ti ng nói vào một số vấn đề thực tế như dùng ti ng nói để điều khiển các thiết bị tự hành như: Robot, hay các thiết bị dân dụng như đèn, quạt … 4 1.3 Tính cấp thi t của đề tài: Hầu hết những ứng dụng của kỹ thuật nhận dạng ti ng nói chỉ mới dừng lại... lượng từ vựng 15 từ, đạt tỉ lệ trên 90% - Đề tài tốt nghiệp của học viên Võ Quốc Việt: Thiết kế hệ thống nhận dạng ti ng nói ti ng Việt với VERILOG và MATLAB Đư thiết kế được một số khối chức năng trên Kit DE2, tuy nhiên chưa xây dựng được một chương trình nhận dạng hoàn chỉnh trên Kit - Đề tài nghiên cứu ứng dụng mạng neuron và mô hình Markov ẩn trong nhận dạng ti ng Việt của nghiên cứu sinh Đặng Ngọc... hệ thống nhận dạng chữ số ti ng Việt liên tục với cơ sở dữ liệu thu âm qua điện thoại dùng mạng lai ghép HMM/ANN Kết quả đạt được là hệ thống nhận dạng với độ chính xác là 97.46% ở mức từ và 90.41% ở mức câu - Đề tài: Nhận dạng ti ng Việt dùng mạng neuron kết hợp trích đặc trưng dùng LPC và AMDF của PGS.TS Hoàng Đình Chiến Kết quả nhận dạng 10 số từ 0 đến 9 đạt tỉ lệ 96.2% khi kết hợp LPC và AMDF Ngoài... thuận ti n để biến đổi phi tuyến giữa ngõ vào và ngõ ra bất kỳ với nhiều hiệu quả Dựa vào những phân tích ở trên, ta chọn phương pháp nhận dạng mẫu vì tính đơn giản không phụ thuộc nhiều vào bộ từ vựng, không cần kiến thức rộng về ngữ âm, ngữ pháp Phương pháp nhận dạng mẫu bao gồm hai bước tách đặc trưng và huấn luyện nhận dạng mẫu 2.3 Thu tătoán trích đặc tr ng MFCC Để nhận biết vị trí của thuật toán MFCC . Ving da trên b nhn dng ti ng nói ca Microsoft tích hp sn trên Windows. Da trên s  i ging nhau khi phiên âm latin ca mt s t ti ng Anh và ti ng Vit, nhóm . dng ti ng nói trên Matlab. - c hin h thng nhn dng ti ng nói trên Kit DSK TMS320C6713. - t lun. 8  LÝ THUYT 2.1 Tín hiu ti ng nói: . quát hoá t các mu ti ng nói nhng bin thiên quan trng cn thit trong nhn dng ti ng nói. Các nghiên cu v nhn dng ti ng nói da trên ba nguyên tn:  Tín hiu ti c biu

Ngày đăng: 22/08/2015, 11:04

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan