Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

95 364 0
Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ vi HVTH: NGUYN THÀNH CHUNG MC LC LÝ LCH KHOA HC i L ii LI C iii TÓM TT iv MC LC vi DANH SÁCH CÁC HÌNH ix DANH SÁCH CÁC BNG xi DANH SÁCH CÁC CH VIT TT xii NG QUAN 1 1.1.Tng quan v nhn dng ting nói, tình hình nghiên cc 1 1.1.1.Nhn dng ting nói 1 1.1.2.Tng quan tình hình nghiên cu 2 1.2.Mng nghiên cu c tài 5 1.2.1.Mc tiêu 6 ng nghiên cu 5 1.3.Nhim v và gii hn c tài 6 1.3.1.Nhim v 6 1.3.2.Gii hn 6 u 6 1.5.Ni dung lu 7 c tin c tài 8  2. NG NÓI TING VIT 9 2.1.TNG QUAN V TING NÓI 9 2.2.n ca Ting Vit 9 2.2.1.Âm tit 9 2.2.2.Âm v 11 2.2.3.Nguyên âm và ph âm 11 2.2.4.u 12  3. MÔ HÌNH NHN DNG TING NÓI TING VIT 13 3.1. Phân loi các h thng nhn dng ting nói 13 3.1.1. Nhn dng t liên tc và nhn dng t cách bit 13 3.1.2. Nhn dng ph thuc li nói 13 3.2. Các yu t n kt qu nhn dng ting nói : 15 3.3. Cu trúc h nhn dng ting nói: 16 3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n: 17 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ vii HVTH: NGUYN THÀNH CHUNG 3.5. Voice Acivation Detection (VAD): 18 3.6 s MFCC 19 3.6.1. Tin x lý 19 3.6.2. To khung và ca s hóa tín hiu 23 3.6.3.  25 3.6.4. Hu x lý 31 ng t vector: 32 3.7.1. Tng quan v ng t vector (VQ): 32 3.7.2. Cu trúc và tp hun luyn VQ: 33  méo: 34 3.7.4. Phân nhóm các vector hun luyn: 34 : MÔ HÌNH MARKOV N HMM 36 4.1. Quá trình Markov: 36 4.2. Mô hình Markov n: 38 4.3. Gii pháp toán hn ca mô hình Markov n: 41 4.3.1. Bài toán 1: 41 4.3.2. Bài toán 2: 44 4.3.3. Bài toán 3: 45 4.4. Các loi mô hình Markov n: 49 THIT K PHN CNG VÀ MU KHIN ROBOT 50 5.1. Tng quan v phn cng ca h thng : 50 5.2. La chn thit b: 52 5.2.: 52 5.2.2. Board Arduino Mega 2560: 54  : THIT K H THNG NHN DNG VÀ PHN MM GIAO DIN NHN DNG 66 6.1.Thit k h thng nhn dng ting nói trên máy tính 66 6.1 67 6.1ng t hóa vector 71 6.1.3.Hun luyn HMM 75 6.1.4.Nhn dng bng mô hình HMM 76 6.2.Thit k phn mm giao din nhn dng 78 6.3. Kt qu th nghim trên phn mm nhn dng 79 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ viii HVTH: NGUYN THÀNH CHUNG . KT LUNG PHÁT TRIN 83 7.1. Kt lun 83 7.2. Nhn xét 84 7.3. Hn ch c tài: 84 7.4. ng phát trin c tài 84 TÀI LIU THAM KHO 86 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ ix HVTH: NGUYN THÀNH CHUNG DANH SÁCH CÁC HÌNH Hình 3. 1. i nói khác nhau s phát âm khác nhau 14 Hình 3. 2. Mô hình nhn dng tic li nói 15 Hình 3. 3. Cu trúc tng quát ca mt h thng nhn dng ting nói 16 Hình 3. 4.  gii thut h thng nhn dng ting Vit dùng Markov n 17 Hình 3. 5. n mc khi VAD 18 Hình 3. 6. n mu âm thanh sau khi VAD 18 Hình 3. 7 gii thung nói 19 Hình 3. 8. Tin x lý tín hiu 19 Hình 3. 9. Phân tích khong lng ca ting nói 21 Hình 3. 10. Tách ting nói khi khong im lng theo VAD 22 Hình 3. 11. T ting nói có khong im lng tách thành ting nói không có khong lng 23 Hình 3. 12. Frame blocking và Windowing 23 Hình 3. 13. Chia khung chui tín hiu 24 Hình 3. 14. Ca s Hamming vi các h s  24 Hình 3. 15. Tín hiu tic ca s hóa so vu 25 Hình 3. 16c thc hin MFCC 25 Hình 3. 17. Ph Fourier ca tín hiu gc và tín hia s hóa 26 Hình3. 18c tam giác melscale trên min tn s 27 Hình 3. 19. Tính các h s delta 29 Hình 3. 20. Quá trình  30 Hình 3. 21c hu x lý tín hiu 31 Hình 3. 22.  khi cu trúc ca VQ hun luyn và phân lp 33 Hình 3. 23.  gii thut VQ 35 Hình 4. 1. Xích Markov 5 trng thái S 1 ,S 2 , S 5 và các xác sut chuyn trng thái 36 Hình 4. 2. Ví d mt mô hình Markov n sáu trng thái 39 Hình 4. 3. Mô t c thc hi  t (i) 43 Hình 4. 4. Mô t c thc hi tính bin β t (i) 44 Hình 5. 1.        50 Hình 5. 2.      50 Hình 5. 3.     t bên trái 51 Hình 5. 4.   khuôn mt thc t ca robot 51 Hình 5. 5. Cu to bên trong ca RC servo 52 Hình 5. 6. u khin v c ra cu ch  rng xung 53 Hình 5. 7.08A 54 Hình 5. 8. Giao din IDE ca Arduino 57 Hình 5. 9. Board Arduino Mega 2560 (mc và sau) 58 Hình 5. 10.Board Arduino Mega 2560 59 Hình 5. 11.   2560. 59 Hình 5. 12.     2560. 61 Hình 5. 13. s. 61 Hình 5. 14.   , . 62 Hình 5. 15.          . 62 Hình 5. 16.               . 63 Hình 5. 17.          63 Hình 5. 18.         . 64 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ x HVTH: NGUYN THÀNH CHUNG Hình 5. 19.  64 Hình 5. 20.        65 Hình 6. 1.  khi mô hình hun luyn và nhn dng t . 67 Hình 6. 2.  gii thut thc hin tách ting nói khi khong lng. 68 Hình 6. 3.  gii thut thc hin phân tích h s . 69 Hình 6. 4.Minh ha ng t hóa vector 75 Hình 6. 5.  gii thut hun luyn HMM. 76 Hình 6. 6.  gii thut nhn dng t  dng HMM 77 Hình 6. 7. Giao din nhn dng ting nói. 78 Hình 6. 8.Minh ha phân tích d liu ting nói thành các h s  s dng cho hun luyn h thng và nhn dng. 80 Hình 6. 9.Kt qu nhn dng t  82 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ xi HVTH: NGUYN THÀNH CHUNG DANH SÁCH CÁC BNG Bng 2. 1:Cu trúc tng quát ca mt âm tit ting Vit 11 Bng 6. 1. Kt qu th nghim cho nhóm h thng hc mu 80 Bng 6. 2. Kt qu th nghim cho nhóm mo danh 81 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ xii HVTH: NGUYN THÀNH CHUNG DANH SÁCH CÁC CH VIT TT Thut ng T vit tt ụ nghĩa Artifactial Neural Network ANN Mo Fast Fourier Transform FFT Bii Fourier nhanh Dicrette Cosine Transform DCT Bii cosin ri rc. Hidden Markov Model HMM Mô hình Markov n Linear predictive code LPC H s d n tính Mel-scale Frequency Cepstral Coefficient MFCC H s   Multi Layer Perceptron MLP Mng perceptron truyn thng nhiu lp Speech Recognition SR,ASR Nhn dng ting nói Bias ng kích hot Pattern Recognition Nhn dng mu Likelihood M ging Similarity M  Feature  Spectral, spectrum Ph tín hiu Graphical User Interface GUI Giao dii s dng Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ 1 HVTH: NGUYN THÀNH CHUNG Cểương 1.Tổng quan Chng 1: TNG QUAN 1.1. Tng quan v nhn dng ting nói, tình hình nghiên cu trong và ngoài nc 1.1.1. Nhn dng ting nói Nhn dng ting nói bao gm c nhn dng âm tit ri rc, liên tc, nhn dng i nói, ngôn ng nói và cao c có th nhn dc trng thái tâm lý ca i nói. Có rt nhiu ng dng ca nhn dng tii sng xã h xác nhn security), dch t ng, các h thng phone banking, i c gng nghiên cu là làm sao máy tính có th giao tip vi thông qua ting nói. Nhn dng ting nói là mc ca x lý ngôn ng t nhiên (Natural Language Processing), tc là v n nhn dng ting nói ph thuc vào ngôn ng nói. Do vy ngôn ng nhn dng ting Vit rt khác so vi ting Anh và các th tingkhác. Mt ví d  có th hình dung, nu s dng các engine nhn dng ting Anh có sn (bao gm c  t s vi mch x lý ti bán trên th ng) thì hiu qu i vi ting Vit là khá thp. Mt s không th phân bin, chung Viu - tonal language, còn ting Anh thì không), vì vy nhn dng ting Vit ch có th i Vit làm. Nhn dng và tng hp ting nói không th da trên các mc x lý thp (signal processing) mà còn phi kt hp x lý thông tin  các mc cao và cao nht là tri thc. Nhn dng ting nói là mt quá trình nhn dng mu, vi mlà phân lp u vào là tín hiu ting nói thành mt dãy tun t các m c h trong b nh. Các m nhn dng, chúng có th là các t, hoc các âm v. Nu các mu này là bt bii thì công vic nhn dng ting nói tr n bng cách so sánh d liu ting nói cn nhn dng vi các mc h trong b nhn ca nhn dng ting nói luôn bin thiên theo thi gian và có s khác bit ln gia ting nói ca nhi nói khác nhau, t nói, ng cng âm hnh nhng thông tin bin thiên nào ca ting nói là có ích và Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ 2 HVTH: NGUYN THÀNH CHUNG Cểương 1.Tổng quan nhi vi nhn dng ting nói là rt quan trng. ây là mt nhim v r  vi các k thut xác sut thng kê mc tng quát hoá t các mu ting nói nhng bin thiên quan trng cn thit trong nhn dng ting nói. Các nghiên cu v nhn dng ting nói da trên ba nguyên tn:  Tín hiu tic biu din chính xác bi các giá tr ph trong mt khung thi gian ngn (short-term amplitude spectrum). Nh vy ta có th trích ra các m ting nói t nhng khong thi gian ngm này làm d li nhn dng ting nói.  Ni dung ca tic biu dii dng ch vit, là mt dãy các ký hiu ng a mc bo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiu ng âm.  Nhn dng ting nói là mt quá trình nhn thc. Thông tin v ng   trong quá trình nhn dng ting nói, nht là khi thông tin v âm hc là không rõ ràng.[1] 1.1.2. Tng quan tình hình nghiên cu Tin giao tin nht ci, nó hình thành và phát trin song song vi quá trình tin hóa ci vi, s dng li nói là mt cách din và hiu qu nhm ca vic giao tip bng tic tiên là  t giao tip, ting nói t i nghe hiu ngay lp tc phát ra. Ngày nay, nh s phát trin ca khoa hc k thut, máy móc dn dn thay th  u khin máy móc, coi phi làm khá nhiu thao tác tn nhiu thi gian và cn ph tu này gây tr ngi vi vic s dng các máy móc, thành tu khoa hc k thuu khin máy móc thit b bng ting nói s d dàng  cu khin máy móc thit b bng ting nói càng bc thii vi các thit b cn tho máy tính có th c tic nhn dng ting a th k c nhng thành t, và có nhng ng dng hu ích thit thc vào trong cuc s  hiu ca máy tính vn còn nhiu hn ch và khong cách khác xa so vi thc t. Mt Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ 3 HVTH: NGUYN THÀNH CHUNG Cểương 1.Tổng quan khác, nhn dng ting nói ch c phát trin trên các th tii vc ta nhn dng ting nói vn còn là mc khá mi m. 1.1.2.1. NgoƠi nc Hin nay, trên th gii có rt nhiu h thng nhn dng ting nói c ng dng rt hiu qu Via Voice ca IBM, Spoken Toolkit ca CSLU (Central of Spoken Laguage Understanding) trong ting Anh,    c trong h thng ca ting Nht, mô hình MFGI (Mixdorff  Fujisaki model of German Intonation) trong tic, S phát trit bc ca công ngh vi x lý và công ngh x lý ting nói trong nh ra rt nhiu nhng ng d nht là các h thng giao tip, hn thoi. Có th k tên mt s ng dng n  Quay s bng ging nói.  Truy cp thông tin bng gin thoi.  H thng h tr y t n thoi.  ng dng truy vn thông tin trong ngân hàng.  ng dng chuu tr bnh t xa. Theo thng kê và d báo v th ng công ngh thông tin và truy 2009, chi tiêu cho nghiên cu, phn cng, phn mn công ngh x lý ti git con s 5 t -la M. Công ngh x lý tii h thng, không còn bó buc trong cách thn thn thoi) mà chuyc tip bng ging kinh t cnh tranh, các ng dng dn dn sang tích h thanh. Vic ng dng và khách hàng có th i nhau thông qua âm thanh i b giao di ha truyn thng mà nó cung cp thêm mt cách truy cp thông tin và dch v tin li, t  Mt s ng di s giao tip gia khách hàng và h thng vi s ng ln, có tích h  thng giao tip, h ng, các h thng dn [...]... < Hình 3.10:Tách ti ng nói kh i kho ng im l ng theo VAD Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 22 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N THU HÀ Hình 3.11:T ti ng nói có kho ng im l ng tách thành ti ng nói không có kho ng l ng 3.6.2 T o khung và c a s hóa tín hi u B c ti p theo là chia tín hi u x1(n) thành các khung và c a... bi tăđó Hình 3 1: Ng i nói khác nhau s phát âm khác nhau Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 14 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp Thuănh nă d ăli u L i nói X păx ă thamăs Thuănh nă d ăli u Lựaăch nă nhóm Mô hình ng iăth ăi Mô hình toƠnăc c Chi năl că soăkh p Chi năl că lo iătr Rút trích đ cătr ng Hu năluy n L i nói GVHD: PGS.TS TR N... u Tín hi u ti ng nói b x(n) thuăđ nhă h ng b iă môiă tr ng xung quanh Ví d tín hi u c b i các thành ph n: x(n) = s(n) + d(n), trong đóăs(n) là tín hi u thu n Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 19 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp ti ng nói và d(n) là nhi u Có nhi uă ph GVHD: PGS.TS TR N THU HÀ ngăphápăl c nhi u, tuy nhiên có hai... ngănh ăv y g p m t s v năđ , nh tălƠăđ chính xác c a h th ng Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 13 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp Trong thực t , mỗiăng ng h GVHD: PGS.TS TR N THU HÀ i có m t gi ng nói khác nhau, th m chí ngay cùng m t iă cũngă cóă gi ng nói khác nhau nh ng th iă đi m khác nhau.ă Đi u này nh ng r t l nă đ n vi c nh... VAD Tín hi uăơmăthanhăđ căchiaăthƠnhăMăđo n, mỗiăđo n có L m u. Trong đ tài này ch n K = 160 m u v i Fs =ă8kHz,ănghĩaălƠă20ms cho mỗiăđo n SauăđóăhƠmănĕngăl ng Es s đ Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt c tính cho mỗiăđo n b i công th c (3.1): 18 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N THU HÀ Es (m)   n K *m1 S12 (n)... là m t công vi c ph c t p Trong quá trình nh n d ng,ădƣyăcácăvectorăđ cătr ngăđ m u tham kh o.ăSauăđó,ăh th ngătínhătoánăđ t căđemăsoăsánhăv i các ngăđ ng c aădƣyăcácăvectorăđ c tr ngă vƠă m u th m kh o ho c chuỗi các m u tham kh o Vi că tínhă toánă đ gi ng Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 16 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp nhauăth... khung có L m u Chú ý rằng ch s trong các hàm này là m, vì vi c tính toán không ph i thực hi n t i mỗi m u (ch tính sau mỗi khung m u) Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 21 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N THU HÀ Ti pătheoălƠătínhăng ỡng quy tăđ nhăđ xácăđ nhăđi măđ uăvƠăđi m cu i c a ti ng nói. ăĐ xácăđ nhăđ căng ỡng... Markov n Tín hi u ti ng nói sauăkhiăđ tr ngăc a ti ng nói đ vectoră đ că tr ngă tr căl cătríchăđ cătr ngăMFCC,ăthìăchuỗiăcácăvectorăđ c ng t hóaăđ gi m b t s l că khiă đ ng các quan sát cho chuỗi c s d ngă đ hu n luy n mô hình nh n d ng dùng Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 17 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N... trên mi n t n s Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 27 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS TR N THU HÀ IDCT (Iverse Discrete Cosin Transform) Gi ng nói c aăconăng tr nă(smooth)ătrênă mi n t n s , do v y, các giá tr nĕngăl nhau có sự t nĕngăl ngă quană (correlated)ă kháă g n.ă B ng thành các h s ítăt i có ph khá ng c a các... theo công th c: ; 1+ 2 ng tín hi u Mỗi khung tín hi uăđ uăcóănĕngăl , = 1,2, … , ngăriêngăvƠănĕngăl ngănƠyăđ (3.12) c tính theo logaritănh ăsau: Cểương 3 Mô ểìnể nểận dạng tiếng nói Tiếng Việt 28 HVTH: NGUY N THÀNH CHUNG Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp −1 = 2 2 GVHD: PGS.TS TR N THU HÀ ; (3.13) =0 3.6.3.4 Các h s delta và gia t c Bi năđ i ph đóngăvaiătròăquanătr ng trong . th hin trong bng 2.1. Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD: PGS.TS. TRN THU HÀ 11 HVTH: NGUYN THÀNH CHUNG Cểương 2. Đặc trưng tỄếng nói Tiếng. dng ting nói ting Vit trong các h thng nhn du khin thit bng ting nói ting Vit. Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp GVHD:. ting nói : 15 3.3. Cu trúc h nhn dng ting nói: 16 3.4. Gii thut h thng nhn dng ting nói ting Vit dùng Markov n: 17 Kỹ thuật nhận dạng tiếng nói thành lệnh ng dụng trong công nghiệp

Ngày đăng: 22/08/2015, 08:51

Từ khóa liên quan

Mục lục

  • 4 BIA SAU A4.pdf

    • Page 1

Tài liệu cùng người dùng

Tài liệu liên quan