Nhận dạng tiếng nói dùng mạng neural

95 338 0
Nhận dạng tiếng nói dùng mạng neural

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

v TÓM TT Nhn dng ting nói là một kỹ thut có thể ng dng trong rất nhiu lĩnh vc ca cuộc sống: trong vic điu khiển (điu khiển robot, động c, điu khiển xe lăn cho ngưi tàn tt ), an ninh quốc phòng  Vit Nam, trong nhng năm gần đơy đã có một số nghiên cu ban đầu v nhn dng ting Vit, tuy nhiên còn giới hn v độ chính xác, số từ, vấn đ thanh điu đặc thù ca ting Vit hầu như chưa đưc đ cp. Trong khuôn kh ca khóa học Cao học, chuyên ngành Kỹ thut đin t ti trưng Đi học Sư phm Kỹ thut Tp. H Chí Minh, đưc s to điu kin giúp đỡ ca nhƠ trưng vƠ PGS. TS Dưng HoƠi Nghĩa, tôi đã la chọn đ tài “ Nhận dạng tiếng nói dùng mạng Neural”, nhằm nghiên cu các phưng pháp nhn dng ting nói đối với ting Vit dùng mng Neural và th nghim trên phần mm Matlab. Nội dung ca lun văn đưc trình bƠy thƠnh các chưng như sau:  Chưng 1: Tng quan Chưng th nhất giới thiu tng quan v hướng nghiên cu ca đ tài,mc đích vƠ phưng pháp nghiên cu.  Chưng 2: C s lý thuyt Chưng th hai trình bày tóm tt v ting nói và một số phưng pháp nhn dng ting nói ph bin  Chưng 3: Tng quan v mng Neural Chưng nƠy trình bƠy tng quan v mng Neural bao gm: phần lịch s phát triển, cấu trúc mng Neural, thut toán, ng dng ca chúng trong nhn dng  Chưng 4: Xơy dng h nhn dng Phần này trình bày quá trình tin hành và một số kt qu nghiên cu xây dng h nhn dng các ch số ting Vit trên môi trưng Matlab. vi  Chưng 5: Kt lun. Chưng cuối trình bày nhng kt qu đt đưc vƠ hướng phát triển ca đ tài. Mặc dù ht sc cố gng nhưng do kh năng còn hn ch nên kt qu nghiên cu còn khá khiêm tốn. Hy vọng rằng tưng lai tôi s có điu kin hn để tip tc nghiên cu và m rộng đ tài này. vii SUMMARY Speech recognition is a technique that can be applied in many areas of life: in the control (control robots, motors, control a wheelchair for the disabled, etc.), security and defense In Vietnam, in recent years there were some initial research on Vietnamese identity, but also limited in terms of accuracy, the number of words, tone issues specific language can hardly be counter. In the framework of the course Master of Science degree in Electronic Engineering at the University of Technical Education Ho Chi Minh City, is the creation of conditions to help the school and Associate Professor. Dr. Duong Hoai Nghia, I have chosen the theme "Speech recognition using Neural Network", in order to study the method of speech recognition for Vietnammese using Neural network and Matlab software trials. The content of the thesis is presented in the following chapters:  Chapter 1: Overview The first chapter introduces an overview of the research directions of the subject, purpose, and research methods.  Chapter 2: Theoretical basis The second chapter presents a summary of the language and some common methods of speech recognition  Chapter 3: Overview of Neural network This chapter presents an overview of the Neural network include: historical development, Neural network structures, algorithms, their application in the identification  Chapter 4: Construction of identity This section presents the process and a number of research findings build recognize the letters of the English in the Matlab environment.  Chapter 5: Conclusion. The last chapter presents the results and development of the subject. viii Despite our best efforts, likely due to limited research results are relatively modest. Hopefully the future will have more conditions to continue and expand research subject. ix MỤC LỤC TRANG Trang ta Quyt định giao đ tài Lý lịch cá nhân i Li cam đoan iii Li cm n iv Tóm tt v Mc lc ix Danh sách ch vit tt xiii Danh sách các hình xiv Danh sách các bng xv Chưng 1. TNG QUAN 1.1 Tng quan v lĩnh vc nghiên cu 1 1.2 Mc đích ca đ tài 4 1.3 Nhim v và giới hn ca đ tài 4 1.4 Phưng pháp nghiên cu 4 Chưng 2. C S LÝ THUYT 2.1 Lý thuyt âm thanh và ting nói 6 2.1.1 Ngun gốc âm thanh 6 2.1.2 Các đi lưng đặc trưng cho ơm thanh 6 2.1.3 Các tần số ca âm thanh 7 2.1.4 C ch to lp ting nói ca con ngưi 7 x 2.1.5 Mô hình lọc ngun cho quá trình to ting nói 8 2.1.6 H thống nghe ca tai ngưi 9 2.1.7 Quá trình to ra ting nói và thu nhn ting nói ca con ngưi 10 2.1.8 Các âm thanh ting nói vƠ các đặc trưng 11 2.2 Lý thuyt nhn dng ting nói 12 2.2.1 Tng quan v nhn dng ting nói 12 2.2.2 Các nguyên tc c bn trong nhn dng ting nói 14 2.2.3 Các phưng pháp nhn dng ting nói ph bin 14 2.2.4 Các quá trình c bn ca một h thống nhn dng ting nói 19 Chưng 3. TNG QUAN V MNG NEURAL 3.1 Giới thiu tng quan v mng Neural 23 3.1.1 Mng Neural sinh học 23 3.1.2 Mng Neural nhân to 24 3.2 Lịch s phát triển ca mng Neural nhân to 26 3.3 Các tính chất ca mng Neural nhân to 28 3.4 Mô hình Neural và kin trúc mng 28 3.4.1 Mô hình Neural 28 3.4.1.1 Mô hình Neural đn gin 29 3.4.1.2 Mô hình Neural nhiu ngõ vào 32 3.4.2 Kin trúc mng Neural 32 3.4.2.1 Mng Neural đn lớp 33 3.4.2.2 Mng Neural đa lớp 34 3.4.2.3 Mng Neural hi qui 35 3.5 Phưng thc làm vic ca mng Neural 36 xi 3.6 Các lut học 38 3.7 Vấn đ thit k cấu trúc mng 40 3.7.1 Số lớp ẩn 40 3.7.2 Số đn vị trong lớp ẩn 40 3.8 Thut toán lan truyn ngưc 42 3.8.1 Chỉ số hiu năng 43 3.8.2 Lut xích 44 3.8.3 Lan truyn ngưc độ nhy cm 45 3.9 ng dng mng Neural trong nhn dng 47 Chưng 4. XÂY DNG H NHN DNG 4.1 Xây dng h thống nhn dng 49 4.1.1 Mô t chung v h thống 49 4.1.2 S đ khối ca h thống 49 4.1.3 Phưng pháp gii quyt 50 3.4.1.1 Thu nhn tín hiu 50 3.4.1.2 Trích đặc trưng ting nói 53 3.4.1.3 Tính đầu vào cho mng 57 4.2 Chưng trình nhn dng mưi ch số ting Vit 58 4.2.1 Giao din phần mm demo 58 4.2.2 Kt qu th nghim 61 Chưng 5. KT LUN 5.1 Nhng kt qu đt đưc 75 5.2 Hướng phát triển ca đ tài 75 5.2.1 Xây dng bộ d liu lớn hn 75 xii 5.2.2 Xây dng phần mm nhn dng da trên kt qu nghiên cu 75 5.2.3 Nghiên cu các phưng pháp xác định đặc trưng khác 76 5.2.4 Nghiên cu các phưng pháp nhn dng khác 76 TÀI LIU THAM KHO 77 PH LC 79 xiii DANH SÁCH CH VIT TT STT Kí hiu Din gii 1 Artificial Neural Nron nhơn to 2 Artificial Neural Networks Mng Nron nhơn to 3 Back Propagation Learaning Rule Lut học lan truyn ngưc 4 Learing Học 5 Hidden Layer Lớp ẩn 6 Melscale Frequency Cepstral Coefficients - MFCC Các h số theo thang tần số Mel 7 Myltilayer Layer Feedforward NetWord Mng nhiu lớp truyn thẳng 8 Neural Nron 9 Neural Networks - NN Mng Nron 10 Output Layer Lớp ra 11 Paramater Learning Học thông số 12 Perceptual Linear Prediction - PLP Mã d đoán tuyn tính 13 Recurrent Neural Networks Mng Nron hi qui 14 Single Layer Feedforward NetWord Mng một lớp truyn thng 15 Step Function HƠm bước 16 Supervised Learning Học có giám sát 17 Unsupervised Learning Học không có giám sát xiv DANH SÁCH CÁC HÌNH TRANG Hình 2.1: Mô hình lọc ngun cho quá trình to ting nói 9 Hình 2.2: S đ biểu din quá trình thu, nhn ting nói ca con ngưi 10 Hình 2.3: Các phần t c bn ca một h thống nhn dng ting nói 13 Hình 2.4: S đ khối nhn dng ting nói theo ng âm ậ âm vị học 15 Hình 2.5: S đ khối h thống nhn dng ting nói theo phưng pháp từ dưới lên 19 Hình 2.6: Các quá trình c bn ca một h thống nhn dng ting nói 20 Hình 3.1: Mô hình mng Neural sinh học 23 Hình 3.2: Mô hình t bào thần kinh sinh học 24 Hình 3.3: Mô hình mng Neural nhân to 25 Hình 3.4: Mô hình Neural 29 Hình 3.5: Mô hình Neural đn gin 30 Hình 3.6: Hàm truyn ngưỡng 30 Hình 3.7: Hàm truyn tuyn tính 31 Hình 3.8: Hàm truyn log ậ sigmoid 31 Hình 3.9: Mô hình Neural nhiu ngõ vào 32 Hình 3.10: Mô hình huấn luyn mng Neural 33 Hình 3.11: Mô hình mng Neural đn lớp 33 Hình 3.12: Dng kí hiu ca mng Neural đn lớp 34 Hình 3.13: Mng Neural đa lớp (3 lớp) 34 Hình 3.14: Mng hi quy 36 Hình 3.15: Mô hình học có giám sát và cng cố 39 Hình 3.16: Mô hình học không có giám sát 40 Hình 4.1: S đ khối h thống nhn dng 50 Hình 4.2: S tưng quan gia tín hiu ting nói và nn nhiu 51 Hình 4.3: Tín hiu ting nói nguyên thy 52 [...]... Vì nh ng lí do trên, tôi chọn đ tƠi Nhận dạng tiếng nói dùng mạng Neural , nhằm nghiên c u các ph ng pháp nh n d ng ti ng nói đối với ti ng Vi t và th nghi m xây d ng một h thống nh n d ng c nhỏ 1.1.1 Các k t qu nghiên c u ngoƠi nước Nh n d ng ti ng nói nhằm chuyển thông tin t ti ng nói con ng tính và tổng h p ti ng nói nhằm t động t o ra ti ng ng i vào máy i nói bằng máy tính Cùng với s phát triển... một h thống nh n d ng ti ng nói Các h thống nh n d ng ti ng nói có thể đ c phân lo i nh sau:  Nh n d ng t phát ơm r i r c/liên t c  Nh n d ng ti ng nói ph thuộc ng i nói/ không ph thuộc ng i nói  H thống nh n d ng t điển cớ nhỏ (d ới 20 t )/t điển c lớn (hƠng nghìn t )  Nh n d ng ti ng nói trong môi tr  Nh n d ng ng ng có nhi u th p/cao i nói Trong h nh n d ng ti ng nói với cách phát âm r i r c... lƠ ngoƠi đ i nói ng phố - Handset để thu ơm có thể khác nhau trong nh ng tình huống khác nhau Đi u ki n lý t ng cho vi c th c hi n nh n d ng ti ng nói nói chung vƠ ơm thanh nói riêng lƠ ti ng nói sẽ ổn định kể c trong lúc hu n luy n vƠ lúc nh n d ng Ti ng nói c a mỗi ng i lƠ duy nh t, không trùng l n với nh ng ng i khác Do đó, cho đ n th i điểm hi n t i, vi c nh n d ng ơm thanh, ti ng nói lƠ một công... trên vi c trích đặc tr ng c a ti ng nói bằng ph ng pháp MFCC (Mel - Frequency Ceptrums Coefficients), vƠ nh n d ng bằng m ng neural trên môi tr ng Matlab 1.3 Nhi m vụ vƠ giới h n c a đ tƠi 1.3.1 Nhi m vụ c a đ tƠi  Thi t k vƠ mô phỏng h thống nh n d ng ti ng nói (nh n d ng 11 ch số ti ng Vi t) dùng m ng neural trên môi tr  ng Matlab Một h thống nh n d ng ti ng nói nói chung th ng bao gồm hai phần:... m ng Neural cho số 0 62 B ng 5.2: K t qu nh n d ng huấn luy n m ng Neural cho số 1 63 B ng 5.3: K t qu nh n d ng huấn luy n m ng Neural cho số 2 64 B ng 5.4: K t qu nh n d ng huấn luy n m ng Neural cho số 3 65 B ng 5.5: K t qu nh n d ng huấn luy n m ng Neural cho số 4 66 B ng 5.6: K t qu nh n d ng huấn luy n m ng Neural cho số 5 67 B ng 5.7: K t qu nh n d ng huấn luy n m ng Neural. .. p các m u ti ng nói (chính lƠ đo n ti ng nói cần nh n d ng) mà không cần xác định th t rõ các đặc tr ng vƠ cũng không cần phơn đo n tín hi u Ph ng pháp nƠy cũng có 2 b ớc:  B ớc 1: tích lũy các m u ti ng nói: S d ng t p m u ti ng nói (c s d li u m u ti ng nói) để đƠo t o các m u ti ng nói đặc tr ng (m u tham chi u) hoặc các tham số h thống  B ớc 2: nh n d ng m u: đối sánh m u ti ng nói t ngoƠi với... u qu ‟ c a chúng x p xỉ với các giá trị c a băng tần tới h n 2.1.7 Quá trình t o ra ti ng nói vƠ thu nh n ti ng nói c a con ngư i Hình 2.2: S đồ biểu di n quá trình thu, nh n ti ng nói c a con ng Quá trình t o ra ti ng nói bắt đầu khi ng c a mình cho ng i i nói muốn chuyển t i thông đi p i nghe thông qua ti ng nói Tổ ch c thần kinh sẽ chịu trách nhi m chuyển đổi thông đi p sang d ng mã ngôn ng Khi... cho một h thống nh n d ng ti ng nói (nh n d ng 11 ch số ti ng Vi t) dùng m ng neural mô phỏng trên môi tr ng Matlab 1.4 Phư ng pháp nghiên c u  Ph ng pháp phơn tích: nghiên c u, tìm hiểu v các ph ng pháp trích đặc tr ng ti ng nói, tìm hiểu v m ng neural, l a chọn m ng vƠ thu t toán cho h thống nh n d ng, phơn tích các k t qu nh n đ Trang 4 c t mô hình nh n d ng…  Ph neural trên môi tr ng pháp mô phỏng:... nói đ Trang 13 c s d ng trong quá trình hu n luy n (mô hình hóa/phân lớp) để xác định các tham số h thống 2.2.2 Các nguyên tắc c b n trong nh n d ng ti ng nói Các nghiên c u v nh n d ng ti ng nói d a trên ba nguyên tắc c b n:  Tín hi u ti ng nói đ c biểu di n chính xác b i các giá trị phổ trong một khung th i gian ngắn Nh v y ta có thể trích ra đặc điểm ti ng nói t nh ng kho ng th i gian ngắn vƠ dùng. .. Hz  Giọng nam trung 100 ậ 400 Hz  Giọng nam cao 130 ậ 480 Hz  Giọng n th p 160 ậ 600 Hz  Giọng n cao 260 ậ 1200 Hz Công su t c a ti ng nói, khi nói to nhỏ cũng khác nhau Khi nói thầm công su t 10-3mW, nói bình th ng 10 mW, nói to 103mW 2.1.4 C ch t o l p ti ng nói c a con ngư i Các c quan phát ơm c a con ng i ch y u gồm phổi, khí qu n, thanh qu n, bộ ph n mũi vƠ mi ng Thanh qu n có hai n p g p gọi . HoƠi Nghĩa, tôi đã la chọn đ tài “ Nhận dạng tiếng nói dùng mạng Neural , nhằm nghiên cu các phưng pháp nhn dng ting nói đối với ting Vit dùng mng Neural và th nghim trên phần mm. Trang 2 Vì nhng lí do trên, tôi chọn đ tƠi Nhận dạng tiếng nói dùng mạng Neural , nhằm nghiên cu các phng pháp nhn dng ting nói đối với ting Vit và th nghim xây dng một h. mng Neural nhân to 28 3.4 Mô hình Neural và kin trúc mng 28 3.4.1 Mô hình Neural 28 3.4.1.1 Mô hình Neural đn gin 29 3.4.1.2 Mô hình Neural nhiu ngõ vào 32 3.4.2 Kin trúc mng Neural

Ngày đăng: 22/08/2015, 15:51

Từ khóa liên quan

Mục lục

  • 3 luanvan1.pdf

  • 4 BIA SAU.pdf

    • Page 1

Tài liệu cùng người dùng

Tài liệu liên quan