tìm hiều lý thuyết nhận dạng tiếng nói và mô phỏng trên matlab

TRƯӠNG ĐҤI HӐC SƯ PHҤM KӺ THUҰT TP.HCM KHOA ĐiӊN_ĐiӊN TӰ BӜ MÔN ĐiӊN TӰ ViӈN THÔNG BÁO CÁO ĐӖ ÁN 2 Đ͘ TÀI: TÌM HIӆU LÝ THUYӂT NHҰN DҤNG TIӂNG NÓI TÌM HIӆU LÝ THUYӂT NHҰN DҤNG TIӂNG NÓI VÀ MÔ PHӒNG TRÊN MATLABVÀ MÔ PHӒNG TRÊN MATLAB GVHD : Ths. Lê Minh Thành SVTH : NguyӉn Minh Phú 07117043 Lê Hùng Dũng 07117014 CHƯƠNG I: LÝ THUYӂT PHҪN 1: TӘNG QUAN Vӄ NHҰN DҤNG TIӂNG NĨI 1. Vấn đề nhận dạng tiếng nói là một vấn đề lớn, nhiều nghiên cứu đã thực hiện trong vài thập niên gần đây. 2. Nhận dạng tiếng đã được nghiên cứu hơn 40 năm qua. 3. Những nỗ lực đầu tiên được thực hiện từ những năm 1950. 4. Từ đó đến nay, cùng với sự phát triển của máy tính, kó thuật nhận dạng tiếng nói đã có những sự tiến bộ vượt bậc, được thực hiện CHƯƠNG I: LÝ THUYӂT PHҪN 2: PHÂN LOҤI 1. Theo cách thức người nói, nói chung chia làm hai loại: - Nhận dạng từ rời rạc - Nhận dạng từ liên tục 2. Dựa trên bộ từ vựng: - Hệ thống từ vựng nhỏ - Hệ thống mà các từ được đọc rời rạc - Hệ thống cháp nhận tiếng nói liên tục nhưng chỉ liên quang đến phạm vi ứng dụng tương đối bӏ giới hạn. CHƯƠNG I: LÝ THUYӂT PHҪN 2: PHÂN LOҤI 3. Dựa trên thông tin về các mẫu tiếng nói của người sử dụng bao gồm: - Hệ thống phụ thuộc người nói (speaker-dependent). - Hệ thống độc lập người nói (speaker-dependent). - Hệ thống thích ứng người nói. CHƯƠNG I: LÝ THUYӂT PHҪN 3: Hӊ THӔNG NHҰN DҤNG TIӂNG NĨI TӴ ĐӜNG 1. Rút trích đặc trưng tiếng nói: - Biến đổi tín hiệu âm thanh thành chuỗi các vector đặc trưng. - Giải quyết vấn đề dò tìm điểm cuối (phân biệt trong chuỗi âm thanh thu được đâu là tiếng nói đâu là độ ồn nền) và lọc nhiễu. 2. Quá trình phân lớp và nhận dạng: - Là quá trình nhận dạng dựa trên mô hình âm thanh, từ điển phát âm và mô hình ngôn ngữ của hệ thống. - Mô hình ngôn ngữ ở đây thực chất chỉ biểu CHƯƠNG I: LÝ THUYӂT PHҪN 3: Hӊ THӔNG NHҰN DҤNG TIӂNG NĨI TӴ ĐӜNG 3. Giải mã: - Quá trình này chỉ đơn giản là xuất ra chuỗi văn bản nhận dạng được. - Một quá trình phân tích chuỗi nhận được ứng với tác vụ gì và thực hiện tác vụ đó. CHƯƠNG I PHҪN 4: LÝ THUYӂT NHҰN DҤNG TIӂNG NĨI - Nhận dạng tiếng nói là kỹ thuật nhận ra các thành phần lời nói của con người. - Việc nghiên cứu nhận dạng tiếng nói đã được bắt đầu từ cuối thập niên 40, trong đó sự phát triển nhanh chóng của máy tính đã đóng góp một phần rất quan trọng. - Trong công nghiệp, khi tay và mắt của con người đã được tận dụng một cách triệt để, thì việc điều khiển bằng giọng nói có một lợi thế rất lớn. CHƯƠNG II:XӰ LÝ SӔ TÍN HIӊU PHҪN 1: LҨY MҮU TÍN HIӊU - Hàm lấy mẫu là cầu nói giữa các hệ thống rời rạc và các hệ thống liên tục. Nó còn được gọi là hàm Dirac Delta. - Đối với máy tính, lấy mẫu chỉ dơn giản là cứ theo chu kỳ thời gian (đối với tín hiệu âm thanh và các dạng tương tự), hay là chu kỳ không gian (đối với tín hiệu là ảnh và các dạng tương tự) ta đo tín hiệu một lần. - Quá trình trên sẽ tạo ra một chuỗi các số biểu CHƯƠNG II:XӰ LÝ SӔ TÍN HIӊU PHҪN 2: BӜ LӐC TÍN HIӊU Bộ lӑc có vai trò rất quan trọng trong xử lý tiếng nói, chúng được dùng với 2 mục đích chính: - Tách tín hiệu cần thiết. - Khôi phục các tín hiệu bò biến dạng. . Bộ lọc đáp ứng xung hưu hạn (Finite Impulse Répóne ± FIR). . Bộ lọc đáp ứng xung vô hạn (Ìninite Impulse Respóne - IIR). CHƯƠNG II:XӰ LÝ SӔ TÍN HIӊU PHҪN 3: DỊ TÌM ĐIӆM CUӔI (END TO END) Dò tìm điểm cuối là một xử lý cố gắng tìm ra chính xác khi nào người ta bắt đầu và kết thúc nói. Dò tìm điểm cuối được thực hiện qua ba bước, qua mỗi bước xác đònh điểm cuối càng chính xác. - Dò tìm thô. - Dò tìm tinh. - Kỹ thuật VUS(Voice, Unvoice and Silence). [...]... III:TRÍCH ĐҺC TRƯNG TIӂNG NĨI Trong các lónh vực xử lý tiếng nói như nhận dạng, tổng hợp, mã hóa đều cần phải phân tích tham số tiếng nói Khái niệm cơ bản khi phân tích tiếng nói là phân tích theo thời gian ngắn Hầu hết hoạt động của các hệ phân tích tiếng nói đều dựa vào khái niệm thời gian biến thiên Thông thường người ta chia tiếng nói thành nhiều đoạn có thời gian bằng nhau hay các frame, mỗi frame... - Trong pha huấn luyện, mỗi từ trong bộ từ vựng được nói nhiều lần, sau đó phân tích đặc trưng - Trong pha nhận dạng, từ cần nhận dạng được ghi âm, rồi trích đặc trưng, sau đó tính điểm - Từ cần nhận dạng có độ mèo nhỏ nhất CHƯƠNG V:MƠ HÌNH MARKOV ҬN Chương này trình bày một phương pháp hiệu quả dùng để mô hình hóa cấu trúc động của tiếng nói là mô hình Markov ẩn (Hidden Markov Models-HMM) Đây là hướng... số MFCC này rất ổn đònh theo các segment nên nếu được chọn làm đặc trưng để nhận dạng thì sẽ cho kết quả tốt CHƯƠNG IV:LƯӦNG TӰ VECTOR - - - Khi phân tích đặc trưng tiếng nói, chúng ta nhận được các vector đặc trưng là đặc tính phổ biến thiên theo thời gian của tín hiệu tiếng nói Do mô hình HMM rời rạc được sử dụng để nhận dạng nên các vector phổ này phải được ước lượng vector(Vector Quantization-VQ)... qua khâu trích đặc trưng MFCC của tất cả các từ cần nhận dạng Mỗi vector là phổ là 24 hệ số MFCC của 1 frame tiếng nói Các từ được ghi âm bởi 1 người nói trong điều kiện phòng yên tónh CHƯƠNG IV:LƯӦNG TӰ VECTOR PHҪN 3: ĐO ĐӜ MÉO - - - Thành phần quan trọng nhất của các thuật toán đối sánh mẫu là độ đo giữa 2 vector đặc tính Trong nhận dạng tiếng nói, người ta thường sử dụng độ đo Euclidean Độ đo này... Energy Function) của tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành nhiều frame, mỗi frame dài N mẫu, rồi lấy tổng bình phương của các mẫu trong từng frame - Cửa sổ chữ nhật dài 10-30ms là phù hợp cho mục đích này CHƯƠNG III:TRÍCH ĐҺC TRƯNG TIӂNG NĨI PHҪN 2: PHÁT HIӊN ĐIӆM ĐҪU, ĐIӆM CUӔI CӪA MӜT TӮ - Một trong những vấn đề cơ bản của xử lý tiếng nói là xác đònh điểm bắt đầu và kết thúc của... - Mặc dù không mang tính quyết đònh nhưng giai đoạn trích chọn đặc trưng ảnh hưởng rất lớn đến hiệu năng nhận dạng - Có nhiều phương pháp trích chọn đặc trưng đã và đang được sử dụng (FBA, MFCC, LPC, PLP ) CHƯƠNG III:TRÍCH ĐҺC TRƯNG TIӂNG NĨI PHҪN 4: TRÍCH ĐҺC TRƯNG MFCC - Các hệ nhận dạng tiếng nói thường trích đặc trưng từ tín hiệu bằng cách chia tín hiệu thành những đoạn độ dài 5-15 ms, mỗi đoạn... 1: KHÁI NIӊM 2 Mô hình Markov ẩn: - Các thành phần cơ bản của mô hình Markov ẩn: N là số lượng trạng thái của mô hình M: số các ký hiệu quan sát được ứng với một trạng thái Ma trận phân phối xác suất chuyển trạng thái Ma trận phân phối xác suất các ký hiệu quan sát CHƯƠNG V:MƠ HÌNH MARKOV ҬN PHҪN 2: ӬNG DӨNG HMM VÀO NHҰN DҤNG TIӂNG NĨI 1 p dụng mô hình Markov ẩn cho xử lý tiếng nói, ta phải giải... cuối của một từ căn cứ vào hàm năng lượng thời gian ngắn - Phương pháp này tuy đơn giản nhưng có nhược điểm là không xác đònh được chính xác được mẫu nào trong FRAME là mẫu thực sự bắt đầu cho tín hiệu tiếng nói và tương tự cho điểm cuối - Phương pháp này không còn chính xác nêu môi CHƯƠNG III:TRÍCH ĐҺC TRƯNG TIӂNG NĨI PHҪN 3: TIӄN NHҨN (PREEMPHASIS) - Chúng ta biết rằng phổ tiếng nói hữu thanh có khuynh... - Lặp lại bước 2 và 3 cho đến khi codebook đạt được kích thước M cho trước CHƯƠNG IV:LƯӦNG TӰ VECTOR PHҪN 5: PHÂN LӞP VECTOR Phương pháp phân lӟp vector phә vӅ cơ bҧn là phҧi tìm trong toàn bӝ codebook đӇ xác đӏnh vector tӕt nhҩt CHƯƠNG IV:LƯӦNG TӰ VECTOR PHҪN 6: NHҰN DҤNG BҴNG VQ Lượng tử hóa vector có thể được dùng để nhận dạng tiếng nói Đây là phương pháp được thế giới sử dụng vào những năm 80... tần số tăng lên - Do đó cần phải bù +6dB/octave trên toàn bộ băng tần Điều này được gọi là preemphasis tín hiệu - Trong xử lý tín hiệu số, chúng ta dùng bộ lọc thông cao có tần số cắt 3dB ở tần số trong phạm vi từ 100Hz đến 1kHz CHƯƠNG III:TRÍCH ĐҺC TRƯNG TIӂNG NĨI PHҪN 4: TRÍCH ĐҺC TRƯNG MFCC - Quá trình nhận dạng mẫu (cả ở pha huấn luyện hay pha nhận dạng) đều trải qua giai đoạn trích chọn đặc trưng . ĐiӊN_ĐiӊN TӰ BӜ MÔN ĐiӊN TӰ ViӈN THÔNG BÁO CÁO ĐӖ ÁN 2 Đ͘ TÀI: TÌM HIӆU LÝ THUYӂT NHҰN DҤNG TIӂNG NÓI TÌM HIӆU LÝ THUYӂT NHҰN DҤNG TIӂNG NÓI VÀ MÔ PHӒNG TRÊN MATLABVÀ MÔ PHӒNG TRÊN MATLAB GVHD :. vấn đề dò tìm điểm cuối (phân biệt trong chuỗi âm thanh thu được đâu là tiếng nói đâu là độ ồn nền) và lọc nhiễu. 2. Quá trình phân lớp và nhận dạng: - Là quá trình nhận dạng dựa trên mô hình âm thanh,. thuật nhận dạng tiếng nói đã có những sự tiến bộ vượt bậc, được thực hiện CHƯƠNG I: LÝ THUYӂT PHҪN 2: PHÂN LOҤI 1. Theo cách thức người nói, nói chung chia làm hai loại: - Nhận dạng từ rời rạc - Nhận

tìm hiều lý thuyết nhận dạng tiếng nói và mô phỏng trên matlab

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan