nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm

Thông tin tài liệu

Mục lục Trang Trang phụ bìa………………………………………………………………… Nhiệm vụ luận văn…………………………………………………………… Mục lục………………………………………………………………………… Danh mục các ký hiệu, các ký tự viết tắt………………………………………. Danh mục các bảng……………………………………………………………. Danh mục các hình vẽ, đồ thị………………………………………………… Mở đầu……………………………………………………………………… 1 Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI 4 1.1. Các lĩnh vực của xử lý tiếng nói 4 1.2. Nhận dạng người nói 5 1.2.1. Cơ sở lý thuyết của nhận dạng người nói 5 1.2.2. Phân loại bài toán nhận dạng người nói 6 1.2.3. Các ứng dụng của bài toán nhận dạng người nói 9 1.3. Xác thực người nói không phụ thuộc vào từ khóa 11 1.3.1. Giới thiệu chung 11 1.3.2. Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa 11 1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI 14 2.1. Đặc điểm vật lý, âm học của tiếng nói 14 2.1.1. Đặc điểm vật lý của tiếng nói 14 2.1.2. Đặc điểm âm học của tiếng nói 17 2.2. Tiền xử lý tín hiệu tiếng nói 22 2.2.1. Chuyển từ tín hiệu tương tự sang tín hiệu số 22 2.2.2. Chuẩn hóa biên độ 25 2.2.3. Biến đổi Fourier 26 2.2.4. Lọc nhiễu 27 2.2.5. Làm rõ tín hiệu 27 2.3. Trích chọn đặc trưng người nói 28 2.3.1. Mục đích của trích chọn đặc trưng 28 2.3.2. Phân loại đặc trưng 29 2.3.3. Trích chọn đặc trưng MFCC 29 Chương 3 CÁC MÔ HÌNH ỨNG DỤNG XÁC THỰC NGƯỜI NÓI KHÔNG PHỤ THUỘC VÀO TỪ KHÓA 38 3.1. Phân loại các mô hình 39 3.1.1. Mô hình mẫu (Template Modeling) 39 3.1.2. Mô hình thống kê (Statistical Modeling) 39 3.2. Mô hình lượng tử hóa vector (Vector Quantization- VQ) 40 3.2.1. Khái niệm phép lượng tử hóa 40 3.2.2. Độ biến dạng 42 3.2.3. Tính chất 42 3.2.4. Thiết kế codebook theo phương pháp LBG (Linde, Buzo, and Gray) 43 3.3. Mô hình hỗn hợp Gauss 46 3.3.1. Bài toán ước lượng mật độ 46 3.3.2. Thuật toán EM (Expectation Maximization) 47 3.4. Xây dựng mô hình người nói 48 3.4.1. Giới thiệu chung 48 3.4.2. Sử dụng mô hình VQ 49 3.4.3. Sử dụng GMM 51 3.5. So khớp 51 3.5.1. Giới thiệu chung 51 3.5.2. Phương pháp VQ 52 3.5.3. Phương pháp GMM 53 3.6. Tạo quyết định 53 Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHỆM 56 4.1. Cấu trúc tổng quát của hệ thống 56 4.1.1. Module trích chọn đặc trưng MFCC 56 4.1.2. Module huấn luyện 57 4.1.3. Module xác thực 57 4.2. Dữ liệu tiếng nói 57 4.3. Tỷ lệ lỗi (Error rate) 58 4.4. Kết quả thực nghiệm 58 4.4.1. Số các hệ số MFCC 58 4.4.2. Mô hình VQ và GMM 59 4.4.3. Thời gian huấn luyện 59 4.4.4. Số các cụm của mô hình VQ 59 4.4.5. Số cụm của mô hình GMM 60 Kết luận và kiến nghị……………………………………………………… 61 Tài liệu tham khảo………………………………………………………… 63 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DCT Biến đổi Cosin rời rạc (Discrete Cosin Transform) DFT Biến đổi Fourier rời rạc (Discrete Fourier Transform) EM Thuật toán ước lượng hợp lý cực đại (Expectation Maximization) FFT Biến đổi Fourier nhanh (Fast Fourier Transform) GMM Mô hình hỗn hợp Gauss (Gaussian Mixture Model) LBG Thuật toán gom cụm của Linde, Buzo và Gray VQ Lượng tử hóa vector (Vector Quantization) DANH MỤC CÁC BẢNG Bảng 2.1.Một số giá trị của tần số cơ bản ứng với giới tính và tuổi 21 Bảng 2.2.Bảng ước lượng tính DFT và FFT một chiều 27 Bảng 4.1.Tỷ lệ lỗi với số các hệ số MFCC khác nhau 58 Bảng 4.2.Tỷ lệ lỗi với hai mô hình VQ và GMM 59 Bảng 4.3.Tỷ lệ lỗi với thời gian huấn luyện khác nhau 59 Bảng 4.4.Tỷ lệ lỗi với số cụm khác nhau trong mô hình VQ 60 Bảng 4.5.Tỷ lệ lỗi với số cụm khác nhau trong GMM 60 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1.Bài toán định danh người nói 6 Hình 1.2.Bài toán xác thực người nói 7 Hình 1.3.Chứng thực giao dịch 10 Hình 1.4.Điều khiển truy nhập hệ thống 10 Hình 1.5.Nhận dạng tội phạm 10 Hình 1.6.Tư vấn bán hàng 11 Hình 1.7.Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 11 Hình 1.8.Các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Hình 2.1.Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người 15 Hình 2.2.Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện với nhiều đối tượng người nói khác nhau 19 Hình 2.3.Ví dụ về lấy mẫu tín hiệu trên miền thời gian 23 Hình 2.4.Các giai đoạn của bài toán xác thực người nói 28 Hình 2.5.Đồ thị biểu diễn mối quan hệ giữa Mel và Hz 30 Hình 2.6.Sơ đồ khối của xử lý MFCC’s 31 Hình 2.7.Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu 32 Hình 2.8.Độn 0 vào khung tiếng nói 34 Hình 2.9.Biến đổi FFT cơ số 4 của khung tiếng nói đã được độn 0 34 Hình 2.10.Các bộ lọc mel-scale tam giác 35 Hình 3.1.Các thành phần trong một hệ thống xác thực người nói 39 Hình 3.2.Ví dụ VQ một chiều 40 Hình 3.3.Ví dụ VQ 2 chiều 41 Hình 3.4.Các thành phần của một hệ thống xác thực người nói 49 Hình 3.5.Các ví dụ xây dựng codebook dựa trên đặc trưng MFCC 50 Hình 3.6.Ví dụ xây dựng mô hình người nói sử dụng GMM 51 Hình 3.7.Giai đoạn so khớp mẫu 51 Hình 3.8.Minh họa hình ảnh so khớp mẫu của mô hình VQ 52 Hình 3.9.Giai đoạn tạo quyết định 53 Hình 3.10.Vấn đề xảy ra khi không dùng score chuẩn hóa 54 Hình 4.1.Các thành phần của một hệ thống xác thực người nói 56 MỞ ĐẦU Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này. Xử lý tiếng nói có nhiều lĩnh vực nghiên cứu: nhận dạng tiếng nói, nhận dạng người nói, mã hóa tiếng nói, tổng hợp tiếng nói, phân tích giọng nói, Nhận dạng người nói là một lĩnh vực nghiên cứu của xử lý tiếng nói. Mục đích của nhận dạng người nói là để nhận ra người nói là ai hoặc là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói). Nhận dạng người nói có nhiều ứng dụng: thanh toán thẻ tín dụng qua điện thoại; đăng nhập vào các hệ thống an ninh, máy tính bằng tiếng nói; giám định tư pháp tiếng nói… Chính vì vậy hiện nay trên thế giới lĩnh vực nhận dạng người nói nhận được rất nhiều sự quan tâm, nghiên cứu. Tuy nhiên hiện nay ở Việt Nam mới có rất ít công trình nghiên cứu về vấn đề này. Luận văn này tập trung nghiên cứu bài toán xác thực người nói không phụ thuộc vào từ khóa – một bài toán trong lĩnh vực nhận dạng người nói. Mục đích của bài toán xác thực người nói không phụ thuộc vào từ khóa là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói) nhưng không phụ thuộc vào nội dung người nói. Cấu trúc của luận văn gồm: phần mở đầu; chương 1, 2, 3, 4; phần kết luận và kiến nghị; tài liệu tham khảo; phụ lục. Nội dung chính của luận văn: - Chương 1 nghiên cứu tổng quan về bài toán nhận dạng người nói:  Cơ sở khoa học của nhận dạng người nói, phân loại bài toán nhận dạng người nói, các ứng dụng của nhận dạng người nói.  Giới thiệu tổng quan bài toán xác thực người nói không phụ 1 thuộc vào từ khóa, các thành phần của một hệ thống xác thực người nói, các giai đoạn hoạt động của một hệ thống xác thực người nói không phụ thuộc vào từ khóa. - Chương 2 nghiên cứu phương pháp trích chọn đặc trưng người nói: cả trong giai đoạn huấn luyện và giai đoạn kiểm thử của một hệ thống xác thực người nói không phụ thuộc vào từ khóa đều phải trải qua bước trích chọn đặc trưng người nói, đây sẽ là nội dung nghiên cứu chính của chương 2:  Đặc tính vật lý, âm học của tiếng nói: nghiên cứu các đặc tính này sẽ là cơ sở cho việc xác định các đặc trưng người nói.  Tiền xử lý tín hiệu tiếng nói: tín hiệu tiếng nói sau khi được thu và trước khi trích chọn đặc trưng, phải được tiến hành tiền xử lý. Mục đích của việc tiền xử lý tín hiệu tiếng nói là để loại bỏ nhiễu, chuẩn hóa biên độ, làm rõ tín hiệu…  Trích chọn đặc trưng người nói: mục đích của việc trích chọn đặc trưng người nói, phân loại các đặc trưng người nói, trình bày chi tiết các bước trích chọn đặc trưng MFCC- đặc trưng được lựa chọn sử dụng chủ yếu cho các hệ thống nhận dạng người nói. - Chương 3 nghiên cứu về các mô hình ứng dụng xác thực người nói không phụ thuộc vào từ khóa: sau bước trích chọn đặc trưng đã được trình bày ở chương hai, bước tiếp theo của các hệ thống xác thực người nói không phụ thuộc vào từ khóa đối với giai đoạn huấn luyện là bước xây dựng mô hình người nói, trong giai đoạn xác thực là bước so khớp và đưa ra quyết định:  Phân loại các mô hình: phân loại các mô hình thường được sử dụng trong nhận dạng người nói và chọn mô hình sử dụng cho bài toán xác thực người nói không phụ thuộc vào từ khóa. 2  Mô hình lượng tử hóa vector (Vector Quantization): khái niệm VQ, tính chất VQ, thiết kế codebook theo thuật toán LBG. Đây là cơ sở lý thuyết quan trọng cho việc ứng dụng mô hình VQ trong xác thực người nói không phụ thuộc vào từ khóa.  Mô hình hỗn hợp Gauss (Gaussian Mixture Model): khái niệm GMM, thuật toán EM. Đây là cơ sở lý thuyết quan trọng cho việc ứng dụng GMM xác thực người nói không phụ thuộc vào từ khóa.  Mô hình hóa người nói: cách sử dụng phương pháp VQ và GMM để mô hình hóa người nói.  So khớp mẫu: đưa ra phương pháp so khớp mẫu trong giai đoạn kiểm thử ứng với từng mô hình hóa người nói VQ hay GMM. - Chương 4 trình bày về cấu hình hệ thống và kết quả thử nghiệm:  Cấu trúc tổng quát của một hệ thống xác thực người nói.  Dữ liệu tiếng nói: trình bày cách thu thập dữ liệu tiếng nói để phục vụ cho hệ thống.  Tần số lỗi: trình bày cách đánh giá mức độ gây lỗi của một hệ thống xác thực người nói.  Kết quả thực nghiệm: trình bày kết quả thực nghiệm được tiến hành với nhiều tiêu chí khác nhau. 3 Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI Chương một trình bày các nội dung chính: - Các lĩnh vực nghiên cứu của xử lý tiếng nói. - Trình bày tổng quan về bài toán nhận dạng người nói, đây là một lĩnh vực nghiên cứu của xử lý tiếng nói: cơ sở lý thuyết của nhận dạng người nói, phân loại các bài toán nhận dạng người nói, cũng như các ứng dụng điển hình của nhận dạng người nói. - Trình bày tổng quan về bài toán xác thực người nói không phụ thuộc vào từ khóa - vấn đề chính được nghiên cứu trong luận văn này: các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa, các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa. 1.1. Các lĩnh vực của xử lý tiếng nói Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu, và các phương pháp xử lý những tín hiệu này. Xử lý tiếng nói có thể được chia thành các lĩnh vực sau: - Nhận dạng tiếng nói: phân tích và xử lý về mặt nội dung ngôn ngữ của tín hiệu tiếng nói. Mục đích là để chuyển nội dung nói thành tín hiệu đầu vào của máy tính, giúp cho máy tính có thể xử lý và tương tác được với người nói. - Nhận dạng người nói: mục đích là để nhận ra người nói là ai hoặc là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói). - Tăng chất lượng tiếng nói: nhằm tăng sự cảm nhận của người nghe 4 [...]... thuộc vào từ khóa 1.3.1 Giới thiệu chung Bài toán xác thực người nói không phụ thuộc vào từ khóa là sự kết hợp của hai bài toán: xác thực người nói và bài toán nhận dạng người nói không phụ thuộc vào từ khóa Mục đích của bài toán xác thực người nói không phụ thuộc vào từ khóa là xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không (tính xác thật của giọng nói) nhưng không. .. phụ thuộc vào nội dung người nói Bài toán xác thực người nói không phụ thuộc vào từ khóa có nhiều ứng dụng: chứng thực giao dịch bằng giọng nói, điều khiển đăng nhập bằng giọng nói Đây là nội dung nghiên cứu chính của luận văn này 1.3.2 Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa Hình 1.7 Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Hình... không phụ thuộc vào từ khóa (text independent speaker recognition): - Nhận dạng người nói phụ thuộc vào từ khoá (text dependent speaker recognition): nhận dạng người nói dựa trên sự kết hợp giữa đặc trưng người nói với nội dung nói  Là kỹ thuật nhận dạng người nói có khả năng ứng dụng rất lớn, ví dụ như đăng nhập vào các hệ thống an ninh bằng mật khẩu tiếng nói hay truy cập bằng tiếng nói vào hệ thống... thống xác thực người nói không phụ thuộc vào từ khóa Hình 1.8 Các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa Hình 1.8 cho ta thấy quá trình xử lý của các hệ thống xác thực người nói không phụ thuộc vào từ khóa gồm hai giai đoạn: - Giai đoạn huấn luyện:  Ghi âm giọng nói những người mà hệ thống cần huấn luyện 13  Trích chọn đặc trưng giọng nói của mỗi người nói  Huấn... từ cố định Khi nhận dạng hệ thống sẽ thay đổi cụm từ mỗi lần đăng nhập trong tập các từ được huấn luyện Mặc dù nhận dạng này vẫn phụ thuộc từ khoá song nó làm cho sự giả mạo trở nên khó khăn hơn rất nhiều vì không biết được chính xác cụm từ mật khẩu tự sinh của hệ thống Các hệ thống như vậy được gọi là các hệ nhận dạng người nói phụ thuộc từ khoá thay đổi - Nhận dạng người nói không phụ thuộc vào từ. .. trước hay không (tính xác thật của giọng nói) ? Đây là dạng bài toán được nghiên cứu trong luận văn này Hình 1.2 Bài toán xác thực người nói 1.2.2.2 Phân loại dựa theo phương pháp Phân loại dựa theo phương pháp thì người ta chia bài toán nhận dạng người nói thành hai bài toán: bài toán nhận dạng người nói phụ thuộc vào từ khóa (text dependent speaker recognition) và bài toán nhận dạng người nói không phụ... xác thực người nói không phụ thuộc vào từ khóa 1.2.3 Các ứng dụng của bài toán nhận dạng người nói Các ứng dụng thực tế của nhận dạng người nói: - Chứng thực giao dịch:  Ngăn cản sự gian lận trong thu thuế  Mua thẻ điện thoại  Môi giới điện thoại 10 Hình 1.3 Chứng thực giao dịch - Điều khiển truy cập:  Thiết bị vật lý  Máy tính và hệ thống mạng dữ liệu Hình 1.4 Điều khiển truy nhập hệ thống - Nhận. .. thống xác thực người nói không phụ thuộc vào từ khóa gồm các thành phần sau: - Trích chọn đặc trưng: biến đổi từ giọng nói thô thành những đặc trưng của người nói - Xây dựng mô hình người nói: huấn luyện người nói dựa vào một phương pháp cụ thể - So khớp mẫu: tính toán độ hợp giữa đặc trưng của tiếng nói đưa vào với mô hình đã huấn luyện - Tạo quyết định: xác định ngưỡng và đưa ra quyết định dựa vào việc... chất lượng tiếng nói Nó bao gồm: giảm nhiễu ồn của tín hiệu tiếng nói, giảm/khử tiếng vọng (trong kỹ thuật điện thoại) - Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trò quan trọng trong lĩnh vực viễn thông Ví dụ như trong thể thức truyền tiếng nói qua internet (voIP), việc nén dữ liệu tiếng nói là điều bắt buộc để giảm băng thông đường truyền - Tổng hợp tiếng nói: là tạo ra tiếng nói một cách... dung tiếng nói khi huấn luyện cũng như khi nhận dạng nên độ chính xác nhận dạng tăng lên trong khi thời gian huấn luyện và nhận dạng lại giảm nhiều so với nhận dạng người nói không phụ thuộc từ khoá (text independent speaker recognition) 8  Tuy nhiên hạn chế của kỹ thuật này là không có sự thay đổi trong mật khẩu nên hệ thống dễ bị tấn công bởi những kẻ giả mạo bằng cách ghi âm lại mật khẩu và tấn . hiệu này. Xử lý tiếng nói có nhiều lĩnh vực nghiên cứu: nhận dạng tiếng nói, nhận dạng người nói, mã hóa tiếng nói, tổng hợp tiếng nói, phân tích giọng nói, Nhận dạng người nói là một lĩnh vực. xác thực người nói không phụ thuộc vào từ khóa 11 Hình 1.8.Các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Hình 2.1.Sơ đồ quá trình sản xuất và thu nhận tiếng nói. thuộc vào từ khóa (text dependent speaker recognition) và bài toán nhận dạng người nói không phụ thuộc vào từ khóa (text independent speaker recognition): - Nhận dạng người nói phụ thuộc vào từ

Ngày đăng: 21/06/2014, 21:21

Xem thêm: nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm, nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm, Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI, Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI, Chương 3 CÁC MÔ HÌNH ỨNG DỤNG XÁC THỰC NGƯỜI NÓI KHÔNG PHỤ THUỘC VÀO TỪ KHÓA, Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHỆM

nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI

1.1. Các lĩnh vực của xử lý tiếng nói

1.2. Nhận dạng người nói

1.2.1. Cơ sở lý thuyết của nhận dạng người nói

1.2.2. Phân loại bài toán nhận dạng người nói

1.2.2.1. Phân loại dựa vào chức năng của bài toán

1.2.2.2. Phân loại dựa theo phương pháp

1.2.3. Các ứng dụng của bài toán nhận dạng người nói

1.3. Xác thực người nói không phụ thuộc vào từ khóa

1.3.1. Giới thiệu chung

1.3.2. Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa

1.3.3. Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa

Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI

2.1. Đặc điểm vật lý, âm học của tiếng nói

2.1.1. Đặc điểm vật lý của tiếng nói

2.1.1.1. Độ cao (Pitch)

2.1.1.2. Cường độ

2.1.1.3. Trường độ

2.1.1.4. Âm sắc

2.1.2. Đặc điểm âm học của tiếng nói

2.1.2.1. Nguyên âm

2.1.2.2. Phụ âm

2.1.2.3. Tỷ suất thời gian

2.1.2.4. Hàm năng lượng thời gian ngắn

2.1.2.5. Tần số vượt điểm không

2.1.2.6. Phát hiện điểm cuối

2.1.2.7. Tần số cơ bản

2.1.2.8. Formant

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan