Nghiên cứu phương pháp nhận dạng người nói sử dụng kỹ thuật pha trộn gaussian

LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn thầy giáo TS Phùng Trung Nghĩa, người trực tiếp hướng dẫn em hoàn thành luận văn Với lời dẫn, tài liệu, tận tình hướng dẫn lời động viên thầy giúp em vượt qua nhiều khó khăn trình thực luận văn Em xin cảm ơn quý thầy cô giảng dạy chương trình cao học chuyên ngành "Khoa học máy tính” trường ĐH Công nghệ thông tin truyền thông truyền dạy kiến thức quý báu, kiến thức hữu ích giúp em nhiều thực nghiên cứu Cuối cùng, em xin gửi lời cảm ơn tới gia đình bạn bè ủng hộ động viên giúp đỡ em suốt năm học vừa qua Em xin chân thành cảm ơn! Thái Nguyên, ngày 10 tháng 05 năm 2016 Học viên Trần Thị Tuyết LỜI CAM ĐOAN Tên là: Trần Thị Tuyết Sinh ngày: 20/05/1987 Học viên lớp cao học K13A - Trường Đại học Công nghệ thông tin và Truyền thông - ĐHTN Em xin cam đoan: Luận văn công trình nghiên cứu thực cá nhân, thực hướng dẫn khoa học thầy giáo TS Phùng Trung Nghĩa Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa công bố hình thức Em xin chịu trách nhiệm nghiên cứu Học viên Trần Thị Tuyết i MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC i DANH MỤC BẢNG iii DANH MỤC HÌNH iv DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU vi MỞ ĐẦU CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƯỜI NÓI TRONG TIẾNG NÓI 1.1 Tổng quan tiếng nói 1.2 Tổng quan lý thuyết nhận dạng tiếng nói 1.3 Thông tin người nói tiếng nói 1.4 Vấn đề nhận dạng xác minh người nói qua giọng nói 1.4.1 Phân loại nhận dạng xác thực người nói dựa vào chức toán 1.4.2 Phân loại nhận dạng xác thực người nói dựa theo từ khóa 11 1.5 Đặc trưng tiếng nói liên quan đến thông tin người nói 13 1.5.1 Rút trích đặc trưng 13 1.5.2 Đặc trưng biên độ 14 1.5.3 Đặc trưng cao độ 15 1.5.4 Đặc trưng phổ 16 CHƯƠNG II: MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP TRONG NHẬN DẠNG NGƯỜI NÓI QUA GIỌNG NÓI 20 2.1 Kỹ thuật so khớp mẫu trực tiếp 20 2.1.1 Phương pháp so sánh mẫu trực tiếp cổ điển dùng giải thuật thời gian động (Dynamic time warping - DTW) 20 ii 2.1.2 Phương pháp phân lớp dùng lượng tử hóa vector (Vector Quantization - VQ) 23 2.2 Phương pháp sử dụng mô hình pha trộn Gaussian 30 2.2.1 Đặc tả mô hình 30 2.2.2 Ước lượng tham số mô hình GMM 33 2.2.3 Mô hình hóa người nói không phụ thuộc văn với mô hình Gaussian Mixture Model - GMM 34 2.2.4 Huấn luyện với mô hình Gaussian Mixture Model - GMM 35 2.2.5 Nhận dạng với mô hình Gaussian Mixture Model - GMM 36 2.3 Phân lớp mô hình GMM-HMM 37 2.3.1 Giới thiệu 37 2.3.2 Đặc tả mô hình GMM-HMM 39 2.3.3 GMM-HMM toán định danh người nói 40 CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP NHẬN DẠNG NGƯỜI NÓI DÙNG VQ VÀ MÔ HÌNH GMM 44 3.1 Lựa chọn sở liệu 44 3.1.1 Phạm vi sở liệu ATR 44 3.1.2 Thu thập liệu tiếng nói ATR 46 3.1.3 Gán nhãn ATR 48 3.2 Cài đặt phương pháp MATLAB 51 3.2.1 Cài đặt phương pháp VQ 51 3.2.2 Cài đặt phương pháp GMM 53 3.3 Kết phương pháp 56 3.4 Đánh giá kết 56 KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58 iii DANH MỤC BẢNG Bảng 1.1: Một số giá trị tần số ứng với giới tính độ tuổi 15 Bảng 3.1: Thống kê thông số sở liệu 45 Bảng 3.2: Các lớp phiên âm 48 Bảng 3.3: Các ký hiệu âm – âm cho lớp thứ 49 iv DANH MỤC HÌNH Hình 1.1: Các ứng dụng xử lý tiếng nói Hình 1.2: Sơ đồ nhận dạng tổng quát Hình 1.4: Đặc trưng phổ formant đặc trưng cho quan phát âm Hình 1.5: Mô hình chung nhận dạng người nói 10 Hình 1.6: Bài toán định danh người nói 10 Hình 1.7: Bài toán xác thực người nói 11 Hình 1.8: Phân loại toán nhận dạng người nói theo từ khóa 12 Hình 1.9: Sơ đồ rút trích vector đặc trưng tổng quát 13 Hình 1.10: Sơ đồ rút trích đặc trưng chi tiết 14 Hình 1.11: Đặc trưng cao độ 16 Hình 1.12: Đặc trưng phổ đường bao phổ đặc trưng cho quan phát âm17 Hình 1.13: Đồ thị biểu diễn mối quan hệ Mel Hz 18 Hình 1.14: Các bước trích chọn đặc trưng 18 Hình 1.15: Bộ lọc thang Mel 19 Hình 1.16: Bộ lọc tần số thật 19 Hình 1.17: Minh họa bước biến đổi MFCC 19 Hình 2.1: Hai chuỗi liệu DTW theo thời gian 21 Hình 2.2: Giãn tín hiệu có độ dài khác nhau: tín hiệu màu đỏ giãn để có độ dài tương ứng với tín hiệu màu xanh 22 Hình 2.3: Khoảng cách Euclidean tính cho mẫu tiếng nói giãn để có độ dài 22 Hình 2.4a: Huấn luyện 24 Hình 2.4b: Nhận dạng 25 Hình 2.5: Hàm mật độ Gauss 30 Hình 2.6: Mô hình GMM 31 Hình 2.7: Hàm mật độ GMM có phân phối Gauss 32 v Hình 2.8: HMM với trạng thái trọng số chuyển trạng thái 37 Hình 2.9: Nhận dạng người nói dùng HMM 38 Hình 2.10: Mô hình GMM-HMM trạng thái 39 Hình 3.1: Sơ đồ khối hệ thống thu thập liệu 45 Hình 3.2: Một ví dụ kết phiên âm đa tầng 50 Hình 3.3: Thuật toán huấn luyện VQ 52 Hình 3.4: Thuật toán nhận dạng VQ 53 Hình 3.5: Thuật toán huấn luyện GMM 54 Hình 3.6: Thuật toán nhận dạng GMM 55 vi DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU Ký tự Ý nghĩa F0 Tần số dao động MFCC Hệ số Cepstral tần số Mel IDFT Phép biến đổi Fourier ngược DCT Phép biến đổi cosin rời rạc GMM Mô hình Gaussian hỗn hợp VQ Kỹ thuật lượng tử hóa vector FFT Phép biến đổi Fourier nhanh MỞ ĐẦU Lý chọn đề tài Tiếng nói phương tiện giao tiếp người Vì tiếng nói loại hình thông tin phổ biến hệ thống truyền thông Tín hiệu tiếng nói mang nhiều thông tin, thông tin ngôn ngữ, thông tin người nói, thông tin sắc thái tình cảm nói,… Hầu hết hệ thống xử lý nhận dạng tiếng nói truyền thống tập trung vào xử lý thông tin ngôn ngữ để đảm bảo nhận dạng nội dung ngôn ngữ hay ngữ nghĩa nói [5], [11] Tuy nhiên để ứng dụng xử lý tiếng nói máy tính áp dụng rộng rãi thực tế, vấn đề quan trọng cần đảm bảo khả nhận dạng xác minh người nói [2], [12] Trên giới có nhiều nghiên cứu nhận dạng người nói qua giọng nói [12], [14] Tại Việt Nam có số nghiên cứu ban đầu, đặc biệt số nghiên cứu Viện Công nghệ thông tin [3] Viện nghiên cứu MICA – Đại học Bách Khoa Hà Nội [1], [2] Tuy nhiên Việt Nam chưa có nhiều nghiên cứu đánh giá cách tổng hợp phương pháp nhận dạng người nói phổ biến Đặc biệt, hai phương pháp nhận dạng người nói đại dùng phép lượng tử hóa vector – VQ mô hình pha trộn Gaussian GMM [10], [12], [13] lại chưa nghiên cứu nhiều Việt Nam Vì vậy, luận văn nghiên cứu số phương pháp nhận dạng người nói giọng nói, tập trung vào hai phương pháp dùng phép lượng tử hóa vector mô hình pha trộn Gaussian, đánh giá thực nghiệm phương pháp, đưa khuyến nghị 2 Mục tiêu đề tài Luận văn nghiên cứu số phương pháp nhận dạng người nói qua giọng nói bao gồm: - Một số phương pháp truyền thống dùng so sánh mẫu trực tiếp với giải thuật thời gian động – DTW; - Phương pháp phân lớp dùng lượng tử hóa vector – VQ; - Phương pháp sử dụng mô hình pha trộn Gaussian – GMM Sau đánh giá thực nghiệm phương pháp dùng lượng tử hóa vector dùng mô hình pha trộn Gaussian GMM với sở liệu tiếng nói đa người nói, đưa khuyến nghị Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận văn phương pháp nhận dạng người nói giọng nói Đây đối tượng nghiên cứu nhiều nhà nghiên cứu giới quan tâm thời gian gần Phạm vi luận văn bao gồm nghiên cứu tổng quan tín hiệu tiếng nói thông tin người nói tiếng nói, số phương pháp nhận dạng người nói, bao gồm phương pháp so sánh mẫu trực tiếp dùng giải thuật thời gian động [9], phương pháp phân lớp dùng lượng tử hóa vector [14], đặc biệt tập trung vào phương pháp sử dụng mô hình pha trộn Gaussian [10], [12], [13] Luận văn nghiên cứu đánh giá thực nghiệm phương pháp để đưa khuyến nghị Phương pháp nghiên cứu Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết có giới [1-15] để phân tích, đánh giá phương pháp biến đổi thông tin người nói tiếng nói 45 Cơ sở liệu nói liên tục tập hợp 503 câu ngữ âm ngắn cân không giới hạn miền (Iso et al., 1988) Những câu lựa chọn từ tờ báo tạp chí theo tiêu chí lựa chọn sau đây: Tất kết hợp có hai âm vị xuất câu tiếng Nhật đưa vào Có 402 trường hợp gồm: 120 VC (phụ âm nguyên âm) liên tiếp, 227 CV (phụ âm nguyên âm), 55 tiếp nối VV Bảng 3.1: Thống kê thông số sở liệu Mục Thông số Từ thường sử dụng 5.229 Từ ngữ âm cân 216 Ký tự chữ 35 Ký tự chữ số 25 CV âm tiết 101 CV âm tiết (không phải địa) Câu đàm thoại 115 (câu) Tổng Khoảng 8.500 Chuỗi có âm vị sử dụng Loại CVC có 87 chuỗi chọn: 69 nguyên âm có nhiều khả phát âm theo môi trường giọng giả thanh, 18 nguyên âm có nhiều khả phát âm theo môi trường giọng mũi Loại VCV có 136 chuỗi lựa chọn bao gồm tất khả kết hợp, có bán nguyên âm mà coi có ảnh hưởng mạnh mẽ tượng đồng cấu âm âm vị lân cận Có tổng số 223 chuổi ba âm vị sử dụng 46 Để đánh giá mức độ cân âm vị cho tổ hợp câu thể công thức (3.1) N S   pn log pn n 1 (3.1) Trong đó, pn xác suất xuất chuôi âm vị thứ n N số lượng chuỗi âm vị khác nhau, S giá trị ngầu nhiên đạt giá trị lớn (bằng 1) pn Từ việc thu thập liệu ban đầu với 10.000 câu, 503 câu cuối chọn cách xóa thay đổi chúng để cho S đạt giá trị lớn Các sở liệu cho lượng lớn người nói có vốn từ vựng tương đối nhỏ với 150 câu ngắn phần tập sở liệu từ thường sử dụng, 520 từ sử dụng phần 5.229 từ thường dùng giống với 216 từ ngữ âm cân Các sở liệu cho người nói tổng hợp bao gồm 14 truyện ngắn thiết lập với loạt chủ đề khác Cứ khoảng 2.000 từ có chuỗi âm vị xác định gắn vào 96 câu ngắn “để nói trước theo kiểu khác nhau” 3.1.2 Thu thập liệu tiếng nói ATR Vì mục đích việc xây dựng hệ thống đảm bảo chất lượng sở liệu tốt có thể, liệu thu thập giới hạn câu nói thông thường phát viên người kể chuyện Nhật Bản Cách phát âm chi tiết kỹ thuật giống người dẫn chương trình phát sóng NHK coi tiêu chuẩn tiếng Nhật Các từ câu đọc tốc độ nói bình thường làm bật lên theo tiêu chuẩn người phát viên Đài phát NHK 47 Hình 3.1: Sơ đồ khối hệ thống thu thập liệu Tất liệu thu thập ban đầu ghi nhận vào máy ghi âm PCM môi trường có tiếng ồn tự nhiên, sau lọc qua anti-alias (bộ lộc thông thấp 8kHz), số hóa 16 bit cách lấy mẫu 20kHz Dữ liệu thu xử lý máy trạm MASSCOMP-MD5600 “spectrograms” âm với số thông số ghi nhãn tay 48 3.1.3 Gán nhãn ATR Phân đoạn Hầu vẽ ranh giới âm vị câu nói Trước hết, phân đoạn gán nhãn sở liệu thực tay để giữ cho chất lượng âm tốt Kiểm tra phổ, âm vị tiến hành phân đoạn với nguyên âm chuyển tiếp từ phận đến phụ âm liền kề đánh dấu Trong vài trường hợp khó xác định ranh giới âm vị, đặc biệt hai nguyên âm liên tiếp Trong trường hợp ranh giới xác định trung tâm trình chuyển tiếp hai âm vị Tuy nhiên thực phân đoạn hai âm vị hợp thành âm vị mà gọi “không thể tách rời” Bảng 3.2: Các lớp phiên âm Lớp Miêu tả Lớp Các ký hiệu âm vị Lớp Những kiện âm Lớp Sự kiện Acoustic Lớp Biến thể Allophonic Lớp Các phần riêng biệt Lớp Các trung tâm nguyên âm 49 Bảng 3.3: Các ký hiệu âm – âm cho lớp thứ Ký hiệu a, i, u, e, o < Sự kiện âm Nguyên âm ổn định Chuyển nguyên âm đứng trước phụ âm tiếng nói > Chuyển nguyên âm theo sau phụ âm tiếng nói *> Chuyển nguyên âm theo sau phụ âm hữu Tr Một phần ngữ âm không giải thích p, t, k, b, d, g Không âm phụ âm hữu cl Kết thúc cho phụ âm không âm (im lặng) *cl Kết thúc cho phụ âm hữu s, sh, j,dj, f w, y Phụ âm đọc rung lưỡi để phát âm Bán nguyên âm Phiên âm – ngữ âm Nhằm đáp ứng đa dạng nhu cầu nghiên cứu tiếng nói, nhiều phiên âm thực nhiều cách Bảng 3.2 thể lớp phiên âm khác thực Lớp lớp âm vị bảng chữ Nhật Bản trình bày hệ thống Hepburn Lớp lớp “Sự kiện âm thanh”, lớp thể thay đổi âm lời nói có thật Lớp lớp quan trọng cho phát biểu nghiên cứu âm thông tin ngữ âm Các ký hiệu tương ứng hai lớp không luôn giống Các lớp thứ ba thứ tư thiết kế để thể biến thể phần 50 tách rời, tương ứng Lớp cuối sử dụng trỏ để đánh dấu trung tâm nguyên âm Dưới hình ảnh ví dụ kết phiên âm đa tầng Hình 3.2: Một ví dụ kết phiên âm đa tầng Các ký hiệu sử dụng để mô tả lớp (Sự kiện âm thanh) tóm tắt bảng 3.3 Mặc dù hầu hết ký hiệu lớp thứ giống việc chuyển âm vị, phần tương ứng chúng khác nhiều trường hợp Trong lớp nguyên âm chia thành 51 phần: phần chuyển đổi từ phụ âm trước (nếu có) cộng với phần ổn định phần chuyển đổi phụ âm (nếu có) Hình 3.2 cho thấy ví dụ nhiều phiên âm – ngữ âm câu nói “la to shi ma tsu/” Mục đích phiên âm định nghĩa xác mô tả tốt tiếng nói liên tục Việc cấp nhãn huấn luyện vài tháng để phân đoạn chuyển âm cách nhìn vào âm spectrograms Sau huấn luyện, kiểm tra việc gán nhãn ban đầu để kiểm tra tính xác khác biệt ranh giới nhãn nhỏ trung bình “lỗi phân đoạn” cho ký hiệu lớp thứ hai 8ms ngoại trừ âm tiết iN 3.2 Cài đặt phương pháp MATLAB Luận văn sử dụng thư viện mã nguồn mở MATLAB Audio Toolbox tác giả GS Jyh-Shing Roger Jang đến từ ĐH Quốc Gia Đài Loan, phòng lab MIRLAB cung cấp đầy đủ hàm xử lý âm sở để tính toán vector đặc trưng MFCC ước lượng tham số VQ, GMM 3.2.1 Cài đặt phương pháp VQ Đối tượng nghiên cứu luận văn phương pháp nhận dạng người nói GMM Tuy nhiên để có so sánh, đánh giá hiệu phương pháp GMM với phương pháp kinh điển khác, luận văn cài đặt đánh giá phương pháp nhận dạng người nói phép lượng tử hóa vector VQ Cơ sở lý thuyết thao tác phân khung, lấy cửa sổ, trích đặc trưng MFCC hàm khởi tạo, ước lượng tham số VQ trình bày chương 1, Luận văn sử dụng thư viện mã nguồn mở Audio Toolbox tác giả GS Jyh-Shing Roger Jang đến từ ĐH Quốc Gia Đài Loan, phòng 52 lab MIRLAB cung cấp đầy đủ hàm xử lý âm sở để tính toán vector đặc trưng MFCC ước lượng tham số VQ Thuật toán huấn luyện nhận dạng VQ cài đặt mô tả lưu đồ hình 3.3, hình 3.4 Người nói … Người nói N … FFT Đường bao phổ Rút gọn đường bao phổ MFCC … MFCC N Sinh codebook Hình 3.3: Thuật toán huấn luyện VQ 53 Người nói A FFT Đường bao phổ Rút gọn đường bao phổ MFCC Tính khoảng cách tới tâm codebook Kết nhận dạng (khoảng cách ngắn nhất) Codebook sinh Hình 3.4: Thuật toán nhận dạng VQ 3.2.2 Cài đặt phương pháp GMM Cơ sở lý thuyết thao tác phân khung, lấy cửa sổ, trích đặc trưng MFCC hàm khởi tạo, ước lượng GMM trình bày chương Luận văn sử dụng thư viện mã nguồn mở Audio Toolbox tác giả GS Jyh-Shing Roger Jang đến từ ĐH Quốc Gia Đài Loan, phòng 54 lab MIRLAB cung cấp đầy đủ hàm xử lý âm sở để tính toán vector đặc trưng MFCC ước lượng tham số GMM Thuận toán huấn luyện nhận dạng dùng GMM tác giả luận văn cài đặt theo lưu đồ hình 3.5, hình 3.6 Người nói A FFT Đường bao phổ Rút gọn đường bao phổ MFCC Ước lượng tham số GMM cho người A Hình 3.5: Thuật toán huấn luyện GMM 55 Người nói A FFT Đường bao phổ Rút gọn đường bao phổ Log Likelihood Kết nhận dạng … Các mô hình huấn luyện Hình 3.6: Thuật toán nhận dạng GMM 56 3.3 Kết phương pháp Sau thực nghiệm phương pháp nhận dạng người nói VQ GMM, thử nghiệm sở liệu tiếng nói tiếng Nhật ATR Để trình thử nghiệm đơn giản, huấn luyện người nói, người nói câu ngắn Sau huấn luyện, người nói huấn luyện nhận dạng thử nghiệm Tập mẫu huấn luyện nhận dạng sử dụng hai phương pháp nhận dạng người nói VQ GMM giống Nhận dạng với phương pháp VQ ta thu tỷ lệ nhận dạng tập nhận dạng 20/24 mẫu (83.33 %) Nhận dạng với phương pháp GMM tỷ lệ nhận dạng tập nhận dạng 23/24 mẫu (95.83 %) 3.4 Đánh giá kết So với kết nghiên cứu công bố, kết thử nghiệm luận văn tương đồng Điều lần khẳng định phương pháp nhận dạng người nói không phụ thuộc từ khóa GMM tốt phương pháp VQ phương pháp hiệu cần quan tâm nghiên cứu thử nghiệm tiếp Bước luận văn xây dựng sở liệu nhiều người nói kịch tiếng Việt thử nghiệm phương pháp GMM với sở liệu để đánh giá độ hiệu phương pháp với tiếng Việt 57 KẾT LUẬN Bài toán nhận dạng người nói nghiên cứu nhiều thời gian gần Nhận dạng người nói có nhiều ứng dụng công tác điều tra, giám định tội phạm, xác thực người dùng, giao dịch ngân hàng,… Về bản, nhận dạng người nói nhận dạng tiếng nói nói chung có điểm chung giống trình xử lý tín hiệu tiếng nói, học mẫu phân lớp, nhận dạng so khớp mẫu Trong đề tài này, nghiên cứu xử lý tiếng nói nói chung tập trung nghiên cứu phương pháp, xây dựng hệ thống nhận dạng người nói không phụ thuộc từ khóa dùng mô hình GMM Các kết nghiên cứu cho thấy phương pháp nhận dạng người nói không phụ thuộc từ khóa GMM phương pháp hiệu cần quan tâm nghiên cứu thử nghiệm tiếp Bước luận văn xây dựng sở liệu nhiều người nói kịch tiếng Việt thử nghiệm phương pháp GMM với sở liệu để đánh giá độ hiệu phương pháp với tiếng Việt 58 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Đặng Văn Chuyết, “Xây dựng hệ nhận dạng người nói tiếng Việt bán tự động ứng dụng giám định âm hình sự,” Báo cáo đề tài KHCN, 2007 [2] Ngô Minh Dũng, Nghiên cứu kỹ thuật nhận dạng người nói dựa từ khóa tiếng Việt, Luận án tiến sỹ, Đại học Bách Khoa Hà Nội, 2010 [3] Ngô Hoàng Huy, "Ứng dụng thuật toán lượng tử hoá mạng nơron vấn đề nhận dạng người nói Hội thảo quốc gia lần thứ 10 “Một số vấn đề chọn lọc CNTT truyền thông”, Đại Lải, 14-15/09/2007." (2007) [4] Trần Thị Bạch Huệ (2008), Xác minh người qua giọng nói, luận văn thạc sĩ, ĐH Khoa học tự nhiên - ĐHQG Thành phố Hồ Chí Minh [5] Bạch Hưng Khang, Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt, Báo cáo Đề tài cấp Nhà nước mã số KC01-03, 2004 Tài liệu tiếng anh [6] Akagi, Masato "Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC 2009 [7] Jurafsky, Daniel, and H James "Speech and language processing an introduction to natural language processing, computational linguistics, and speech." (2000) [8] Moulines, Eric, and Francis Charpentier "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones." Speech communication 9.5 (1990): 453-467 [9] Muda, Lindasalwa, Mumtaj Begam, and I Elamvazuthi "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and 59 dynamic time warping (DTW) techniques." arXiv preprint arXiv:1003.4083 (2010) [10] Nghia, Phung Trung, et al A robust wavelet-based text-independent speaker identification International Conference on Computational Intelligence and Multimedia Applications, (2007): 219-223 [11] Rabiner, Lawrence R., and Biing-Hwang Juang Fundamentals of speech recognition Vol 14 Englewood Cliffs: PTR Prentice Hall, 1993 [12] Reynolds, Douglas A., Thomas F Quatieri, and Robert B Dunn "Speaker verification using adapted Gaussian mixture models." Digital signal processing 10.1 (2000): 19-41 [13] Prabhakar, Om Prakash, and Navneet Kumar Sahu "Performance Improvement of Human Voice Recognition System using Gaussian Mixture Model." Performance Improvement 3.1 (2014) [14] Srinivasan, A "Speaker identification and Verification using Vector quantization and Mel frequency Cepstral Coefficients." Engineering and Technology 4.1 (2012): 33-40 [15] Stan Salvador and Pjilip Chan, “FastDTW: Toward Accurate Dy ‐ namic Time Warping in Linear time space”, Florida Institute of Technology, Melbourne [...]... đã được nói Tiếng nói có thể mang thông tin ai nói, nói bằng ngôn ngữ gì, nói với sắc thái tình cảm như thế nào,… Và do vậy thuật ngữ nhận dạng tiếng nói cần được hiểu như là một lĩnh vực nhận dạng tín hiệu tiếng nói nói chung với các ứng dụng cụ thể như nhận dạng tiếng nói tiếng Anh, tiếng Việt,… nhận dạng người nói, nhận dạng ngôn ngữ nói, … Bài toán nhận dạng người nói mới được nghiên cứu nhiều... đây Nhận dạng người nói có nhiều ứng dụng trong công tác điều tra, giám định tội phạm, xác thực người dùng, giao dịch ngân hàng,… Về cơ bản, nhận dạng người nói và nhận dạng tiếng nói nói chung có những điểm chung 6 giống nhau về quá trình xử lý tín hiệu tiếng nói, học mẫu và phân lớp, nhận dạng và so khớp mẫu Hình 1.1: Các ứng dụng xử lý tiếng nói 1.2 Tổng quan về lý thuyết nhận dạng tiếng nói Nhận dạng. .. đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm một số phương pháp nhận dạng người nói qua giọng nói 5 Ý nghĩa khoa học và thực tiễn Như đã trình bày trong phần 1, nghiên cứu về thông tin người nói trong tiếng nói và các phương pháp nhận dạng người nói qua giọng nói có vai trò quan trọng trong các hệ thống xử lý thông tin và truyền thông hiện đại Đây không phải vấn đề nghiên cứu mới trên thế giới nhưng... truyền tiếng nói tin cậy và hiệu quả trên các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng các giải thuật mã hóa nén tiếng nói Để xây dựng các ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói và huấn luyện tiếng nói Nhận dạng tiếng nói là một lĩnh vực nghiên cứu thu hút được sự quan tâm nghiên cứu của nhiều... dạng người nói phụ thuộc vào từ khóa (text-dependent speaker recognition) và bài toán nhận dạng người nói không phụ thuộc vào từ khóa (text-independent speaker recognition) Nhận dạng người nói phụ thuộc vào từ khóa (text-dependent speaker recognition): nhận dạng người nói dựa trên sự kết hợp giữa đặc trưng người nói với nội dung nói - Đây là kỹ thuật nhận dạng người nói có khả năng ứng dụng rất lớn,... vào Kỹ thuật so khớp mẫu được sử dụng rộng rãi trong sản xuất thương mại vào các thập niên 70 và 80 nhưng sau đó được thay thế bởi các phương pháp mạnh hơn Phương pháp so khớp mẫu trực tiếp truyền thống là phương pháp sử dụng kỹ thuật so khớp thời gian động DTW còn phương pháp so khớp mẫu phổ biến nhất hiện nay là sử dụng kỹ thuật lượng tử hóa vector VQ Đặc biệt, kỹ thuật lượng từ hóa vector (VQ) là kỹ. .. Việt Nam Đặc biệt, nghiên cứu tổng hợp về các phương pháp nhận dạng người nói qua giọng nói dùng phép lượng tử hóa vector - VQ và mô hình Gaussian GMM chưa được nghiên cứu nhiều ở Việt Nam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn 4 CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ NHẬN DẠNG NGƯỜI NÓI TRONG TIẾNG NÓI 1.1 Tổng quan về tiếng nói Âm thanh của lời nói cũng như âm thanh... danh người nói Xác thực người nói (speaker verification): Xác minh liệu người đang nói có đúng là người mà máy tính đã được biết trước hay không Đây cũng là bài toán được nghiên cứu trong luận văn này 11 Hình 1.7: Bài toán xác thực người nói 1.4.2 Phân loại nhận dạng và xác thực người nói dựa theo từ khóa Dựa theo phương pháp thì bài toán nhận dạng được chia thành hai bài toán: bài toán nhận dạng người. .. toán Dựa vào chức năng của bài toán nhận dạng người nói nói chung mô tả trong hình 1.5 người ta chia bài toán nhận dạng người nói thành hai bài toán: bài toán định danh người nói (speaker identification) và bài toán xác thực người nói (speaker verification) 10 Hình 1.5: Mô hình chung nhận dạng người nói Định danh người nói (speaker identification): Kiểm tra xem người cần kiểm tra là ai hay là không... Khi sử dụng hệ thống sẽ được điều chỉnh cho phù hợp với giọng nói của người dùng, bằng cách nó học thêm một số câu có chứa các từ cần thiết (người dùng trước khi sử dụng hệ thống cần phải qua quá trình huấn luyện hệ thống) Nhận dạng người nói Nhận dạng người nói Phụ thuộc từ khóa Không phụ thuộc từ khóa Xác minh người nói Phụ thuộc từ khóa Không phụ thuộc từ khóa Hình 1.8: Phân loại bài toán nhận dạng ... thể nhận dạng tiếng nói tiếng Anh, tiếng Việt,… nhận dạng người nói, nhận dạng ngôn ngữ nói, … Bài toán nhận dạng người nói nghiên cứu nhiều thời gian gần Nhận dạng người nói có nhiều ứng dụng. .. hình pha trộn Gaussian GMM với sở liệu tiếng nói đa người nói, đưa khuyến nghị Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu luận văn phương pháp nhận dạng người nói giọng nói Đây đối tượng nghiên. .. tiếng nói Nhận dạng tiếng nói lĩnh vực nghiên cứu thu hút quan tâm nghiên cứu nhiều nhà khoa học Thuật ngữ nhận dạng tiếng nói thông thường hay xem nhận dạng nói ngôn ngữ cụ thể Ví dụ nhận dạng

Nghiên cứu phương pháp nhận dạng người nói sử dụng kỹ thuật pha trộn gaussian

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan