Luận án tiến sĩ phân tích và phát hiện tiếng nói dựa trên đặc tính động phi tuyến (tt)

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐẶNG THÁI SƠN PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI DỰA TRÊN ĐẶC TÍNH ĐỘNG PHI TUYẾN Chuyên ngành: Kỹ thuật điện tử Mã số: 62520203 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ HÀ NỘI - 2017 Công trình hoàn thành Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS.TS.Hoàng Mạnh Thắng Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp trường họp Trường Đại học Bách khoa Hà Nội vào hồi giờ, ngày tháng năm Có thể tìm hiểu luận án tại: Thư viện Tạ Quang Bửu, Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam MỞ ĐẦU Năm mươi năm trở lại đây, lĩnh vực xử lý tín hiệu ngày quan tâm cộng đồng khoa học ứng dụng lợi ích mà mang lại Trong lĩnh vực xử lý tín hiệu tiếng nói, đa số nghiên cứu đưa số trình nhận dạng dựa miền không gian, thời gian tần số, có công trình nghiên cứu đưa ứng dụng lĩnh vực động học phi tuyến vào nhận dạng tiếng nói Cho tới nay, động học phi tuyến hỗn loạn cho thấy có phép đo lường đánh giá hiệu lĩnh vực xử lý tín hiệu [38, 46] Luận án đề cập đến nghiên cứu tín hiệu giọng nói tín hiệu khác đánh giá định lượng dựa kỹ thuật phi tuyến Các phương pháp công cụ dùng để nghiên cứu Luận án nghiên cứu dựa vào phương pháp: • Tái tạo không gian pha: Tái tạo không gian pha công cụ hữu ích để xấp xỉ động học chuỗi thời gian Tái tạo không gian pha dùng để khám phá tham số động học tín hiệu tiếng nói • Các phép đo lường entropy phức tạp: Sự phức tạp đóng vai trò quan trọng việc hiểu chất nguồn thông tin bất ổn định chuỗi thời gian Nó áp dụng hữu hiệu vào việc định lượng tham số động học tín hiệu tiếng nói, mà tín hiệu tiếng nói xem tín hiệu sinh từ hệ thống động • Tương quan lũy thừa Lyapunov: Các công cụ hữu ích lĩnh vực động học phi tuyến Chúng dùng để phân tách tín hiệu tiếng nói • Phát tiếng nói: Hoạt động tiếng nói phát dùng phương pháp phân tích phổ tín hiệu Nó phân tách tín hiệu âm vô thanh/nhiễu sau áp dụng kỹ thuật lọc tín hiệu cách thích hợp Mục tiêu nghiên cứu Nghiên cứu nhằm đến mục đích sau: • Phân tích tín hiệu tiếng nói ghi âm điều kiện khác nhau, sử dụng công cụ có sẵn để định lượng thành phần động học phổ công suất, phân tích lũy thừa Lyapunov, tương quan chéo, phân tích dựa tính hồi quy tái tạo không gian pha • Phân tích phức tạp thông qua đo lường, đánh giá tham số động học vốn có hệ thống động học qua phân tích tín hiệu định lượng bất ổn định chuỗi thời gian • Đề xuất phương pháp hữu hiệu khả thi để phát thời điểm đầu kết thúc âm hữu phát tín hiệu tiếng nói với cường độ âm độ dài từ Ý nghĩa khoa học đóng góp Luận án Luận án có số đóng góp sau: • Tìm thay đổi mức độ phức tạp hệ thống động ngẫu nhiên sinh tác động tín hiệu phi tuyến nhiễu Sự thay đổi đánh giá thông qua entropy sơ đồ tái xuất theo trọng số Toàn hệ thống trở thành mô hình ngẫu nhiên tác động nhiễu ngoài, tác động tín hiệu giọng nói tín hiệu âm nhạc Các ảnh hưởng định lượng cách đánh giá phức tạp (đại lượng đo lường entropy) phân tích dựa tái xuất trọng số Những nghiên cứu phương pháp tần số, thời gian-tần số động học tái xuất phi tuyến đưa Để có thông tin xác, việc xây dựng đường bao lượng đề xuất Đường bao lượng dùng để tách bạch hiệu phần tính hiệu có giọng nói phần tín hiệu giọng nói Bằng cách áp dụng kỹ thuật tần số, thời gian-tần số, lọc thông tin không thích hợp để phần tín hiệu có giọng nói nhận Sau đó, động học (tái xuất) phi tuyến áp dụng mô tả chuyển động cục quĩ đạo không gian pha tái tạo từ tín hiệu giọng nói Đo lường đánh giá chuyển động cục tốc độ cửa sổ tái xuất thực Nó cho thấy phân bố xác suất chuẩn tốc độ tái xuất cửa sổ ứng dụng thành công việc mô tả tương đồng không tương đồng tín hiệu giọng nói chí môi trường có nhiễu Do đó, phân bố xác suất thường tốc độ tái xuất cửa sổ phép đo lường để nhận dạng mẫu tín hiệu giọng nói • Các bước xử lý tín hiệu phát phần tín hiệu có tiếng nói phần tiếng nói Đề xuất phương pháp phân tích VAD dựa đường bao vi phân trung bình tín hiệu tiếng nói đưa Việc phân tích thực miền thời gian có tốc độ xử lý nhanh tương đối so với phương pháp phân tích miền thời gian Phương pháp có khả phân tích tốt điều kiện tín hiệu tiếng nói có nhiễu Đề xuất phương pháp phát phần tín hiệu có giọng nói phần giọng nói dựa tính toán trung bình đường bao cực trị (cực đại cực tiểu) cục tín hiệu tiếng nói Phương pháp thực hiên miền thời gian không phụ thuộc vào người nói Mô hình đề xuất kiểm chứng với tính hiệu thực tín hiệu có tác động nhiễu không ổn định Việc kiểm chứng hiệu phương pháp đề xuất đưa có so sánh với phương pháp đưa trước thực miền thời gian Cấu trúc Luận án Luận án gồm hai phần, phần đầu giới thiệu tổng quan lĩnh vực có liên quan đến đề tài phần thứ hai chi tiết nội dung nghiên cứu Cụ thể, cấu trúc Luận án sau: Chương nói thông tin sở liên quan đến nhận dạng tiếng nói Ở Chương này, nội dung liên quan đến đặc trưng tín hiệu tiếng nói trình bày; Sự phức tạp tín hiệu tiếng nói ứng dụng nhận dạng; Ảnh hưởng nhiễu vào kết nhận dạng tiếng nói; Khái niệm tổng quát phương pháp phát tiếng nói (VAD); Phương pháp phân tích phi tuyến ứng ứng dụng nhận dạng tiếng nói; Vấn đề xác định điểm đầu điểm cuối tín hiệu tiếng nói; Các phân tích tiếng nói theo miền thời gian miền tần số-thời gian Chương khảo sát phân tích phức tạp tín hiệu tiếng nói điều kiện có nhiễu nhiễu góc nhìn phi tuyến Ở đây, động học tín hiệu tiếng nói nghiên cứu điều kiện có nhiễu tương quan mạnh Các phép đo lường entropy sử dụng để hiểu thấu đáo phức tạp hệ thống xem công cụ xử lý tín hiệu Sự phức tạp hệ thống động hỗn loạn mạnh nghiên cứu, hệ thống động bị tác động mạnh nhiễu tín hiệu tiếng nói tín hiệu âm nhạc Sự phức tạp đo lường entropy tái xuất có trọng số cho hệ thống hỗn loạn Hiện tượng đồng hai hệ thống ngẫu nhiên với tín hiệu (ghép phức) nghiên cứu Các tiêu chí kiểm tra hệ thống hỗn loạn hệ thống hỗn loạn có tác động qua lại thông qua sai số đồng chuẩn hóa tái xuất có điều kiện Các kết mô số thực nghiệm tín hiệu thực tế cho thấy hiệu phương pháp phân tích đề xuất Nhận dạng tín hiệu giọng nói điều kiện có nhiễu lớn nhiễu tương quan nghiên cứu Hai trường hợp xem xét là:(i) tín hiệu tiếng nói người điều kiện nhiễu khác nhau, (ii) tín hiệu tiếng nói người khác điều kiện có nhiễu Kết phân tích cho thất nhận tín hiệu tiếng nói nêu cách sử dụng phương pháp thông thường, dựa tần số thời gian-tần số, mà nhiễu có tương quan nhiều với tín hiệu tiếng nói Phương pháp nhận dạng phân biệt mẫu chúng hai trường hợp cách dùng động học tái xuất phi tuyến đề xuất Các kết thực nghiệm cho thấy hiệu phương pháp phân tích đề xuất Chương nói hai đề xuất gồm (i) đề xuất phương pháp dùng cho phát hoạt động giọng nói (ii) đề xuất phương pháp đo lường nhằm phát điểm đầu - cuối tín hiệu tiếng nói miền thời gian Phương pháp đề xuất thực phân tích dựa hoạt động đường bao vi phân tín hiệu tiếng nói Các phương pháp đề xuất có tốc độ tính toán nhanh xác so sánh với phương pháp trước Ở đề xuất thứ hai, phương pháp làm bật đặc trưng mức độ cao thấp điểm kết thúc dùng hai tham số miền thời gian Các kết thực nghiệm cho thấy phương pháp phát hoạt động giọng nói làm việc tốt trường hợp có loại nhiễu khác So sánh với phương pháp trước đây, phương pháp đo lường đề đơn giản áp dụng cho ứng dụng thực tế Cuối Luận án kết luận công việc thực tương lai Chương Tổng quan nhận dạng tiếng nói 1.1 Giới thiệu Tiếng nói định nghĩa âm phát dùng để giao tiếp người Cấu trúc quản phận tạo âm người quan sinh học có đặc tính phi tuyến cao, phận hoạt động không điều khiển cách có ý thức bị ảnh hưởng vài yếu tố thay đổi từ giới tính đến trình độ giáo dục trạng thái cảm xúc Do vậy, phát âm bị biến đổi rộng với điều kiện giọng, phát âm, cách phát âm, âm mũi, độ cao, âm lượng tốc độ Ngoài âm bị méo nhiều nhiễu tiếng vang đặc tính điện thông thiết bị điện tử Tất biến đổi làm cho việc nhận dạng đồng tiếng nói trở thành vấn đề phức tạp Định nghĩa trình nhận dạng tiếng nói cách xác, nội dung sau hiểu: (i) Nhận dạng tiếng nói trình biến đổi tín hiệu tiếng nói sang dạng tín hiệu nhận nhờ vào khác biệt đó, (ii) Nhận dạng tiếng nói tự động (Automatic speech recognition–ASR) định nghĩa máy tính trích xuất từ ngôn ngữ nói sang dạng văn Mô hình nguồn kênh sử dụng cho nhận dạng tiếng nói minh họa Hình 1.1, Huang đề xuất năm 2001 [20] Hình 1.1: Mô hình nguồn kênh cho hệ thống nhận dạng tiếng nói 1.2 Bối cảnh lịch sử Lịch sử nhận dạng tiếng nói có nửa kỷ Cuộc thử nghiệm để xây dựng hệ thống cho việc nhận dạng tiếng nói tự động vào năm 1950 dựa ngữ âm học Năm 1952, hệ thống nhận dạng số độc lập cho người nói [8] đưa Velich Zagoruyko Liên Xô (cũ) sử dụng nhận dạng mẫu để nhận dạng tiếng nói [55] Phương pháp sử dụng chương trình động mã hóa dự đoán tuyến tính (Linear Predictive Coding - LPC) dùng để nhận dạng tiếng nói [22] Trong năm 1980, hệ thống nhận dạng từ ghép phát minh dựa thuật toán liên kết từ rời rạc cho việc nhận dạng Cách tiếp cận từ nhận dạng mẫu sang mô hình thống kê, đặc biệt mô hình Markov (Hidden Markov Model-HMM) [43] Cuối năm thập kỷ 1980, mạng thần kinh nhân tạo dùng nhận dạng tiếng nói với mục đích phân loại Việc xác minh lời nói phương pháp tin cậy tập trung nghiên cứu [28] 1.3 Các đặc trưng âm loại tín hiệu tiếng nói Hình 1.2: Lọc nguồn tín hiệu tiếng nói Hình 1.2 biểu diễn mô hình lọc nguồn, với e[n] kích thích từ mục âm thanh, h[n] lọc đường quản x[n] tín hiệu tiếng nói phát Âm tiếng nói đưa theo ba trạng thái sau: (i) Im lặng, (ii) Âm vô thanh, (iii) Âm hữu Có số cách biểu diễn đặc tính âm thuận lợi cho việc nhận dạng tiếng nói ảnh phổ, LPC mô hình hồi quy tự động (Auto-regression AR) Phân tích cepstral dùng để trích xuất đặc trưng tiếng nói cho tập đặc trưng Mel-Frequency Cepstrum Coefficient (MFCC) Những mô hình thúc đẩy nhận thức dự báo nhận thức tuyến tính (Perceptual Linear Prediction– PLP) [16, 17] có cách tiếp cận hệ thống thính giác Tất phương pháp tiếp cận nhấn mạnh việc phân tích phổ lượng/tần số với quan điểm xấp xỉ mô hình thính giác Những hệ thống dựa thực tế khó khăn ASR khả xác định người nói bắt đầu kết thúc lời nói Các hình thức khác nhận dạng tiếng nói gồm: (i) Các từ đơn, (ii) Các từ kết nối, (iii) Lời nói ngẫu nhiên, (iv) Xác minh tiếng nói 1.4 Các đặc trưng phức tạp nhận dạng tiếng nói Nhận dạng tiếng nói thường xem phức tạp tổng hợp tiếng nói, chúng phân loại theo yếu tố sau: (i) Số lượng người nói, (ii) Lời nói lưu loát, (iii) Số lượng từ vựng, (iv) Yếu tố ngữ pháp, (v) Yếu tố môi trường, (vi) Sự phức tạp ngôn ngữ Tóm lại, việc nhận dạng số lượng nhỏ từ rời rạc từ người nói đơn lẻ môi trường yên tĩnh dễ nhiều so với lời nói liên tục môi trường thực tế từ người qua điện thoại ví dụ 1.5 Ảnh hưởng nhiễu nhận dạng tiếng nói Cường độ nhiễu vấn đề mấu chốt nhận dạng tiếng nói tự động (ASR) Có loại nhiễu đặc trưng hiệu ứng tiếng vang Mô hình cộng thêm nhiễu gồm tín hiệu tiếng nói s(k) bị ảnh hưởng nhiễu n(k) tạo tín hiệu x(k) x(k) = s(k) + n(k) (1.1) Trong miền tần số x(ejω ) = s(ejω ) + n(ejω ) (1.2) Kỹ thuật giúp giảm nhiễu phát tiếng nói kích hoạt (Voice Activity Detection–VAD) [12] VAD thường dùng để nhận có mặt tiếng nói cách đánh dấu ranh giới đoạn tín hiệu có tiếng nói đoạn lại 1.6 Phát tiếng nói (VAD) Phát tiếng nói nhiệm vụ ứng dụng liên quan đến xử lý tiếng nói Vấn đề phân biệt tiếng nói với nhiễu/sự im lặng [48, 54] Hình 1.3 minh họa cho VAD điển hình Hình 1.3: Phát tiếng nói Hệ thống phát tiếng nói điển hình bao gồm hai thành phần bản: phần trích đặc trưng chế định tín hiệu tiếng nói hay không Quá trình VAD biểu diễn Hình 1.3 Việc lựa chọn đặc trưng thuật toán phân loại phù hợp nhiệm vụ khó môi trường gây nhiễu tín hiệu tiếng nói 1.7 Nghiên cứu xử lý tín hiệu phi tuyến tính Việc sử dụng kĩ thuật phi tuyến tính xử lý tiếng nói lĩnh vực nghiên cứu phát triển nhanh Các phương pháp đa dạng bao gồm tuyến tính hóa giống lĩnh vực lọc thích nghi [15] nhiều dạng dao động dự đoán phi tuyến [25] Một lớp phương pháp xử lý tiếng nói phi tuyến bao gồm mô hình thuật toán xử lý tín hiệu số đưa để phân tích tượng phi tuyến động luồng khí lúc tạo tiếng nói [53] Những nghiên cứu đặc tính phi tuyến luồng khí lúc nói dẫn đến phát triển hệ thống xử lý tín hiệu phi tuyến thích hợp cho việc trích xuất thông tin liên quan tượng Hình 1.4: Tái tạo không gian pha tín hiệu tiếng nói 1.8 Nhận dạng tiếng nói tuyến tính phi tuyến tính Các kĩ thuật xử lý tín hiệu tiếng nói thông thường xác định lý thuyết hệ thống tuyến tính không gian xử lý chủ yếu phần lớn miền tần số [53] Các nghiên cứu âm giả thiết mô hình nguồn–bộ lọc quản mô hình hóa lọc tuyến tính Công việc chia vùng tần số đặc tính quản từ nguồn kích thích Vector đặc trưng điển hình dùng cho nhận dạng tiếng nói từ thủ tục xử lý tín hiệu hệ số tần số Mel cepstral (Mel frequency cepstral coefficients–MFCC) Như thay cho kĩ thuật truyền thống để đạt hiệu tốt hơn, hệ thống phi tuyến xuất nghiên cứu tiếng nói Sử dụng kĩ thuật, phân tích tập trung từ miền tần số sang không gian xử lý khác gọi không gian tái tạo pha Một không gian tái tạo pha tạo cách thiết lập véc-tơ, đó, phần tử không gian chuỗi biến làm trễ Khi nghiên cứu chuỗi thời gian, phương pháp lũy thừa Lyapunov, chiều tương quan, việc phân tích phần tử thường cho hiệu tốt Phương pháp tái tạo không gian pha hệ thống động dựa định lý Takens để xác định số chiều nhúng d 1.9 Xác định điểm kết thúc tín hiệu tiếng nói Việc phát xác định điểm kết thúc đoạn tiếng nói tương đối phức tạp môi trường nhiễu quan trọng cho việc nhận dạng tiếng nói Các phương pháp dựa phổ lượng hay lượng [23, 27, 42, 50], dựa entropy [37] miền tần số Hình 1.6 biểu diễn số kết thực nghiệm [52] (a) Dạng sóng tiếng nói (b) Sơ đồ phổ (c) Năng lượng thời gian ngắn phổ lượng (d) Tỉ lệ không (e) Etropy phổ (đồng thời xác định điểm bắt đầu kết thúc) Hình 1.5: Các tham số biến đổi cho loại nhiễu khác tín hiệu tiếng nói thu liên tục 1.10 Miền thời gian miền tần số-thời gian Một vài phân tích việc nhận dạng tín hiệu tiếng nói nghiên cứu miền thời gian miền tần số-thời gian miền tần số-thời gian cho kết tốt trường hợp tín hiệu có nhiễu Các thuật toán gồm: ước lượng biên độ giao điểm không (Zero Crossing Amplitude Estimation– ZCAE) [39], phân tích tiếng nói thu từ kênh thông dải cố gắng xác định tập phần tử thời gian–tần số gần với nguồn âm mong muốn 1.11 Mô hình Markov ẩn Mô hình Markov ẩn (Hidden Markov model–HMM) công cụ tính toán mạnh mẽ cho mô hình hóa chuỗi thời gian Nó cung cấp thuật toán hiệu cho việc ước lượng trạng thái tham số, tự động thực điều chỉnh thời gian cho tín hiệu bị nén giãn cục Ngoài ra, mô hình sử dụng vào nhiều mục đích khác việc mô hình hóa âm Những mô hình Markov ẩn dựa chuỗi Markov tiếng từ lý thuyết xác suất dùng để mô hình hóa chuỗi kiện theo thời gian Một mô hình Markov ẩn định nghĩa với tham số gồm (i) Số lượng kiện theo dõi kí hiệu M , (ii) Một đầu ra: V = {v1 , v2 , v3 , , vM }, (iii) Số lượng trạng thái N , (iv) Một không gian trạng thái Q = {1, 2, N } Các trạng thái thường đánh số thứ tự i, j, trạng thái mô hình điểm đặc biệt thời gian t biểu diễn qt Do đó, qt = i nghĩa mô hình trạng thái i thời điểm t • Phân bố xác suất trình chuyển tiếp trạng thái A = aij , aij = P (qt+1 = j|qt = i), ≤ i, j ≤ N • Hiện tượng cần quan sát có phân bố xác suất b = bj (k), bj (k) = P (ot = vk |qt = i) với ot chuỗi quan sát Các mô hình Markov ẩn cung cấp tảng đơn giản hiệu cho việc mô hình hóa chuỗi phổ vector biến đổi theo thời gian Hệ ngày nay, hầu hết hệ thống nhận dạng tiếng nói liên tục với số lượng từ vựng lớn (Large Vocabulary Continuous Speech Recognition–LVCSR) dựa mô hình Markov ẩn Để nhận dạng tiếng nói liên tục cần đạt mục tiêu sau: Mục tiêu: Cho liệu A = a1 , a2 , , ak Tìm chuỗi từ W = w1 , w2 , , wk Sao cho P (W |A) cực đại Luật Bayes: ).P (W ) P (W |A) = P (A|W P (A) Trong đó, P (A) số cho câu hoàn chỉnh, P (A|W ) mô hình âm học (HMMs), P (W ) mô hình ngôn ngữ Mô hình Markov giả thiết liên quan trình bày tổng kết sau: Các phần tử:(i) Các trạng thái: S = S0 , S1 , , SN (ii) Các xác suất chuyển dịch: P (qt = Si |qt−1 = Sj ) đưa Hình 1.6 Giả thiết Markov: Xác xuất chuyển dịch phụ thuộc vào trạng thái P (qt = Si |qt−1 = Sj , qt−2 = Sk , ) = P (qt = Si |qt−1 = Sj ) − aji , aji ≥ 0, ∀j, i, i=0 N = 1aji , ∀j Hình 1.6 biểu diễn mạng đồ họa mô hình Markov, gồm hai trạng thái A B với số kết nối biểu diễn mũi tên Cấu trúc liên kết mạng biểu diễn đặc tính quan trọng chuỗi Markov trạng thay đổi theo Tỉ lệ cửa sổ tái xuất RR(k) định nghĩa sau: RR(k) = N −k N −k Ri,i+k (2.2) i=1 Khi RR(k) biểu thị phân bố tái xuất tất đường chéo song song với đường chéo chính, vậy, tương đồng quỹ đạo song song định lượng RR(k) Hàm mật độ xác suất chuẩn hóa RR(k) xét để đánh giá tương đồng Hình 2.1: Lô tái xuất hệ thống Lorenz [29] 2.2.2 Entropy lô tái xuất có trọng số Lô tái xuất có trọng số (WRP) [9] dựa việc xét khoảng cách điểm không gian pha Ma trận khoảng cách W hai điểm i, j chuỗi thời gian Ma trận trọng số W định nghĩa sau: Wij = e− xi −xj , i, j = 1, 2, , N (2.3) Entropy Shannon dựa WRP với cường độ si điểm xi không gian pha tính sau: N si = Wij (2.4) j=1 Sự phức tạp tính thông qua entropy Shannon liên hợp ma trận trọng số W : H=− p(s)ln (p(s)) (2.5) {s} Trong đó, p(s) = phân bố tần số tương đối cường độ ma trận N khoảng cách với S tổng số lượng cường độ với S = i si Entropy (H) dựa WRP có lợi định phép đo entropy dựa RP P (s) S 2.3 Đánh giá độ phức tạp tín hiệu tiếng nói ứng dụng lô tái xuất Thông thường, phức tạp hệ thống đánh giá thông qua tính entropy hệ thống [24] Nếu entropy cao hệ thống coi mức phức tạp cao Entropy Shannon dựa WRP xem Entropy WRP (WRPE) 2.3.1 WRP hệ thống có tác động tín hiệu nhiễu Entropy H dùng để tìm thay đổi mức độ phức tạp hệ thống Lorenz–Stenflo (LS) chiều (4D) theo tham số hệ thống r, bị hỗn loạn bị tín hiệu bên tác động Các tín hiệu bên tác động lên Các tạp 11 âm nhiễu lũy thừa có mật độ phổ công suất tỷ lệ nghịch với hàm lũy thừa tần số, hay ni = f 1βi Các tín hiệu dùng để tác động lên LS gồm: âm nhạc m1 thu từ nhạc cụ truyền thống Việt Nam, tín hiệu âm nhạc m2 thu âm từ nhạc cụ truyền thống Ấn Độ, tín hiệu tiếng nói s1 phát biểu thu âm Phổ lượng tín hiệu Hình 2.2 (a) lũy f Nhiễu (b) Nhiễu lũy (c) Tín hiệu hiệu (d) Tín hiệu nhạc (e) Tín hiệu tiếng thừa thừa β12 , β2 = âm nhạc Việt cụ Dagar (m2 ) nói (s1 ) f Nam (m1 ) β1 , β1 = 0.5 Hình 2.2: Phổ lượng trường hợp Hệ phương trình LS [3] có tác động nhiễu sau: y˙1 = a(y2 − y1 ) + cy4 + α1 V1 ; y˙2 = y1 (r − y3 ) − y2 (2.6) y˙3 = y1 y2 − by3 + α2 V2 ; y˙4 = −y1 − ay4 Khi tác động tín hiệu bên ngoài, chọn nhiễu lũy thừa với V1 = n1 , V2 = n2 , chọn tín hiệu âm nhạc khác với V1 = m1 , V2 = m2 , chọn tín hiệu tổ hợp âm nhạc tiếng nói với V1 = m1 , V2 = s1 Hình 2.3 cho thấy khác trường hợp có tác động tín hiệu bên Các WRP tương ứng biểu diễn Hình 2.4 (a) LS không bị tác (b) LS bị tác động (c) LS bị tác động (d) LS bị tác động động hai thành phần nhiễu hai thành phần âm nhạc (m1 ) n1 , n2 âm nhạc m1 , m2 tiếng nói (s1 ) Hình 2.3: Hình chiếu hai chiều không gian pha bốn chiều với biến x1 , x4 Để tìm thay đổi độ phức tạp bị tác động tín hiệu bên ngoài, WRPE H(r) tính theo giá trị khác r tronh Hình 2.5 Hình 2.5 cho thấy mức độ phức tạp hệ thống LS thay đổi phụ thuộc vào r nhiều phụ thuộc gia tăng tín hiệu tác động âm nhạc tiếng nói Hình 2.6 cho thấy α2 ảnh hưởng đến độ phức tạp nhiều α1 Với hệ thống LS bị tác động tín hiệu âm nhạc, độ phức tạp tương đối với giá trị α2 thấp (α2 ∈ [0, 001; 0, 003]) Trong hệ thống LS bị tác động âm nhạc tiếng nói kết hợp đồng thời độ phức tạp tương đối với cá giá trị α2 cao (α2 ∈ [0, 008; 0, 01]) 12 (a) LS tác (b) LS bị tác động (c) LS bị tác động (d) LS bị tác động động tính hiệu hai thành phần nhiễu hai thành âm nhạc m1 , hai thành phần nhiễu n1 , n2 m2 âm nhạc (m1 ) tiếng nói (s1 ) 3.9 3.8 3.8 3.8 3.7 3.7 3.6 3.6 3.6 3.5 3.5 3.4 3.4 3.3 H(r) 3.9 H(r) H(r) Hình 2.4: WRP cho hệ thống LS chiều 3.2 3.3 10 15 20 25 3.4 2.8 10 15 r 20 25 10 r (a) LS nhiễu 15 20 25 30 r không (b) LS bị tác động (c) LS bị tác động (d) LS bị tác động (e) Sơ đồ đường hai nhiễu khác hai tín hiệu âm nhạc (m1 ) viền WRPE n1 , n2 âm nhạc khác tiếng nói (s1 ) m1 , m2 Hình 2.5: Lô WRPE H(r) cho r = 26 với tham số r hệ thống LS bố chiều 1.6 1.55 1.55 1.4 0.001 1.2 0.001 1.35 1.25 α2 0.01 0.01 α1 1.4 1.4 1.5 1 0.5 0.8 1.35 0.0001 1.3 0.005 0.005 H(α 1,α 2) H(α 1,α 2) 1.2 1.45 1.45 1.4 1.4 1.5 1.6 1.6 H(α1,α2) 1.5 1.2 0.0001 1.3 0.0003 0.0003 α2 0.001 0.001 0.6 0.005 0.002 1.25 0.0005 0.0005 α1 (a) LS 4D bị tác động (b) LS 4D bị tác động hai tín hiệu nhiễu hai tín hiệu âm nhạc non-Gaussian khác khác nhau, m1 , m2 nhau, n1 , n2 α2 0.004 0.01 α1 (c) Tín hiệu âm nhạc (m1 ) tiếng nói (s1 ) dùng để tác động vào LS, α1 α2 nằm dải từ 0.001 đến 0.01 với bước thay đổi 0.0001 Hình 2.6: Đồ thị WRPE H(α1 , α2 ) với r = 26 phụ thuộc vào tham số α1 , α2 2.4 Ứng dụng phương pháp đồng phân tích đặc tính động tín hiệu tiếng nói Sự đồng điều chỉnh nhịp điệu đối tượng có tương tác với Cơ chế đồng hoàn toàn (Complete Synchronization–CS) [40, 41] thường đề cập Luận án xét hệ thống LS 4D hệ thông bị tác động vởi bốn cách 13 gây nhiễu khác tạp âm, âm nhạc, tiếng nói kết hợp 2.4.1 Phân tích sai số đồng Đồng hoàn toàn hệ thống chủ hệ thống đáp ứng khảo sát cách đo sai số đồng chúng Sai số đồng (synchronization error–SE) định nghĩa khác hai hệ thống có tương tác Đồng hoàn toàn xảy SE → t → ∞ Do đó, để kiểm tra tồn CS cặp hệ thống cụ thể, tính toán khảo sát sai số đồng theo thay đổi cường độ liên kết Với mục đích này, xét hệ thống LS bị tác động đóng vai trò hệ thống phản hồi (2.7) y˙1 = a(y2 − y1 ) + cy4 + α1 V1 + C(x1 − y1 ); y˙2 = y1 (r − y3 ) − y2 (2.7) y˙3 = y1 y2 − by3 + α2 V2 ; y˙4 = −y1 − ay4 Trong đó, a = 1, 0, b = 0, 7, c = 1, 5, r ∈ [5, 26] y1 (0) = 0, 0015, y2(0) = 0, 0025, y3(0) = 0, 0035, y4(0) = 0, 0045 Trong biểu thức (2.7), C dùng để điều chỉnh cường độ liên kết tín hiệu Với hệ thống LS bị tác động nhiễu, giá trị tham số chọn V1 = n1 , V2 = n2 , α1 = 5, 5, α2 = 5, 2; với hệ thống LS bị tác động hai tín hiệu âm nhạc khác nhau, tham số chọn V1 = m1 , V2 = m2 , α1 = 0, 001, α2 = 0, 002; hệ thống LS bị tác động tổ hợp tín hiệu âm nhạc tiếng nói giá trị tham số chọn V1 = m1 , V2 = s1 , α1 = 0, 001, α2 = 0, 002 Sự thay đổi SE theo gia tăng cường độ liên kết thời gian ba loại hệ thống LS bị tác động nói đưa Hình 2.7(a), 2.7(b) and 2.7(c) Sai số đồng chuẩn hóa đưa Hình 2.7(d) (a) Nhiễu tác động vào (b) Các tín hiệu âm (c) Tín hiệu âm nhạc (d) Biểu đồ quan hệ hệ thống LS nhạc tác động vào hệ tín hiệu tiếng nói tác SE chuẩn thống LS động vào LS hóa cường độ ghép C cho trường hợp (a), (b), (c) Hình 2.7: Mô tả phụ thuộc sai số đồng (SE) hệ số ghép C theo thời gian Từ Hình 2.7 cho thấy sai số đồng tạp âm dây nhiều trường hợp lại Tuy nhiên, ba trường hợp, sai số SE giảm với tăng giá trị cường độ liên kết 2.4.2 Tái xuất trung bình điều kiện (MCR) Ở xét độ phức tạp liên kết hệ thống đồng Tái xuất trung bình điều kiện (Mean Conditional Recurrence–MCR) [47] dùng dùng nghiên cứu đối xứng tương tác hệ động học MCR xác suất có điều kiện trung bình tái xuất hệ thống X Y xét với lô tái xuất 14 liên kết (Joint Recurrence Plot–JRP) Tái xuất hai điểm xi , xj ∈ Rn đánh giá khảng cách chúng không gian pha Bên cạnh đó, JRP dạng diễn tả hình ảnh ma trận tái XY xuất liên kết JRij = Θ(ǫX − xi − xj )Θ(ǫY − yi − yj ), i = 1, 2, , N , ǫX ǫY ngưỡng cho hệ thống X, Y JRP nói lên đồng thời tái xuất hai hệ thống X, Y 2.4.3 Xác định hệ thống điều khiển–phản hồi điều kiện tái xuất trung bình Về mặt toán học, tái xuất trung bình điều kiện (MCR) hệ thống X theo Y hệ thống Y theo X định nghĩa sau: N N N N XY XY 1 j=1 JRij j=1 JRij M CR(X|Y ) = ; M CR(Y |X) = (2.8) N N Y X N i=1 N i=1 j=1 Rij j=1 Rij X Y Trong đó, Ri,j = Θ(ǫX − xi − xj ), Ri,j = Θ(ǫY − yi − yj )i = 1, 2, , N Để xác định tính không đối xứng liên kết cần sử dụng tiêu chuẩn sau: ∆(M CR) = M CR(X|Y ) − M CR(Y |X) (2.9) Nếu ∆(M CR) > có nghĩa X điều khiển Y , ∆(M CR) Y điều khiển X, ∆(M CR) = ghép đối xứng Đối với hệ thống bị tác động, xem X hệ thống tác động Y hệ thống đáp ứng Trong trường hợp tín hiệu âm nhạc làm hệ thống LS bị tác động, X xem hệ thống bị gây tác động tín hiệu âm nhạc tiếng nói, Y hệ thống đáp ứng hệ thống Hình 2.8 biểu diễn thay đổi ∆(M CR) với cường độ liên kết C cho trường hợp tác động Hình 2.8: Biểu đồ ∆(M CR) cường độ liên kết C đồng hệ thống LS bị gây nhiễu tạp âm, tín hiệu âm nhạc tổ hợp tín hiệu âm nhạc, tiếng nói Hai hệ thống bị gây nhiễu tín hiệu âm nhạc tổ hợp âm nhạc tiếng nói đối xứng sau C = 1, hệ thống LS bị gây nhiễu tạp âm đối xứng sau C = 3, Điều kiểm chứng Hình 2.7 với ba trường hợp, hệ thống đáp ứng Y hoạt động giống hệ thống phản hồi 2.5 Nhận dạng tín hiệu tiếng nói ứng dụng không gian pha tái tạo 2.5.1 Lợi ích tính động phi tuyến cho xử lý tín hiệu Động học liệu phi tuyến tái tạo giúp mô hình hóa để nhận thông tin có liệu Từ hiểu biết hệ thống động học, tín hiệu tiếng 15 nói xem thành phần quan sát hệ thống tạo tiếng nói Mô hình hóa động học hữu ích cho việc dự đoán/tổng hợp tiếng nói Trong dạng khác động học, lũy thừa Lyapunov hay số chiều fractal vùng hút tái tạo hữu ích cho việc nhận dạng tiếng nói 2.6 Thu thập tín hiệu tiếng nói Với mục đích thực nghiệm, tác giả thu thập hai loại tín hiệu tiếng nói (i) hai người nói nội dung; (ii) nhiều người khác nói 20 nội dung khác môi trường có tạp âm (sân bay, tàu, đường phố, nhà hàng) môi trường tạp âm Tất liệu lưu định dạng file WAV xử lý phần mềm MATLAB R2015a Tập hợp 20 tín hiệu tiếng nói gồm giọng nam nữ nằm tần số 50Hz đến kHz môi trường không tạp âm Tiếng nói thu âm môi trường sân bay, tàu, đường phố, nhà hàng bao gồm số tiếng nói xung quanh xem tạp âm tương quan Tập liệu thu thập từ [18] 2.7 Kỹ thuật nhận dạng hoạt động tiếng nói Để phân biệt tín hiệu tiếng nói, cần phân loại phần giọng nói thành phần thành phần hữu vô phương pháp phát hoạt động lọc Việc xem xét kỹ thuật phát âm cách dùng khác cực trị cục tín hiệu tiếng nói quan trọng Các tín hiệu tiếng nói làm mềm kỹ thuật lọc phù hợp Kỹ thuật lọc mô tả sau: (i) Tín hiệu tiếng nói/âm Y với tần số lấy mẫu Fs =16Khz mã hóa 16 bit, (ii) Tìm tất giá trị cực trị tín hiệu tiếng nói, (iii) Dùng cửa sổ có độ rộng W với số mẫu N0 = 64, liệu tạo Y1 (n) tổng pitch cao (Y ) trừ tổng pitch thấp (Y ), (iv) Tính trung bình Y1 theo cửa sổ K ∗ N0 (K = 5, 6, ) 2.8 Phân tích tần số thời gian–tần số Đối với việc phân tích theo miền tần số thời gian–tần số, chuyển đổi Fourier sổ với cửa sổ Hamming xem xét Môi trường nhiễu có chứa âm khác người xung quanh, tín hiệu tương quan với tín hiệu tiếng nói ta quan tâm Khi ấy, phân tích tần số thời gian–tần số dùng để phân loại mẫu tín hiệu 2.9 Sự tái tạo không gian pha đặc tính động tái xuất phi tuyến tiếng nói Các đặc tính động tín hiệu tiếng nói xấp xỉ không gian pha tái tạo tương đương mặt hình học Không gian pha hình học tương đương tái tạo thời gian trễ τ thích hợp chiều ánh xạ (d) phù hợp Từ không gian pha tái tạo đó, phân tích đặc trưng động học thực 16 2.10 Ứng dụng đặc tính động tái xuất với nhận dạng tín hiệu tiếng nói Để áp dụng đặc tính động tái xuất, đầu tiên, tái tạo không gian pha tín hiệu tiếng nói Mô hình tái xuất dùng để phân biệt thành công tín hiệu tiếng nói giống phát người khác Điều mô hình tái xuất có đặc tính động tương tự tín hiệu tiếng nói giống môi trường tạp âm khác Tính chất khẳng định tương quan mạnh tồn hệ thống động tái xuất độc lập với loại nhiễu Hơn nữa, đặc tính động dùng để tín hiệu tiếng nói nhiều người môi trường khác Để xác minh giống khác đặc tính động, RR(k) tính biến đổi sang phân bố xác suất chuẩn tắc (npd) 2.11 Kết luận Chương khảo sát tần số, thời gian–tần số đặc tính động tái xuất tín hiệu tiếng nói Để có thông tin xác, cấu trúc đường bao lượng đưa Đường bao lượng phân biệt hiệu phần có tiếng nói tiếng nói tín hiệu Bằng việc áp dụng kĩ thuật tần số, thời gian–tần số, thông tin xác không xác định tiếng nói không nhận dạng Vậy nên, phương pháp áp dụng đặc tính phi tuyến tái xuất mô tả biến động địa phương quỹ đạo không gian pha tái tạo tín hiệu tiếng nói Ở đo biến động địa phương tỉ lệ tái xuất cửa sổ Phân bố xác suất chuẩn hóa tỉ lệ tái xuất cửa sổ mô tả xác giống khác tín hiệu tiếng nói người nói trường tạp âm Do đó, phân bố xác suất chuẩn hóa tỉ lệ tái xuất cửa sổ phương pháp tốt để nhận dạng tín hiệu tiếng nói Chương Đề xuất phương pháp phát tiếng nói Tóm tắt VAD (Voice Activity Detector – VAD) kĩ thuật xác định xuất tiếng người nói có hay không liệu âm thu Các VAD đóng vai trò quan trọng khối tiền xử lý ứng dụng nhận dạng xử lý tiếng nói Chương trình bày phương pháp có dựa ngưỡng lượng, điểm cắt không tính toán thống kê khác miền thời gian Chương trình bày phương pháp tìm hai đặc trưng tiếng nói ứng dụng cho VAD Chương trình thuật toán để phân loại khoảng có tiếng nói tiếng nói (tìm điểm endpoint) Một phần nội dung Chương đăng tải báo [C1], [J2] [J3] 17 3.1 Giới thiệu 3.1.1 Khái quát chung VAD lớp phương pháp xử lý tín hiệu xác định có mặt tiếng nói tín hiệu âm [5, 11, 26, 30, 44, 51] Bằng việc sử dụng VAD, đoạn tín hiệu có tiếng nói tách khỏi tín hiệu âm Thông thường, VAD sử dụng luật để đưa định dựa đặc điểm chọn để đánh giá Việc định có tiếng nói hay không quan trọng định dùng hệ thống xử lý tín hiệu nhận dạng dạng mẫu yếu tố định chất lượng nhận dạng tiếng nói tự động (ASR) [2, 21, 36, 56] Trong thực tế, phương pháp xử lý tín hiệu miền tần số đóng vai trò quan trọng, việc phân tích miền thời gian dễ nhanh miền tần số hệ thống thực VAD thời gian thực 3.1.2 Hệ thống VAD Một VAD làm việc với đặc trưng trích xuất từ tín hiệu gửi đến, tín hiệu chia thành khung với khoảng thời gian – 40 ms Những đặc trưng so sánh với ngưỡng giới hạn đồng thời định VAD tính Nếu đặc trưng khung tín hiệu vào vượt giá trị ngưỡng, định VAD (VAD = 1) tính tiếng nói coi xuất tín hiệu Ngược lại, định VAD tính (VAD = 0) khung đầu vào coi tín hiệu tiếng nói Sơ đồ khối VAD trình bày Hình 3.1 Hình 3.1: Sơ đồ khối VAD 3.1.3 Mục tiêu Mục tiêu luận văn thực nghiên tỉ mỉ thuật toán VAD dựa ngưỡng lượng, tỉ lệ điểm không (zero crossing rate) phương pháp thống kê Những thuật toán gần so sánh khả phân loại xác tín hiệu đầu vào thành tín hiệu có tiếng nói tiếng nói môi trường có nhiễu khác địa điểm sân bay, bờ suối, nhà hàng, tàu với giá trị SNR khoảng – 15dB Sau đó, tác giả thiết kế sơ đồ VAD thực thời gian thực miền thời gian dựa lượng trung bình bao quanh tín hiệu tiếng nói 3.2 Các phương pháp VAD 3.2.1 VAD dựa tỉ lệ điểm không lượng tín hiệu [4] Đây phương pháp tiếp cận nhanh đơn giản để chia tín hiệu đầu vào thành loại có tiếng nói tiếng nói Phương pháp hoạt động dựa 18 việc kết hợp tính toán tỉ lệ điểm không lượng tín hiệu Phương pháp tỉ lệ điểm không: Tỉ lệ điểm không định nghĩa số lần mẫu liên tiếp tín hiệu có dấu khác biên độ tín hiệu hiệu qua giá trị không Phương pháp lượng thời gian ngắn: Năng lượng thời gian ngắn tham số khác để nhận biết có tiếng nói hay không đoạn tín hiệu đầu vào Nếu lượng khung đầu vào cao khung coi khung chứa tiếng nói ngược lại, khung có lượng thấp coi tiếng nói Năng lượng thời gian ngắn khung x(m) kí hiệu En 3.2.2 VAD dựa lượng tuyến tính (LED) [49] Phương pháp làm việc theo nguyên lý cập nhật giá trị ngưỡng cách thích nghi Năng lượng toàn băng thông: Năng lượng Ej toàn băng thông jN tính dựa lượng khung liệu Ej = N1 i=(j−1)N +1 x2 (i) Trong đó, Ej lượng khung thứ j, x(i) mẫu thứ i tiếng nói N jN chiều dài khung với khung j, fj biểu thức fj = {x(i)}i=(j−1)N +1 3.2.3 VAD dựa lượng tuyến tính thích nghi [49] Phương pháp phiên nâng cấp phương pháp phát tiếng nói dựa lượng tuyến tính Quá trình thực thi phương pháp trình xác định khung câm 3.2.4 Nhận dạng mẫu để phân loại có hay tiếng nói Trong phương pháp này, nhận dạng mẫu định nghĩa áp dụng phân loại tín hiệu đưa thành loại có tiếng nói tiếng nói Phương pháp tính toán tham số gồm: số lượng số lần không, lượng tín hiệu, tương quan mẫu tín hiệu liền kề, dự đoán hệ số từ phân tích dự đoán tuyến tính lượng sai số dự đoán Năm tham số đơn giản hiệu việc phân loại Số lượng số lần không Nếu mẫu liên tiếp tín hiệu khác dấu tượng xảy Tỉ lệ không định nghĩa tỉ lệ xảy tượng không khung Tỉ lệ không cho tiếng nói tính so sánh để định Logarit-năng lượng Năng lượng tín hiệu hiệu tiếng nói cao lượng tiếng nói dựa hàm phân bố logarit lượng lượng tín hiệu có tiếng nói tiếng nói Hệ số tự tương quan chuẩn hóa Hệ số tự tương quan chuẩn hóa C1 đưa tương quan mẫu tín hiệu hiệu liền kề tường biến đổi khoảng -1 đến Giá trị gần đồng tập trung tần số vùng tần số thấp tín hiệu tiếng nói gần với giá trị không Hệ số tự tương quan chuẩn hóa đơn vị trễ xác định Hệ số dự đoán Hệ số dự đoán p điểm cực số lượng có từ phân tích mã hóa dự đoán tuyến tính (Linear Predictive Coding – LPC) Giá trị biến đổi từ -5 (tín hiệu có tiếng nói) đến (tín hiệu tiếng nói) Hệ số tính toán từ việc tìm giá trị nhỏ 19 Sai số dự đoán chuẩn hóa Sai số dự đoán chuẩn hóa Ep định nghĩa công thức (3.1): p Ep = Es − 10 ∗ log10 10 −6 + αk φ(0, k) + φ(0, 0) (3.1) k=1 Tính toán khoảng cách Một tập liệu huấn luyện đánh dấu tay thực với liệu thu âm môi trường yên tĩnh phân đoạn tín hiệu thành vùng có tiếng nói tiếng nói Những đoạn chia thành khoảng 10 ms phép đo (đã giải thích Phần 3.2.4) tính cho khối lưu vào tập tin kiểm thử 3.2.5 VAD dựa vào đo lường thống kê [6, 7] Phương pháp miêu tả phương thức thống kê sử dụng tỉ lệ nhiễu tạp âm để phát đoạn tiếng nói tín hiệu đầu vào Phương pháp kết hợp với việc đánh giá phổ thay đổi chậm chế ngưỡng thích nghi cho việc phát tiếng nói Mật độ phổ lượng lượng nhiễu kì vọng biến đổi tỉ lệ nhiễu tạp âm đánh giá từ đoạn tín hiệu tiếng nói trước Việc tính toán ngưỡng thích nghi giúp nâng cao hiệu VAD • Phương pháp tính tỉ số tín hiệu tạp âm SNR: Xét tín hiệu bị gây nhiễu tạp âm thêm vào mô hình hóa công thứcxk (n) = sk (n) + vk (n) • Phương pháp phương sai SNR: Đo phương sai SNR xác định cho tín hiệu hiệu tiếng nói đưa công thứcσv,k = E ψk (fl ) 3.3 Phương pháp đánh giá hiệu thuật toán VAD 3.3.1 Các tham số mục tiêu Hiệu lượng phương pháp VAD đánh giá thông qua tham số mục tiêu truyền thống [4, 7, 10], là:A) Cắt phía trước (Front End Clipping – F EC), B) Cắt tiếng nói (Mid – Speech Clipping - M SC), C) Phần nhô (Over Hang – OV ER), D) Nhiễu xác nhận tiếng nói (Noise Detected as Speech – N DS) 3.4 Phương pháp thu thập liệu liệu AURORA [1, 19] Để phục vụ với mục đích thực nghiệm, tín hiệu tiếng nói thập từ liệu đặc thù [18] Nghiên cứu tập trung thực nghiệm với số tiếng nói tiếng Việt (giọng nam nữ) số tiếng nói tiếng Anh điều kiện nhiễu môi trường khác với 20 tín hiệu tiếng nói bao gồm giọng nam nữ với tần số khoảng 50 Hz đến 8kHz 3.5 Đề xuất đặc trưng phương pháp VAD Quan sát tín hiệu âm thấy đường tín hiệu cực cao (pitch) cực thấp (pitch) liên tiếp đường phi tuyến có dạng gần tuyến tính Để 20 thực VAD, bước sau thực hiện: (i) tuyến tính hóa cục tín hiệu điểm cực liên tiếp, (ii) Thống kê tổng số lượng điểm Pitch khung thời gian ngắn làm thông tin đặc trưng thống kê tổng chênh lệch điểm cực cao (Pitch cao) điểm cực thấp (Pitch thấp) khung thời gian ngắn làm thông tin đặc trưng 3.5.1 Phương pháp tính với cửa sổ dịch mẫu Phương pháp tính cửa sổ trượt mẫu đề xuất Mỗi khung liền kề cách mẫu tín hiệu tổng giá trị khung sau liền kề tổng giá trị khung trước liền kề trừ mẫu khung trước Đồng thời sử dụng phương pháp làm mượt với cửa sổ trượt tam giác lớn dịch mẫu nhanh Trong xử lý tín hiệu số, thường sử dụng lọc tam giác nhỏ hàng chục mẫu để làm trơn Tác giả đề xuất áp dụng sổ làm trơn tam giác với kích thước lớn hàng trăm mẫu dịch mẫu 3.5.2 Phương pháp tính đặc trưng Dp mật độ số lượng điểm Pitch • Bước 1: Ghi âm tín hiệu tiếng nói (x) với tần số lấy mẫu Fs = 16kHz tốc độ bit lấy mẫu 16bit • Bước 2: Chuẩn hóa tín hiệu với tín hiệu có biên độ lớn max{Y } = 0, • Bước 3: Chọn độ dài khung xử lý N , N thường sử dụng 128, 256, 640 • Bước 4: Cho khung độ dài N trượt từ đầu đến cuối tín hiệu x với bước dịch lần mẫu tín hiệu Tính trung bình tổng tất điểm Pitch khung N Ta thu hàm Dp mật độ điểm Pitch Y (có kích thước với Y ) • Bước 5: Làm trơn lọc hàm Dp thu bước trước với phương pháp lọc tam giác dịch mẫu dùng kích thước khung N Ta thu hàm Dp làm mịn đặc trưng thứ cho tín hiệu tiếng nói 3.5.3 Phương pháp tính đặc trưng Tp dựa khoảng cách điểm Pitch liên tiếp • Bước 1: Ghi âm tín hiệu tiếng nói (x) với tần số lấy mẫu Fs = 16kHz tốc độ bit lấy mẫu 16bit • Bước 2: Chuẩn hóa tín hiệu với tín hiệu có biên độ lớn max{Y } = 0,9 • Bước 3: Chọn độ dài khung xử lý N , N thường sử dụng 256 • Bước 4: Cho khung độ dài N trượt từ đầu đến cuối tín hiệu x với bước dịch lần mẫu tín hiệu Tính tổng biên độ tất điểm Pitch cao trừ tổng biên độ tất Pitch thấp khung N Ta thu hàm Tp độ lệch điểm Pitch x (có kích thước với x) • Bước 5: Làm trơn lọc hàm Tp ta thu bước trước với phương pháp lọc tam giác dịch mẫu dùng kích thước khung N Ta thu hàm Tp làm mịn đặc trưng thứ hai cho tín hiệu tiếng nói 21 3.5.4 Phương pháp tính đặc trưng tổng hợp Sp xác định endpoint • Bước 1: Tính đặc trưng Tp theo phương pháp 3.5.3 với kích thước khung N1 • Bước 2: Tính đường bao lượng Ep tương tự cách tính Tp với hàm E(i) = x2 (i) với khung kích thước N1 • Bước 3: Tính đặc trưng Sp (i) = Tp (i) ∗ Ep(i), với i = length(x) • Bước 4: Làm trơn lọc hàm Sp thu bước trước với phương pháp lọc tam giác dịch mẫu dùng kích thước khung N2 Ta thu hàm Sp làm mịn đường bao đặc trưng cho tín hiệu tiếng nói • Bước 5: Tính ngưỡng trung bình toàn dải đường bao Sp = Tb • Bước 6: Tìm vùng có dải giá trị ≥ Tb thời gian dài 20ms • Bước 7: Tìm ngược phía trước vùng cho Sp(k1 )−Sp(k1 −N2 ) < ǫ1 điểm bắt đầu vùng có tiếng nói • Bước 8: Tìm xuôi phía sau vùng cho Sp (k2 ) − Sp (k2 + N2 ) < ǫ2 điểm kết thúc vùng có tiếng nói • N1, N2 thường chọn 128 256; ǫ1 ǫ2 0,5 0,3 Thuật toán dựa đường bao đặc trưng Sp tín hiệu tiếng nói miền thời gian Với N kích thước cửa sổ Phân tích đơn giản đủ nhanh để xác định điểm kết thúc Để nghiên cứu khả phương pháp này, tác giả đo điểm kết thúc hầu hết tương quan công suất – nhiễu Phương pháp kiểm nghiệm tín hiệu tiếng nói Loại I, II liệu AURORA 3.6 Đánh giá phương pháp tín hiệu tiếng nói khác 3.6.1 Đánh giá tín hiệu tiếng nói khác tạp âm Các giá trị trung bình tín hiệu tiếng nói loại I loại II nhận kết giá trị trung bình |Y (k)| xấp xỉ thành phần tín hiệu tiếng nói có độ lớn vượt trội Vị trí đường dốc (tăng giảm) đường bao lượng mô tả cách rõ ràng phần tín hiệu tiếng nói Do đó, giải pháp VAD mà tác giả xây dựng nhận dạng phần có tiếng nói tiếng nói 3.6.2 Ứng dụng tín hiệu tiếng nói khác có tạp âm Áp dụng phương pháp với tín hiệu tiếng nói tương tự với hai loại tạp âm khác Với tín hiệu tiếng nói x(t) thêm vào thành phần nhiễu tạo y(t) = x(t) + cφ, đó, φ = f1α với α = [32, 33, 35] Các giá trị trung bình tạp âm tín hiệu tiếng nói có nhiễu loại I biểu diễn tương ứng Hình 3.2(a) 3.2(b) Nó cho thấy giá trị trung bình tăng lên có tiếng nói, không rõ ràng phần có tiếng nói 22 (a) Tín hiệu có nhiễu (b) Tín hiệu có nhiễu (c) Tín hiệu có nhiễu (d) Tín hiệu có nhiễu φ = f1 giá trị trung φ = f12 giá trị trung φ = f1 đường bao φ = f12 đường bao bình lượng bình lượng Hình 3.2: Tín hiệu loại I, giá trị trung bình đường bao lượng nhiễu với cường độ nhiễu c = 0.002 cho hai trường hợp phần tiếng nói Đường bao lượng tương ứng biểu diễn Hình 3.2(c) 3.2(d) cho thấy vị trí có tiếng nói tiếng nói có mức khác hẳn Giá trị trung bình tín hiệu tiếng nói loại II bị pha tạp âm biểu diễn Hình 3.3 Giá trị trung bình đường bao lượng nhận dạng thành công vùng có tiếng nói vùng tiếng nói (a) Tín hiệu có nhiễu (b) Tín hiệu có nhiễu (c) Tín hiệu có nhiễu φ = f1 giá trị trung φ = f12 giá trị trung φ = f1 đường bao bình lượng bình (d) Tín hiệu có nhiễu φ = f12 đường bao lượng Hình 3.3: Tín hiệu Loại II, giá trị trung bình đường bao lượng nhiễu với cường độ nhiễu c = 0.002 cho hai trường hợp (a) Tín hiệu tiếng nói không bị (b) Tín hiệu y(t) = x(t) + cφα (c) Tín hiệu y(t) = x(t) + cφα nhiễu x(t) với α = 1.5 với α = Hình 3.4: Tín hiệu tiếng nói màu xanh, đường bao lượng có màu đỏ, tím xanh Gía trị c = 0.005 chọn 23 Trong trường hợp nhiễu công suất với α = 1.5 2, đường bao lượng tương ứng minh họa Hình 3.4 Tương tự cho thấy, giá trị trung bình đường bao lượng nhận dạng thành công vùng có tiếng nói vùng tiếng nói Tương quan chéo hai đường bao lượng phương pháp đường bao lượng có hiệu với tín hiệu có nhiễu tác động Để xác định điểm kết thúc từ đường bao lượng, khác cực đại cực tiểu liên tiếp Kết cho thấy đường xu hướng trung bình không thay đổi đáng kể Điều dẫn đến ngưỡng ǫ không thay đổi phương pháp đề xuất Như vậy, tín hiệu bị ảnh hưởng công suất nhiễu đường xu hướng không bị nhiễu ảnh hưởng đáng kể Tính chất tương tự trường hợp nhiễu có cường độ mạnh Điều cho thấy hiệu phương pháp tác giả đề xuất môi trường nhiễu 3.7 So sánh đánh giá kết Các phương pháp VAD với kết định lượng đưa [32] so sánh với kết phương pháp đề xuất Các kết thực với tín hiệu loại I cho thấy phương pháp đề xuất phát vùng có tiếng nói tiếng nói tín hiệu với kết phương pháp tốt so với phương pháp mô tả [32] Ngoài ra, với phân tích tính hiệu loại II môi trường thực có tạp âm khác Đường bao lượng kết hợp với phép tương quan cho thấy đường bao lượng tiếng nói tạp âm tiếng nói có tạp âm tương quan lớn toàn khoảng thời gian có tín hiệu Hơn nữa, kết thuật toán đề xuất so sánh với phương pháp lượng Teager (Teager Energy Operator – TEO) [13, 14, 34, 57] cho thấy phương pháp đề xuất có kết vượt trội Kết so sánh phương pháp đề xuất so với kết dùng phương pháp Zero-crossing có tiền xử lý cho thấy tín hiệu vô phát rõ ràng so với trường hợp sử dụng phương pháp lượng thời gian ngắn, biên độ tự tương quan Bằng cách so sánh với phương pháp có khác phương pháp lượng thời gian ngắn (STE) [45, 54], cho thấy phương pháp đề xuất khác biệt lớn so với phương pháp STE xét đến phần tín hiệu có tiếng nói so với phần tiếng nói KẾT LUẬN Các kết đóng góp Luận án gồm: Đề xuất phương pháp xác định nhận dạng tiếng nói dựa vào thay đổi độ phức tạp hệ thống động Đề xuất phương pháp phát tiếng nói dựa đặc trưng hiệu tổng số cực trị vùng dựa mật độ điểm cực trị vùng 24 DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ CỦA LUẬN ÁN I: CÁC CÔNG TRÌNH LIÊN QUAN TRỰC TIẾP ĐẾN LUẬN ÁN ĐÃ ĐĂNG [C1 ] Dang Thai Son, Thang Manh Hoang, "An Average Technique for Real Time Voice Activity Detection in Time Domain," IEEE ICCE 2016, 27-29 Jul 2016, pp 614-617 [J1 ] Thai Son Dang, Sanjay Kumar Palit, Sayan Mukherjee, Thang Manh Hoang, Santo Banerjee, "Complexity and synchronization in stochastic chaotic systems," Physical Journal Special Topics (EPJ ST) 225, 159–170, 2016 [J2 ] Dang Thai Son, Sayan Mukherjee, Thang Manh Hoang, Santo Banerjee, "An Average Technique for Real Time Voice Activity Detection in Time Domain," The Journal of Science and Technology (7 Technical Universities) 113, 2016 [J3 ] Thai Son Dang, Thang Manh Hoang, "An endpoint detection technique for voice and nonvoice recognition," The Journal of Science and Technology (7 Technical Universities) (in press), 2017 ... lý thuyết phi tuyến tính có đặc điểm phù hợp với loại tín hiệu tiếng nói Lý coi hệ thống phát tiếng nói hệ thống động học, từ đó, phân tích đánh giá dùng công cụ phân tích phi tuyến tính cho thấy... hiểu đặc trưng phi tuyến tín hiệu tiếng nói bước phương pháp dùng để phát đặc trưng có tính khả thi cao Trong chương khảo sát đặc tính phi tuyến tín hiệu tiếng nói sử dụng công cụ phân tích phi tuyến, ... dạng dao động dự đoán phi tuyến [25] Một lớp phương pháp xử lý tiếng nói phi tuyến bao gồm mô hình thuật toán xử lý tín hiệu số đưa để phân tích tượng phi tuyến động luồng khí lúc tạo tiếng nói [53]

Luận án tiến sĩ phân tích và phát hiện tiếng nói dựa trên đặc tính động phi tuyến (tt)

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Tổng quan về nhận dạng tiếng nói

Giới thiệu

Bối cảnh lịch sử

Các đặc trưng âm thanh và các loại tín hiệu tiếng nói

Các đặc trưng phức tạp của nhận dạng tiếng nói

Ảnh hưởng của nhiễu trong nhận dạng tiếng nói

Phát hiện tiếng nói (VAD)

Nghiên cứu xử lý tín hiệu phi tuyến tính

Nhận dạng tiếng nói tuyến tính và phi tuyến tính

Xác định các điểm kết thúc của tín hiệu tiếng nói

Miền thời gian và miền tần số-thời gian

Mô hình Markov ẩn

Kết luận

Khảo sát sự phức tạp trong các hệ thống ngẫu nhiên và các tín hiệu tiếng nói

Giới thiệu

Lô tái xuất và các đo lường

Lô tái xuất

Entropy của lô tái xuất có trọng số

Đánh giá độ phức tạp của tín hiệu tiếng nói ứng dụng lô tái xuất

WRP của hệ thống có tác động bởi tín hiệu nhiễu

Ứng dụng của phương pháp đồng bộ trong phân tích đặc tính động của tín hiệu tiếng nói

Phân tích sai số đồng bộ

Tái xuất trung bình điều kiện (MCR)

Xác định các hệ thống điều khiển–phản hồi bằng điều kiện tái xuất trung bình

Nhận dạng tín hiệu tiếng nói ứng dụng không gian pha tái tạo

Lợi ích của tính động phi tuyến cho xử lý tín hiệu

Tài liệu cùng người dùng

Tài liệu liên quan