XÂY DỰNG bộ NHẬN DẠNG TIẾNG nói tự ĐỘNG bền VỮNG với môi TRƯỜNG NHIỄU

Thông tin tài liệu

Trong những năm gần đây, hệ thống nhận dạng tiếng nói tự động (ASR) ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực. Tuy nhiên, hiệu suất của những hệ thống này lại dễ dàng bị ảnh hưởng bởi tác động bất lợi của môi trường, chẳng hạn như nhiễu,...Vì vậy, để xây dựng một bộ ASR bền vững với nhiễu, các thuật toán giảm nhiễu được áp dụng nhằm tối thiểu tác động của nhiễu và cải thiện chất lượng tiếng nói. Trong đề tài này, chúng tôi tập trung vào 4 thuật toán dựa trên lý thuyết tối thiểu hóa bình phương độ lệch trung bình, gồm MMSEMS, MMSESTSA84, MMSESTSA85 và bộ lọc Wiener. Bằng cách tích hợp các thuật toán này vào tầng tiền xử lý của khối frontend của bộ ASR, chúng tôi nhận thấy hiệu suất nhận dạng có những cải thiện nhất định trong môi trường nhiễu. Nội dung chính của đồ án gồm 4 chương, trong đó chương đầu chủ yếu giới thiệu về cấu trúc một bộ nhận dạng tiếng nói tự động, chương 2 đề cập đến các tiêu chuẩn DSR của ETSI (SFE và AFE) và các giải thuật giảm nhiễu nhằm tăng cường hiệu quả cho bộ ASR, chương 3 tập trung vào mô hình âm học HMM, chương 4 đánh giá và so sánh hiệu quả của các thuật toán dựa trên kết quả nhận dạng được thực hiện trên cơ sở dữ liệu SpeechDat Car Aurora3 và phần mềm nhận dạng tiếng nói HTK.

NHẬN XÉT CỦA GVHD NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………… Đà Nẵng, ngày tháng năm 2011 Kí tên TS. Phạm Văn Tuấn I LỜI CAM ĐOAN NHẬN XÉT CỦA GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc LỜI CAM ĐOAN Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử - Viễn thông, Trường Đại Học Bách Khoa Đà Nẵng. Em tên là: Nguyễn Thị Bích Ngọc Hiện học lớp 06DT4, Khoa Điện tử - Viễn thông, Trường Đại Học Bách Khoa Đà Nẵng. Em xin cam đoan nội dung đồ án chép đồ án công trình có từ trước. Đà Nẵng, tháng năm 2011 Sinh viên thực Nguyễn Thị Bích Ngọc II LỜI CẢM ƠN LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo, TS. Phạm Văn Tuấn hướng dẫn chúng em tận tình, cung cấp tài liệu, tạo điều kiện thuận lợi để em hoàn thành đồ án này. Em xin chân thành cảm ơn thầy cô giáo khoa Điện tử - Viễn thông, Trường Đại Học Bách Khoa Đà Nẵng truyền đạt kiến thức bổ ích cho em suốt thời gian học trường để em có đủ kiến thức để hoàn thành đồ án. III MỤC LỤC MỤC LỤC CÁC TỪ VIẾT TẮT………………….…………………………………………….… .1 LỜI MỞ ĐẦU…………… .…………………………………………………………… IV CÁC TỪ VIẾT TẮT CÁC TỪ VIẾT TẮT AFE : Advanced Front-End ASR : Automatic Speech Recognition DCT : Discrete Cosine Transform DSR : Distribution Speech Recognition DTW : Dynamic Time Warping ETSI : European Telecommunications Standards Institude ETSI-Nest : ETSI noise estimation FFT : Fast Fourier Transform FSN : Finite State Network HMM : Hidden Markov Model HTK : Hidden Markov Model Toolkit LPC : Linear Prediction Coded MFCC : Mel-Frequency Cepstral Coefficient ML : Maximum Likelihood MMSE : Minimum Mean Square Error SFE : Standard Front-End SNR : Signal to Noise Ratio SNRpri : Priori SNR SNRpost : Postiriori SNR STSA : Short-time Spectral Amplitude VAD VQ WAC WER WRR : Voice Activity Detection : Vector Quantilization : Word Accuracy : Word Error Rate : Word Recognition Rate Trang LỜI MỞ ĐÀU LỜI MỞ ĐẦU Việc thiết kế hệ thống máy móc có khả hiểu ngôn ngữ nói đáp ứng yêu cầu người nói tham vọng nhà khoa học kĩ sư nhiều thập kỉ qua. Công xây dựng hệ thống nhận dạng tiếng nói tự động (ASR) năm 30 kỉ thứ 19 tiếp tục phát triển ngày nay. Hiện tại, hệ thống nhận dạng tiếng nói sử dụng nhiều thực tế, đặc biệt ứng dụng đòi hỏi giao diện máy móc người sử dụng. Các ứng dụng đa dạng xuất nhiều lĩnh vực khác nhau: Tự động xử lý gọi mạng điện thoại, quay số giọng nói, định tuyến cho gọi, tìm kiếm giọng nói (ví dụ tìm file podcast tương ứng với từ nói ra), nhập số thẻ tín dụng vào hệ thống, chuyển lời nói thành văn (ví dụ ghi bảng điều trị y khoa), .và nhiều ứng dụng khác. Được sử dụng rộng rãi vậy, hiệu suất hệ thống ASR lại bị giảm rõ rệt môi trường bất lợi, chẳng hạn nhiễu,… Vì thế, việc nghiên cứu xây dựng nhận dạng bền vững, có khả làm việc hiệu môi trường mang ý nghĩa lớn. Trên thực tế, có nhiều phương pháp đề xuất nhằm xây dựng ASR bền vững giảm nhiễu khối tiền xử lý, thích nghi mô hình âm học, trích chọn thuộc tính âm học bền vững nhiễu, .Trong đó, giảm nhiễu phương pháp cho hiệu cao với hệ thống ASR. Vì vậy, chọn nghiên cứu phương pháp giảm nhiễu với thuật toán dựa lý thuyết tối thiểu hóa bình phương độ lệch trung bình, ví dụ: lọc Wiener, MMSE-STSA, MMSE-MS,…, để đánh giá vai trò việc giảm nhiễu nâng cao hiệu suất nhận dạng so sánh hiệu thuật toán. Nội dung đồ án gồm chương, chương giới thiệu hệ thống nhận dạng tiếng nói tự động, chương tóm tắt quy trình xử lý khối Front-end trình bày nguyên lý thuật toán giảm nhiễu, chương trọng vào lý thuyết mô hình Markov ẩn (HMM) cách giải toán HMM. Cuối Trang LỜI MỞ ĐÀU cùng, chương phần thực nhận dạng tiếng nói dựa sở liệu thực đánh giả kết nhận dạng. Đồ án thực sinh viên: Đinh Hữu Trọng: Lý thuyết nhận dạng tiếng nói, tổng quan hệ thống nhận dạng, Mô hình Markov ẩn ứng dụng, Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng, Xây dựng giao diện mô chạy demo LINUX. Nguyễn Thị Bích Ngọc: Lý thuyết nhận dạng tiếng nói, tổng quan hệ thống nhận dạng, Mô hình Markov ẩn ứng dụng, Khối Front-end thuật toán giảm nhiễu để nâng cao hiệu suất nhận dạng, Tìm hiểu tiêu chuẩn SFE, Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng. Phạm Quốc Việt: Lý thuyết nhận dạng tiếng nói, tổng quan hệ thống nhận dạng, Khối Front-end thuật toán giảm nhiễu để nâng cao hiệu suất nhận dạng, Tìm hiểu tiêu chuẩn AFE, Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng. Trang Chương 1: Lý thuyết nhận dạng tiếng nói CHƯƠNG 1: LÝ THUYẾT VỀ NHẬN DẠNG TIẾNG NÓI 1.1. Giới thiệu chương Phần đầu chương tóm lược cách khái quát đặc tính, chế tạo thành tiếng nói đồng thời đưa giới thiệu sơ lược hệ thống nhận dạng tiếng nói, bao gồm lịch sử phát triển lẫn cấu trúc, nguyên lý hoạt động ứng dụng thực tế. Phần chương sâu vào phân tích thuật toán, nguyên tắc số khối chức nhận dạng. Phần trang bị cho kiến thức cần thiết để hiểu rõ cách thức hoạt động nhận dạng. 1.2. Tiếng nói đặc tính tiếng nói 1.2.1. Cơ chế tạo thành tiếng nói Tiếng nói tạo thành từ tín hiệu sóng âm phát từ miệng mũi người nói, hỗ trợ loạt quan thể người, gồm: - Phổi đóng vai trò bơm không khí, tạo lượng hình thành âm. Các dây âm: hai nhỏ cuống họng, có hai đầu dính nhau, hai đầu dao động (thanh môn mở đóng lại) với tần số - (pitch/fundamental frequency) F0. Thanh quản vòm miệng: đóng vai trò giống hốc cộng hưởng, tạo phân biệt tần số tín hiệu dao động từ đôi dây âm phát ra. Đáp ứng tần số hốc cộng hưởng có nhiều đỉnh cộng hưởng khác gọi formant, chứa thành phần tần số quan trọng tín - hiệu tiếng nói. Miệng: đóng vai trò phát tán âm bên ngoài. Lưỡi: thay đổi để tạo tần số formant khác nhau. Khi nói, dòng không khí từ phổi, qua môn đến cổ họng, thoát miệng. Tùy thuộc vào chế phát âm, tín hiệu tiếng nói chia làm loại: Âm hữu (voiced sounds), cụ thể nguyên âm phụ âm hữu /b/, /d/, /g/, /v/, /z/, /m/, /n/, /l/, /r/, .được phát với rung động dây âm. Ngược lại âm phát mà rung động dây gọi âm vô (unvoiced), ví dụ /k/, /p/, /t/, /s/, . Trang Chương 1: Lý thuyết nhận dạng tiếng nói 1.2.2. Các đặc tính tiếng nói - Dải tần tín hiệu tiếng nói nằm khoảng từ kHz đến 20 kHz, nhiên phần lớn công suất tín hiệu tập trung vùng từ 0.3kHz đến 3.4 kHz. - Tần số trung tâm F0: Là tần số rung động môn, F0 tần số âm hữu thanh. F0 thay đổi theo điệu phụ thuộc giới tính, độ tuổi người nói. F0 nam giới khoảng 60-200 Hz, nữ giới trẻ em cỡ 300Hz cao hơn. - Tần số formant (còn gọi peak): Các tần số tương ứng với tần số cộng hưởng dao động từ đôi dây âm. Trong phổ tần số tín hiệu tiếng nói, formant đỉnh (biên độ lớn) biểu diễn thành phần tần số chủ chốt tiếng nói, mang thông tin để nhận diện âm. Vì đỉnh đường cong nối liền đỉnh, gọi đường bao phổ, đóng vai trò quan trọng nhận dạng tiếng nói. Tần số formant biến đổi dải rộng phụ thuộc vào giới tính, độ tuổi người nói, vào âm vị. 1.2.3. Biểu diễn tín hiệu tiếng nói - Trong khoảng thời gian đủ ngắn (khoảng từ đến 100ms), xem tín hiệu tiếng nói tín hiệu biến đổi chậm với đặc tính không biến đổi. Ngược lại, xét khoảng thời gian dài (cỡ 1/5 giây trở lên) đặc tính tiếng nói thay đổi tương ứng với âm nói. Ngoài ra, âm khác biến đổi tín hiệu diễn khác nhau. Ví dụ minh họa [1]: Trang Chương 1: Lý thuyết nhận dạng tiếng nói Hình 1.1. Dạng sóng câu nói “It’s time” Phần tín hiệu “S” khoảng 100ms ban đầu gần không đổi tương ứng với khoảng lặng (khi tiếng nói) có biên độ nhỏ. Với tín hiệu tiếng nói, phần khởi tạo thường biểu diễn dang khoảng lặng này. Tiếp đến, phần tín hiệu kí hiệu “U” biểu diễn cho âm vô /s/, /t/ ; kí hiệu “V” biểu diễn cho âm hữu /i/, /m/, /e/ ví dụ. - Cách thứ hai để mô tả đặc tính tiếng nói: biểu diễn dạng biên độ theo tần số, gọi phổ (spectrum). Để trực quan hơn, người ta sử dụng loại biểu đồ 3-D, tên gọi giản đồ phổ (spectrogram) để biểu thị cường độ tiếng nói theo thời gian, tần số khác nhau. Trong giản đồ phổ, âm hữu tuần hoàn với tần số F0. Vì phổ nguyên âm phổ vạch, khoảng cách vạch F 0. Với âm vô thanh, phổ tín hiệu có dạng gần giống nhiễu trắng, lượng phân bố vùng tần số cao. Phổ âm hữu thường tập trung nhiều lượng phổ âm vô thanh. Trang 10 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Các công cụ nhận dạng không xử lý trực tiếp tín hiệu giọng nói dạng sóng. Đồng thời liệu thô thường tốn nhiều nhớ yêu cầu tốc độ lưu trữ cao. Vì cần phải có có trình phân tích tín hiệu nhằm tối ưu hệ thống. Quá trình phân tích tín hiệu gồm bước sau : Tín hiệu phân chia thành khung ( độ dài khung thường chọn từ - 20ms đến 40ms). Các khung có phần chồng lấp với nhau. • Cửa sổ Hamming khung. • Rút hệ số véc-tơ âm từ khung cửa sổ. Để thực công việc ta sử dụng công cụ HCopy. HCopy thực chép vài thông tin đặc trưng cho tín hiệu từ file liệu sang file ngõ định sẵn, nói cách khác liệu tham số hóa. Ngoài ra, file ngõ hỗ trợ định dạng chuẩn HTK nên HCopy thực nhiệm vụ chuyển đổi file liệu ngõ vào thành file liệu định dạng chuẩn HTK. Cú pháp: HCopy [options] sa1 [ + sa2 + . ] ta [ sb1 [ + sb2 + . ] tb . ] Trong sa1, sa2,… file nguồn tương ứng với file ngõ ta sb1, sb2,….là file nguồn tương ứng với file ngõ tb. 4.2.3. Các công cụ dùng trình huấn luyện Hình. Các bước trình huấn luyện. Trang 60 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng 4.2.3. 1. HInit Được dùng để khởi tạo tham số cho HMM sử dụng tập chuỗi quan sát. Nó thực phép lặp cách sử dụng thuật toán Viterbi để chia chuỗi huấn luyện tính toán lại tham số . HInit sử dụng để cung cấp ước lượng ban đầu mô hình từ vựng trường hợp chuỗi quan sát từ vựng. Cú pháp HInit [options] hmm trainFiles . Phương sai giá trị trung bình HMM ước lượng nhiều lần sử dụng liệu trainFiles đạt số lần lặp lớn hay giá trị ước lượng hội tụ 4.2.3.2. HCompV Dùng để tính toán giá trị trung bình phương sai toàn cục tập liệu huấn luyện.Về bản,nó sử dụng để khởi tạo tham số HMM giống HInit tất giá trị trung bình phương sai thành phần thiết lập với giá trị trung bình phương sai toàn cục. HcompV sử dụng lượng liệu dùng để huấn luyện bị giới hạn nhận dạng môi trường có nhiễu. Cú pháp HCompV [options] [hmm] trainFiles . Trong đó:hmm tên HMM vật lý mà toàn thông số khởi tạo. Câu lệnh dùng để tính hiệp phương sai liệu huấn luyện tiếng nói chép vào thành phần HMM Gaussian. 4.2.3.3. Hrest Trang 61 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng HRest dùng thuật toán Baum-Welch ước lượng lại tham số HMM dùng tập chuỗi quan sát được. HRest sử dụng huấn luyện từ riêng rẻ mà chuỗi quan sát thể cho từ vựng tướng ứng. Cú pháp HRest [options] hmm trainFiles . Các tham số hmm ước lượng nhiều lần sử dụng liệu trainFiles đạt số lần lặp lớn hay giá trị ước lượng hội tụ. 4.2.4. Các công cụ dùng trình định nghĩa từ điển cấu trúc văn phạm 4.2.4.1. Hparse HParse tạo mạng lưới mức word từ file mô tả cú pháp, chứa tập quy tắc dựa dạng Backus-Naur mở rộng (EBNF). Các quy tắc EBNF sử dụng để tạo mạng lưới tương ứng với mạng trạng thái hữu hạn, nút mạng tạo HParse biễu diễn từ. Sau đó, mạng HParse chuyển thành mạng HTK V2 mức từ. Cú pháp HParse [options] syntaxFile latFile Trong : - Options : thiết lập lựa chọn ( có không ) - syntaxFile : File cú pháp - latFile : File mạng lưới tạo. Trang 62 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng 4.2.4.2. HSGen Tạo mẫu câu từ văn phạm từ điển khai báo, dùng để kiểm tra tính xác văn phạm tạo câu mẫu để test. Cú pháp HSGen [options] wdnet dictfile Trong đó: dictfile thư mục chứa tất từ sử dụng tạo nên hệ thống mạng từ lưu wdnet. 4.2.5. Công cụ dùng trình nhận dạng HVite HVite công cụ dùng để nhận dạng đoạn âm chưa biết. Có thể nhận dạng liệu tạo trước thực nhận dạng trực tiếp thông qua micro Cú pháp HVite [options] dictFile hmmList testFiles . 4.2.6. Công cụ dùng trình đánh giá hiệu suất nhận dạng HResults Là công cụ dùng để phân tích hiệu HTK. HResults đọc file nhãn so sánh với file chép nhận dạng tướng ứng. Cú pháp HResults [options] hmmList recFiles . HResults dùng cho recFiles . hmmList chứa danh sách tất mô hình có thông tin kết cần đánh giá. 4.3. Giới thiệu sở liệu AURORA-3 SpeechDat Car Mục đích việc lựa chọn Aurora-3 [11] để thử nghiệm muốn đánh giá hiệu làm việc khối front-end cở liệu thu thập từ môi trường thực tế. Cơ sở liệu Aurora3 - vốn từ vựng nhỏ trích từ tập sở liệu lớn tên SpeechDat Car - bao gồm chuỗi chữ số ghi âm môi trường thực bên xe hơi, kể nhiễu thực tế lẫn tác động lên Trang 63 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng kênh truyền, với loại ngôn ngữ: Italia, Đan Mạch, Đức, Phần Lan, Tây Ban Nha. Dữ liệu tiếng nói ghi âm điều kiện nhiễu khác lúc lái xe : nhiễu hoàn toàn, nhiễu mức cao nhiễu mức thấp. Mỗi lời nói ghi lại đồng thời hai mic: mic đặt gần (close-talk) mic để xa (hand-free) người nói. Tiếp đến, liệu tiếng nói phân loại thành phân mục : - Well-matched : Để thu liệu huấn luyện kiểm tra, người ta sử dụng mic đặt xa (nhận nhiều nhiễu so với mic đặt gần) xe chạy với tốc độ khác nhau. Cả pha huấn luyện lẫn pha kiểm tra thực điều kiện nhiễu nhau, nghĩa liệu hai pha có độ tương đồng cao (well-matched) cho hiệu suất nhận dạng tốt so với hai - phân mục lại, dùng thuật toán để đánh giá. Medium mismatch : hai tập liệu để huấn luyện kiểm tra thu từ môt mic đặt xa có mức nhiễu khác nhau: liệu có mức nhiễu thấp (lái xe tốc độ thấp) dùng cho pha huấn luyện liệu có mức - nhiễu cao (lái xe tốc độ cao) cho pha kiểm tra. High mismatch : Tập liệu để huấn luyện kiểm tra thu mic khác nhau, mức nhiễu cao thấp khác nhau. Cụ thể dùng mic đặt gần để thu kiệu huấn luyện mức nhiễu, dùng mic đặt xa để thu liệu cho pha kiểm tra hai điều kiện: nhiễu mức thấp mức cao. 4.4. Quy trình thực nghiệm Trong nghiên cứu này, khối front-end ETSI tiêu chuẩn hóa, bao gồm Standard front-end (SFE) [4] Advanced front-end (AFE) [5] kết hợp với nhận dạng tiếng nói HTK [10]. Hiệu suất nhận dạng đánh giá thông qua tỉ lệ nhận dạng từ (WRR) tỉ lệ xác từ (WAC). Các thuật toán trình bày tích hợp vào tầng tiền xử lý khối frontend. Hiệu thuật toán việc đem so sánh với kiểm chứng cách so sánh chúng với thân thuật toán dùng SFE AFE. Tất lượt kiểm tra thực sở liệu SpeechDat Car Aurora3 [11] gồm chuỗi số ghi âm hai micro đặt xe chạy tốc độ khác nhau. Dữ liệu Aurora3 chia thành điều Trang 64 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng kiện: hm (high - mismatch), mm (medium mismatch), wm (well-matched). Chúng dùng phân mục để thực hai chế độ kiểm tra wo wi, đó: - wo (without) : không huấn luyện lại mô hình âm học, nghĩa khử nhiễu - cho tập liệu kiểm tra mà không khử nhiễu cho tập huấn luyện. wi (with) : có huấn luyện lại mô hình âm học, tức khử nhiễu đồng thời cho tập huấn luyện lẫn tập kiểm tra. Ngoài ra, chế độ, lọc Wiener tầng – thuật toán giảm nhiễu dùng chuẩn AFE– thay thuật toán đề cập để có đánh giá hiệu nhận dạng chúng [12]. 4.5. Đánh giá kết thu 4.5.1. Điều kiện hm • Từ thiết lập trên, bảng hiệu suất nhận dạng thu qua lần kiểm tra: Bảng 1. WRR điều kiện hm Trang 65 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Bảng 2. WAC điều kiện hm Trong lần kiểm tra với điều kiện hm, từ bảng kết nhận dạng, nhận thấy:  Khi sử dụng thuật toán giảm nhiễu kết hợp SFE tầng tiền xử lí khối front-end cho file kiểm tra (wo_SFE) WRR/WAC tăng lên không đáng kể so với không sử dụng (wo.NR) sử dụng đồng thời file kiểm tra file huấn luyện (wi_SFE) WRR/WAC tăng rõ rệt, chẳng hạn từ 66.70/63.23(%) lên 78.49/76.50(%) thuật toán MMSE_MS, 71.83/70.59(%) thuật toán MMSE_STSA85, 69.47/68.41(%) thuật toán WienerFilter. Nếu kết hợp với AFE (wi_AFE) hiệu suất cải thiện lên nhiều, chẳng hạn tăng từ 66.70/63/23% lên 86.77/85.71% dùng MMSE_MS hay 86.03/85.38(%) thuật toán MMSE_STSA84,  WRR/WAC dùng AFE cao nhiều so với dùng SFE, tăng lên từ 66.70/63.13(%) đến 89.78/89.45(%). Nguyên nhân khối làm việc giống với SFE, AFE tích hợp thêm số bước xử lý làm mịn dạng sóng, cân mù để chống méo kênh,…nên cho hiệu tốt hơn.  Khi dùng wi_AFE tỉ lệ WRR/WAC cao nhiều so với wo_AFE cụ thể thuật toán MMSE_MS tăng lên 85.80/81.41(%) so với 86.77/85.71(%), tăng từ 84.14/82.70% đến 86.03/85.38% thuật toán MMSE_STSA84 từ 80.71/79(% ) đến 85.89/85.01(%) thuật toán MMSE_STSA85, dùng WienerFilter tăng từ 62.53/57.31(%) đến 84.55/83.07(%). Trang 66 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng  Xét riêng thuật toán, nhìn chung WRR/WAC kiểu wi cao wo. Điều lý giải việc giảm nhiễu tập huấn luyện tập kiểm tra làm tăng độ tương quan chúng. Thuật toán MMSE-MS xét tổng thể cho hiệu cao so với thuật toán lại, tiêu chuẩn ETSI. Điều chứng tỏ cho tối ưu giải pháp ước lượng nhiễu không dùng VAD MMSE-MS. Hai thuật toán MMSESTSA84 MMSE-STSA85 áp dụng kiểu wi cho hiệu xấp xỉ nhau. Trong đó, thuật toán Wiener dùng wo lại cho hiệu suất thấp không giảm nhiễu (WRR 42.51% so với 66.70% WAC 41.44% so với 63.23% wo.NR). Chúng cho rằng, thuật toán có hàm độ lợi VAD hoạt động không hiệu quả, khiến số khung tiếng nói bị hiểu nhầm nhiễu bị loại bỏ, khiến độ bất tương đồng file huấn luyện file test tăng cao, làm từ nhận dạng đầu không xác. 4.5.2. Điều kiện mm Bảng 3. WRR điều kiện mm Trang 67 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Bảng 4. WAC điều kiện mm Khi sử dụng wo_SFE hiệu suất nhận dạng bị giảm so với wo.NR, cụ thể giảm từ 78.48/76.43% xuống 74.96/72.55% thuật toán MMSE_STSA85, thuật toán WienerFilter giảm xuống đến 20.50/20.08%. Khi kết hợp với AFE(wo_AFE) hiệu suất tăng lên đáng kể, tăng từ 78.48/76.43% đến 84.92/78.33% thuật toán MMSE_MS đến 83.09/81.11% thuật toán MMSE_STSA84. Đặc biệt giảm nhiễu kết hợp AFE cho file huấn luyện file kiểm tra hiệu suất tăng lên cao 88.85/83.24(%) so với 78.48/76.43(%) (wo.NR) thuật toán MMSE_MS, 82.50/81.11(%) so với 78.48/76.43(%) thuật toán MMSE_STSA85,….  WRR/WAC dùng AFE cao nhiều so với dùng SFE, tăng lên  từ 78.48/76.43% đến 89.53/89.02%. Xét riêng thuật toán, nhìn chung WRR/WAC kiểu wo cao thấp so với wi, chẳng hạn thuật toán MMSE_STSA tỉ lệ WRR/WAC wo_SFE 74.96/72.55 (%) so với 77.23/76.43 (%) wi_SFE thuật toán MMSE_SA wi_SFE lại giảm  81.04/69.40 (%) xuống 80.67/79.28(%). Qua nhận xét ta thấy thuật toán giảm nhiễu phát huy hiệu cao điều khiện hm so với điều kiện mm. 4.5.3. Điều kiện hm Trang 68 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Bảng 5. WRR điều kiện wm Bảng 6. WAC điều kiện wm  Khi sử dụng wi_SFE hiệu suất gần không đổi so với trường hợp wo_SFE wo.NR, cụ thể 90.48/87.92 (%) so với 91.10/85.35(%) thuật toán MMSE_MS, giá trị thuật toán MMSE_STSA84  89.94/86.60 (%),… Trong điều kiện wm file huấn luyện file kiểm tra có độ tương quan cao nên tỉ lệ WRR/WAC cao, wi_AFE dùng thuật toán Trang 69 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng MMSE_MS WRR/WAC 94.67/93.41 (%), 95.55/94.65 (%)  wi_AFE không dung thuật toán giảm nhiễu. Xét riêng thuật toán kiểu wi wo cho kết nhận dạng gần tương đương nhau: MMSE_MS wo_AFE 92.83/88.62 (%) so với 94.67/83.41(%) wi_AFE, thuật toán MMSE_STSA84 91.66/88.8(%) so với 93.17/90.94 (%),… 4.5.4. Giao diện đồ họa Được xây dựng tảng LINUX, sử dụng công cụ Perl/Tk, gồm phần:  Phần giảm nhiễu cho file ghi âm tiếng nói thuật toán nêu trên.  Phần nhận dạng tiếng nói.  Phần hiển thị kết nhận dạng. Giao diện người dùng có dạng sau: Hình 4.1. Giao diện kiểm tra thuật toán Wiener Trang 70 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Hình 4.2. Giao diện kiểm tra thuật toán MMSE-STSA85 4.5.5. Nhận xét chung Với kết trên, nhận thấy hiệu suất nhận dạng sử dụng phương pháp khử nhiễu điều kiện mm wm có cải thiện không tốt so với không dùng thuật toán nào.Trong đó, điều kiện hm, vài thuật toán, hiệu suất có giảm nhiễu nhiều không giảm nhiễu đến 12%. Điều có nghĩa việc giảm nhiễu thực phát huy tác dụng liệu điều kiện hm. Tuy nhiên, không hẳn tất trường hợp dùng thuật toán nén nhiễu cho kết mong đợi, đặc biệt không huấn luyện lại mô hình âm học. Cụ thể, trường hợp mm, với giải thuật Wiener, WRR/WAC 20.05/20.08 (%), trường hợp wm, WRR/WAC có 73.39/70.73 (%), thấp wo.NR nhiều. 4.6. Kết luận chương Chương trình bày thiết lập cần phải có tiến hành kiểm tra tiêu chuẩn thuật toán nén nhiễu dựa vào phần mềm HTK sở liệu thực nghiệm Aurora 3, nhằm thu kết chân thực khách quan. Thông qua Trang 71 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng kết đó, vai trò khối giảm nhiễu tích hợp nhận dạng tiếng nói hiệu thuật toán bộc lộ rõ nên việc so sánh chúng trở nên trực quan dễ dàng. Từ nhận thấy thuật toán giảm nhiễu cho hiệu khác điều kiện không giống nhau, cụ thể hm, mm, wm. Trong đó, thuật toán nêu thực phát huy tác dụng điều kiện hm (bằng chứng hiệu suất giảm nhiễu tăng so với không giảm nhiễu có trường hợp lên đến 12%), hai điều kiện mm wm hiệu suất nhận dạng không tăng nhiều. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI Các hệ thống nhận dạng tiếng nói (ASR) sử dụng gần gũi với đời sống người. Tính đa dạng mục đích sử dụng đồng nghĩa với việc tồn ứng dụng đòi hỏi ASR phải có độ ổn định tính xác cao làm việc môi trường bất lợi. Vì vậy, nhiều kĩ thuật xử lý tiếng nói nghiên cứu nhằm cải thiện hiệu suất hoạt động chúng. Trong khuôn khổ đề tài, nhóm chọn nghiên cứu phương pháp giảm nhiễu cách tích hợp thuật toán nén nhiễu vào tầng tiền xử lý nhận dạng tiếng nói HTK tìm hiểu tiêu chuẩn DSR ETSI. Qua tiến hành kiểm tra sở liệu thực để đánh giá hiệu suất tiêu chuẩn, thuật toán, đồng thời so sánh chúng với nhau. Từ kết thực nghiệm thu được, rút số nhận xét sau:  Việc áp dụng thuật toán giảm nhiễu cải thiện đáng kể hiệu  suất nhận dạng tiếng nói môi trường nhiều nhiễu tiếng ồn. Các thuật toán tích hợp vào khối front-end AFE (khi không dùng lọc Wiener tầng) cho hiệu suất cao tích hợp vào SFE. Trang 72 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng   Việc xử lý nhiễu có ý nghĩa thực điều kiện hm. Trong thuật toán đem kiểm tra, MMSE_MS cho kết nhận dạng cao nhất, xấp xỉ với giải thuật Wiener tầng chuẩn AFE ETSI đề  xuất cao so với chuẩn SFE. Những giải thuật lại cho kết tốt có huấn luyện lại  mô hình âm học. Quá trình giảm nhiễu có khả làm biến đổi tiếng nói nên kết thu trường hợp không huấn luyện lại mô hình âm học không cao mong đợi. Từ đó, đề nghị nên áp dụng giải thuật vào khối front-end giống AFE, nhận dạng nên huấn luyện lại mô hình âm học để có hệ thống nhận dạng bền vững với môi trường nhiễu, đạt mục tiêu mà đề tài hướng tới. Với mong muốn phát triển đề tài lên cao hơn, số hướng giải vạch ra:  Trong thuật toán MMSE-STSA 84, lọc Wiener, tối ưu hóa kĩ thuật VAD, sử dụng phương pháp ước lượng nhiễu tốt hơn, trường hợp MMSE-MS, hiệu nhận dạng cải thiện nhiều  nữa. Trong trình kiểm tra, nhận thấy có trường hợp cho hiệu suất nhận dạng cao, cho thuật toán kết hợp với khối AFE, giữ nguyên lọc Wiener tầng không huấn luyện lại mô hình âm học, điều thể qua bảng sau: WRR/WAC (%) hm mm wm MMSE-MS 93.05/90.16 85.94/84.11 93.73/91.79 MMSE-STSA84 MMSE-STSA85 92.91/90.36 82.47/81.91 83.89/82.87 82.21/81.26 92.33/90.20 91.12/88.64 Bộ lọc Wiener 72.06/68.92 64.20/56.00 77.86/69.49 Chúng tiếp tục nghiên cứu kĩ trường hợp để có  lý giải hợp lý hướng đề xuất tốt sau này. Xây dựng nhận dạng tiếng nói bền vững dựa sở liệu tiếng Việt. Trang 73 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng  Ứng dụng hệ thống ASR vào nhà thông minh, cho phép điều khiển qua mạng internet với độ xác cao. TÀI LIỆU THAM KHẢO [1] Lawrence R. Rabiner, Fellow, IEEE, “a Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, IEEE, Vol.77, No.2, February 1989. [2] Jacob Benesty, M. Mohan Sondhi, Yiteng Huang, “Springer Handbook of Speech Processing”, Springer, 2008. [3] Xuedong Huang, Alex Acen, Hsiao-wuen Hon, “Spoken Language Processing, a Guide to Theory, Algorithm, and System Development”, Prentice Hall, Inc, 2001. [4] ETSI ES 201 108 V1.1.1 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Front-end feature extraction algorithm, Compression algorithms, ETSI, 2000. [5] ETSI ES 202 050 V1.1.3 Speech Processing, Transmission and Quality Aspects (STQ), Distributed speech recognition, Advanced front-end feature extraction algorithm, Compression algorithms, ETSI, 2003. [6] J. Benesty, S. Makino, J. Chen, “Speech Enhancement”, Springer, 2005. [7] Yariv Ephraim, David Malah, “Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans. Trang 74 Chương 4: Nhận dạng tiếng nói phần mềm HTK đánh giá hiệu suất nhận dạng Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No.6, December, 1984. [8] Yariv Ephraim, David Malah, “Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator”, IEEE Trans. Acoustics, Speech, and Signal Processing, Vol. ASSP-33, No.2, April, 1985. [9] Rainer Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics, IEEE Trans. Speech and Audio Processing, Vol.9, No.5, July, 2001 [10] S. Young and et. al., The HTK Book (for HTK Version 3.3). Microsoft Corporation Cam-bridge University, Engineering Department, Cambridge University, 2005. [11] “AURORA Project Database - Subset of SpeechDat-Car German database (AURORA/CD0003-03),” Evaluations and Language resources Distribution Agency, Tech. Rep., 2001. [12] Phạm Văn Tuấn, Hoàng Lê Uyên Thục, “Giải pháp giảm nhiễu miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động”, số 4(39), 2010. [13] Lawrence R. Rabiner and Ronald W. Schafer, “Introduction to Digital Speech Processing”, Vol.1, No.1-2, 2007. Trang 75 [...]... dạng Trang 20 Chương 2: Khối Front-end và các thuật toán giảm nhiễu để tăng hiệu suất bộ nhận dạng CHƯƠNG 2: KHỐI FRONT-END VÀ CÁC THUẬT TOÁN GIẢM NHIỄU ĐỂ TĂNG HIỆU SUẤT BỘ NHẬN DẠNG 2.1 Giới thiệu chương Chương này sẽ giới thiệu các phương pháp xử lý tiếng nói trong khối frontend của bộ nhận dạng tiếng nói tự động (ASR) nhằm mục đích xây dựng một bộ nhận dạng tiếng nói bền vững trong môi trường nhiễu. ..Chương 1: Lý thuyết nhận dạng tiếng nói 1.3 Hệ thống nhận dạng tiếng nói 1.3.1 Nhận dạng tiếng nói là gì? Nhận dạng tiếng nói là quá trình xử lý tiếng nói nhằm biến đổi tín hiệu tiếng nói được ghi âm thành chuỗi các từ hoặc phiên âm của các từ một cách chính xác và hiệu quả Các từ này được đem so sánh với các từ đã được huấn luyện và lưu trữ trong bộ nhớ trước đó để cho ra kết quả nhận dạng 1.3.2 Lịch... dạng tiếng nói 1.3.3 Các nguyên tắc cơ bản trong nhận dạng tiếng nói Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: • Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói. .. dụng của nhận dạng tiếng nói trong thực tế - Trong chăm sóc sức khỏe: Thực hiện nhận dạng tiếng nói ở đầu hoặc đầu cuối trong tiến trình xử lý các văn bản dùng cho y khoa, ví dụ đơn thuốc, bảng theo dõi sức khỏe, - Nhận dạng đầu vào: Khi người dùng ra lệnh cho bộ nhận dạng, từ cần nhận dạng sẽ hiển thị ngay sau khi nói, người dùng có thể chỉnh sửa ngay trên văn bản được hiển thị - Nhận dạng đầu cuối:... của một chuỗi từ Trong nhận dạng tiếng nói, xây dựng mô hình ngôn ngữ đồng nghĩa với việc ước lượng được chính xác P(Wi), tức là xác suất để từ cần nhận dạng là Wi Mô hình ngôn ngữ quan trọng đối với việc nhận dạng tiếng nói ở chỗ có thể hạn chế được số lượng kết hợp giữa các từ trong ngôn ngữ nói Nhờ đó, không gian tìm kiếm sẽ giảm đáng kể nên tốc độ và độ chính xác của nhận dạng tăng lên nhiều, đặc... cơ sở dữ liệu Aurora, với nhiều ngôn ngữ nói như tiếng Đức, tiếng Tây Ban Nha, tiếng Ý, Đây là chuẩn DSR đầu tiên được ETSI đề xuất, và tuy hoạt động tốt với tiếng nói ‘sạch’, không méo, ở những nơi có nhiễu nền rất thấp, SFE lại bộc lộ điểm yếu khi được áp dụng ở những môi trường bị tác động mạnh bởi nhiễu Vì thế, thay vì dừng lại ở chuẩn này, ETSI dùng SFE như nền tảng để xây dựng các tiêu chuẩn tốt... vai trò của quá trình giảm nhiễu với các frame chỉ có tín hiệu nhiễu và giảm vai trò của quá trình giảm nhiễu với frame chứa tín hiệu tiếng nói Độ lợi của bộ lọc Wiener tầng 2 sẽ được nhân với hệ số : với 0 ≤ k ≤ KFB+1 (2.33) có giá trị từ 0,1 0,8, có nghĩa là với những frame có nhiễu và tiếng nói thì vai trò của bộ lọc Wiener tầng 2 sẽ giảm đi 10% , với những frame chỉ có nhiễu thì độ lợi giảm 80%... không lẫn tạp âm làm dữ liệu cho việc nhận dạng Các thuật toán nén nhiễu đầu vào sẽ được triển khai ở khối này, góp phần cải thiện hiệu suất nhận dạng trong môi trường có nhiễu, đồng thời giúp hướng tới mục tiêu nhận dạng tiếng nói bền vững 1.3.4.3 Trích chọn đặc trưng Đúng như tên gọi, khối này làm nhiệm vụ rút trích ra các đặc trưng, các thông tin quan trọng của tiếng nói để giảm bớt lượng dữ liệu không... việc mong muốn Tuy nhiên, việc nhận dạng không hề đơn giản, nó phức tạp bởi những biến thể của tiếng nói, ví dụ ngữ điệu, âm vực, điều kiện sức khỏe, giới tính, độ tuổi của người nói Hiệu suất của bộ nhận dạng phụ thuộc nhiều yếu tố như kích cỡ bộ từ vựng, hệ thống là độc lập hay phụ thuộc người nói, là nhận dạng từ đơn hay tiếng nói liên tục, Vì thế, việc nghiên cứu và xây dựng được những hệ thống như... thông tin về âm học là không rõ ràng 1.3.4 Mô hình tổng quát của hệ thống nhận dạng tiếng nói 1.3.4.1 Cấu trúc của bộ nhận dạng Cấu trúc của một bộ nhận dạng tiếng nói thường bao gồm các khối chức năng được biểu diễn như ở hình 1.3 Các khối này được chia thành 2 khối lớn hơn: khối Trang 13 Chương 1: Lý thuyết nhận dạng tiếng nói front-end bao gồm có khối tiền xử lý và khối trích chọn đặc trưng, khối . 1: Lý thuyết nhận dạng tiếng nói 1.3. Hệ thống nhận dạng tiếng nói 1.3.1. Nhận dạng tiếng nói là gì? Nhận dạng tiếng nói là quá trình xử lý tiếng nói nhằm biến đổi tín hiệu tiếng nói được ghi. Lý thuyết nhận dạng tiếng nói Hình 1.2. Quá trình phát triển của hệ thống nhận dạng tiếng nói 1.3.3. Các nguyên tắc cơ bản trong nhận dạng tiếng nói Các nghiên cứu về nhận dạng tiếng nói dựa trên. sánh với các từ đã được huấn luyện và lưu trữ trong bộ nhớ trước đó để cho ra kết quả nhận dạng. 1.3.2. Lịch sử phát triển của các hệ thống nhận dạng tiếng nói Công nghệ nhận dạng tiếng nói tự động

Ngày đăng: 22/09/2015, 12:25

Xem thêm: XÂY DỰNG bộ NHẬN DẠNG TIẾNG nói tự ĐỘNG bền VỮNG với môi TRƯỜNG NHIỄU, XÂY DỰNG bộ NHẬN DẠNG TIẾNG nói tự ĐỘNG bền VỮNG với môi TRƯỜNG NHIỄU, CHƯƠNG 1: LÝ THUYẾT VỀ NHẬN DẠNG TIẾNG NÓI, Các bước thực hiện thuật toán, CHƯƠNG 2: KHỐI FRONT-END VÀ CÁC THUẬT TOÁN GIẢM NHIỄU ĐỂ TĂNG HIỆU SUẤT BỘ NHẬN DẠNG, CHƯƠNG 3: MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI, CHƯƠNG 4: NHẬN DẠNG TIẾNG NÓI BẰNG PHẦN MỀM HTK VÀ ĐÁNH GIÁ HIỆU SUẤT NHẬN DẠNG., Bảng 6. WAC trong điều kiện wm

XÂY DỰNG bộ NHẬN DẠNG TIẾNG nói tự ĐỘNG bền VỮNG với môi TRƯỜNG NHIỄU

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CAM ĐOAN

CÁC TỪ VIẾT TẮT………………….…………………………………………….…...1

LỜI MỞ ĐẦU……………...……………………………………………………………..2

CÁC TỪ VIẾT TẮT

LỜI MỞ ĐẦU

CHƯƠNG 1: LÝ THUYẾT VỀ NHẬN DẠNG TIẾNG NÓI

1.1. Giới thiệu chương

1.2. Tiếng nói và các đặc tính cơ bản của tiếng nói

1.2.1. Cơ chế tạo thành tiếng nói

1.2.2. Các đặc tính của tiếng nói

1.2.3. Biểu diễn tín hiệu tiếng nói

1.3. Hệ thống nhận dạng tiếng nói

1.3.1. Nhận dạng tiếng nói là gì?

1.3.2. Lịch sử phát triển của các hệ thống nhận dạng tiếng nói

1.3.3. Các nguyên tắc cơ bản trong nhận dạng tiếng nói

1.3.4. Mô hình tổng quát của hệ thống nhận dạng tiếng nói

1.3.4.1. Cấu trúc của bộ nhận dạng

1.3.4.2. Khối tiền xử lý

1.3.4.3. Trích chọn đặc trưng

1.3.4.4. Mô hình âm học (Acoustic Model)

Tài liệu cùng người dùng

Tài liệu liên quan