Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng việt từ vựng lớn phát âm liên tục (TT)

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGUYỄN VĂN HUY NGHIÊN CỨU MÔ HÌNH THANH ĐIỆU TRONG NHẬN DẠNG TIẾNG VIỆT TỪ VỰNG LỚN PHÁT ÂM LIÊN TỤC Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62460110 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI – 2016 Công trình hoàn thành tại: Học Viện Khoa học Công nghệ, Viện Hàn Lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS TS Lương Chi Mai Người hướng dẫn khoa học 2: TS Vũ Tất Thắng Phản biện 1: PGS TS Nguyễn Quốc Cường Phản biện 2: PGS TS Nguyễn Phương Thái Phản biện 3: PGS TS Lê Thanh Hương Luận án bảo vệ trước Hội đồng chấm luận án cấp Học Viện họp tại: Học viện Khoa học Công nghệ-Viện Hàn lâm Khoa học Công nghệ Việt Nam Vào hồi… giờ, ngày… tháng… năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Thư viện Học viện Khoa học Công nghệ Danh mục công trình khoa học công bố tác giả cộng A Tạp chí quốc gia Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Áp dụng Bottle neck Feature cho nhận dạng tiếng nói tiếng Việt, Journal of Computer Science and Cybernetics, Vietnam, ISSN 1813-9663, Vol 29, No 4, Oct-2013 Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Do Quoc Truong, Vietnamese recognition using tonal phoneme based on multi space distribution, Journal of Computer Science and Cybernetics, Vietnam, ISSN 1813-9663, Vol 30, No 1, Jan-2014 Nguyễn Văn Huy, Nâng cao chất lượng đặc trưng bottle neck cho nhận dạng tiếng nói tiếng Việt, Tạp chí Khoa học Công nghệ Đại học Thái Nguyên, ISSN 1859-2171, Tập 137, Số 07, 2015 B Hội thảo quốc tế Kevin Kilgour, Christian Mohr, Michael Heck, Quoc Bao Nguyen, Van Huy Nguyen, Evgeniy Shin, Igor Tseyzer, Jonas Gehring, Markus Muller, Matthias Sperber, Sebastian Stuker and Alex Waibel , The 2013 KIT IWSLT Speech-to-Text Systems for German and English, International Workshop on Spoken Language Translation (IWSLT), Germany, Dec-2013 Jonas Gehring, Kevin Kilgour, Quoc Bao Nguyen, Van Huy Nguyen, Florian Metze, Zaid A W Sheikh, Alex Waibel , Models of tone for tonal and non-tonal languages, IEEE Automatic Speech Recognition and Understanding (ASRU), Czech Republic, Dec-2013 Nguyen Van Huy, Luong Chi Mai, Vu Tat Thang, Adapting bottle neck feature to multi space distribution for Vietnamese speech recognition, Conference of the Oriental chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (OCOCOSDA), Phuket-Thailan, Oct-2014 Van Huy Nguyen, Chi Mai Luong, Tat Thang Vu, Tonal phoneme based model for Vietnamese LVCSR, IEEE Conference of the Oriental chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (OCOCOSDA), Shanghai-China, Oct-2015 Van Huy Nguyen, Quoc Bao Nguyen, Tat Thang Vu, Chi Mai Luong, The IOIT English ASR system for IWSLT 2015, International Workshop on Spoken Language Translation (IWSLT), Da Nang, Vietnam, Dec-2015 Lời nói đầu Tiếng Việt có sáu điệu, cách tổng quát coi âm tiết có sáu ý nghĩa khác ghép tương ứng với sáu điệu Việc nhận dạng tiếng Việt có điệu công việc khó điệu tồn vùng âm hữu Các nghiên cứu bước chủ yếu áp dụng cho tiếng nói rời rạc, lượng từ vựng nhỏ cỡ vài trăm từ Từ lý cấp thiết chọn đề tài “Nghiên cứu mô hình điệu nhận dạng tiếng Việt từ vựng lớn phát âm liên tục” Với mục tiêu nghiên cứu vấn đề nhận dạng tiếng nói tiếng Việt từ vựng lớn phát âm liên tục, nghiên cứu vấn đề mô hình điệu cho tiếng Việt Nội dung luận án trình bày thành chương với nội dung sau: Chương 1: Giới thiệu tổng quan nhận dạng tiếng nói ứng dụng Tình hình nghiên cứu tổng quan nhận dạng tiếng nói nói chung nhận dạng tiếng Việt nói tiêng Giới thiệu mục tiêu nghiên cứu luận án; Chương 2: Mô hình nhận dạng tiếng Việt từ vựng lớn phát âm liên tục có điệu Hệ thống nhận dạng sở; Chương 3: Trình bày mô hình điệu sử dụng MSD-HMM cho nhận dạng tiếng Việt có điệu; Chương 4: Trình bày phương pháp tăng cường đặc trưng ngữ âm cho tiếng Việt sử dụng mạng nơron; Chương 5: Trình bày phương pháp tăng cường đặc trưng điệu tiếng Việt mô hình tích hợp MSD-HMM với Bottleneck Thái Nguyên, ngày 27 tháng 02 năm 2016 Nguyễn Văn Huy Mục lục Danh mục công trình khoa học công bố tác giả cộng Lời nói đầu Mục lục Danh mục từ viết tắt Danh mục bảng biểu Danh mục hình ảnh Chương 1: Mở đầu 1.1 Tóm tắt chương 1.2 Tổng quan nhận dạng tiếng nói 1.3 Các thành phần hệ thống nhận dạng tiếng nói 1.4 Đánh giá chất lượng hệ thống nhận dạng tiếng nói 1.5 Tình hình nghiên cứu nhận dạng tiếng nói 1.6 Nhận dạng tiếng nói tiếng Việt nghiên cứu 1.7 Một số nghiên cứu gần ngôn ngữ có điệu 1.8 Kết luận nội dung nghiên cứu luận án Chương 2: Mô hình điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục 2.1 Tóm tắt chương 2.2 Tổng quan tiếng Việt 2.3 Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn 2.4 Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn có điệu 10 2.5 Thuật toán tạo từ điển ngữ âm tự động có điệu cho tiếng Việt (VN-G2P) 10 2.6 Dữ liệu thử nghiệm 10 2.7 Tổng quan công cụ HTK& HTS cho nhận dạng tiếng nói 11 2.8 Thử nghiệm mô hình điệu (Hệ thống nhận dạng sở Baseline) 11 2.9 Thử nghiệm mô hình có điệu 11 2.10 Kết luận chương 11 Chương 3: Mô hình điệu sử dụng MSD cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục 12 3.1 Tóm tắt chương 12 3.2 Vai trò đặc trưng điệu 12 3.3 Đặc trưng điệu vấn đề không liên tục 12 3.4 Tổng quan mô hình MSD-HMM 13 3.5 Các nghiên cứu công bố áp dụng MSD-HMM nhận dạng tiếng nói 13 3.6 Chuẩn hóa đặc trưng AMDF NCC cho mô hình MSD-HMM 13 3.7 Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có điệu 14 3.8 Cài đặt thử nghiệm kết 14 3.9 Kết luận chương 14 Chương 4: Tăng cường đặc trưng ngữ âm sử dụng mạng nơron 15 4.1 Tóm tắt chương 15 4.2 Tổng quan mạng nơron MLP (Multilayer Perceptron) 15 4.3 Ứng dụng mạng nơron nhận dạng tiếng nói 15 4.4 Trích chọn đặc trưng Bottleneck sử dụng mạng MLP 15 4.5 Cài đặt thử nghiệm 15 4.6 Tối ưu đặc trưng Bottleneck 16 4.7 Kết luận chương 16 Chương 5: Cải tiến đặc trưng điệu sử dụng mạng nơron mô hình tích hợp MSD-HMM với Bottleneck 17 5.1 Tóm tắt chương 17 5.2 Trích chọn đặc trưng điệu sử dụng mạng nơron 17 5.3 Gán nhãn liệu 17 5.4 Lựa chọn cấu hình mạng MLP 18 5.5 Thử nghiệm đặc trưng TBNF-MSD với mô hình MSD-HMM 18 5.6 Mô hình tích hợp BNF, TBNF-MSD MSD-HMM 18 5.7 Kết luận chương 18 Kết luận 19 Các đóng góp luận án 24 Danh mục từ viết tắt TT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 Viết tắt ACC AMDF BN BNF CV DCT DFT DNN F0 FST G2P GMM GPU HMM HTK HTS IDFT IOIT2013 IPA LDA LM MFCC MLLT MLP MSD NCC NN NoTone P PLP T1 T2 T3 T4 T5 T6 TBNF VN-G2P VoiceTra VOV WER Δ Nghĩa Accuracy Average Magnitude Difference Function Bottleneck Bottleneck Feature Cross Validation Accuracy Discrete cosine transform Discrete Fourier transform Deep Neural Network Fundamental Frequency Finite-State Transducer Grapheme to Phoneme Gaussian Mixture Model Graphical processing unit Hidden Markov Model Hidden Markov Model Toolkit HMM-based Speech Synthesis System Invert Discrete Fourier transform Institute Of Information and Technology 2013 International Phonetic Alphabet Linear Discriminant Analysis Language Model Mel Frequency Cepstral Coefficients Maximum Likelihood Linear Transform Multilayer Perceptron Multispace Distribution Normalized Cross-Correlation Neural Network No tone Pitch Perceptual Linear Prediction Tone Tone Tone Tone Tone Tone Tonal Bottleneck Feature Vietnamese Grapheme to Phoneme Voice Translation Voice Of Vietnam Word Error Rate Delta Danh mục bảng biểu Bảng 2-1: Cấu trúc âm tiết tiếng Việt Bảng 2-3: Tập âm vị ngữ âm tiếng Việt Bảng 2-5: Dữ liệu huấn luyện 10 Bảng 2-6: Dữ liệu thử nghiệm 11 Bảng 2-8: Kết nhận dạng hệ thống sở 11 Bảng 2-9: Kết thử nghiệm VN-G2P 11 Bảng 2-10: Kết thử nghiệm với Kaldi tập liệu lớn 11 Bảng 3-1: Kết thử nghiệm Pitch MFCC/PLP với HMM 14 Bảng 3-2: Kết thử nghiệm mô hình MSD-HMM 14 Bảng 4-2: Kết thử nghiệm đặc trưng BNF 16 Bảng 5-3: Kết thử nghiệm TBNF-MSD với MSD-HMM 18 Bảng 5-4: Kết thử nghiệm MSD-HMM với đặc trưng BNF13+TBNF-MSD3 18 Danh mục hình ảnh Hình 1-1: Sơ đồ khối tổng quan hệ thống nhận dạng tiếng nói Chương 1: Mở đầu 1.1 Tóm tắt chương Giới thiệu tổng quan nhận dạng tiếng nói ứng dụng, vấn đề khó khăn cần giải lĩnh vực nhận dạng tiếng nói, tổng quan tình hình nghiên cứu nước nội dung phạm vi nghiên cứu luận án 1.2 Tổng quan nhận dạng tiếng nói 1.2.1 Nhận dạng tiếng nói Công thức (1.1) [Jurafsky 2008] mô tả mô hình toán học hệ thống nhận dạng tiếng nói theo nguyên lý xác suất Bayes ( | ) ( ) ̂ ( | ) (1.1) ( ) 1.2.2 Ứng dụng Nhận dạng tiếng nói ứng dụng cho nhiều lĩnh vực sống quân sự, giải trí, ý tế, giáo dục,… để xây dựng phần mềm dịch tiếng nói, tương tác người máy,… 1.2.3 Các vấn đề nhận dạng tiếng nói Các vấn đề ảnh hưởng đến độ xác hiệu suất làm việc hệ thống nhận dạng tiếng nói [Tebelskis 1995] [Đức 2003] [Jurafsky 2008] [Lei 2006] kể đến vấn đề thuộc người nói, tốc độ nói, kích thước từ vựng, nhiễu, … 1.3 Các thành phần hệ thống nhận dạng tiếng nói Tín hiệu tiếng nói (speech) Trích chọn đặc trưng Mô hình ngôn ngữ P(W) Mô hình âm học P(O|W) Giải mã Decoder Từ điển ngữ âm Văn (W) Hình 1-1: Sơ đồ khối tổng quan hệ thống nhận dạng tiếng nói 1.4 Đánh giá chất lượng hệ thống nhận dạng tiếng nói Chất lượng hệ thống nhận dạng đánh giá qua tham số độ xác theo từ ACC WER [Jurafsky 2008] 1.5 Tình hình nghiên cứu nhận dạng tiếng nói 1) Về trích chọn đặc trưng Hai loại đặc trưng sử dụng phổ biến hệ thống nhận dạng tiếng nói phát âm liên tục từ vựng lớn Melfrequency cepstral coefficients (MFCC) Perceptual Linear Prediction (PLP) [Muda 2010] [Florian 2005] 2) Về mô hình âm học Hai loại mô hình thống kê sử dụng phổ biến nhận dạng tiếng nói là: – Mô hình Markov ẩn; – Mô hình mạng nơron (NN) 3) Về mô hình ngôn ngữ Hiện phương pháp xây dựng mô hình ngôn ngữ (Language Model) thường dựa kỹ thuật mô hình ngram mạng nơron 4) Về giải mã Các giải mã hệ thống nhận dạng tiếng nói chủ yếu dựa thuật toán tìm kiếm Viterbi Một số nghiên cứu gần đưa kỹ thuật để tăng tốc độ tìm kiếm giảm dung lượng nhớ 1.6 Nhận dạng tiếng nói tiếng Việt nghiên cứu Tiếng Việt ngôn ngữ có điệu, hệ thống nhận dạng đầy đủ phải bao gồm thành phần nhận dạng âm vị nhận dạng điệu Đã có số nghiên cứu nhận dạng điệu cho tiếng nói tiếng Việt, nhiên nghiên cứu chủ yếu tập trung vào việc phân tích đặc tính tìm mô hình phù hợp việc mô hình hóa nhận dạng điệu đơn lẻ Tất nghiên cứu công bố cho nhận dạng tiếng nói tiếng Việt sử dụng mô hình HMM, DNN mô hình lai ghép 1.7 Một số nghiên cứu gần ngôn ngữ có điệu Đối với tiếng Mandarin (tiếng Quan thoại) Cantonese (tiếng Quảng Đông) Trung Quốc Các nghiên cứu ngôn ngữ giải vấn đề tối ưu tập âm vị có thông tin điệu, áp dụng mô hình MSD-HMM [Chen 2001] [Wang 2006] [Y a Qian 2009] Đối với tiếng Thái Lan Các nghiên cứu ngôn ngữ tập trung vào việc giải khó khăn việc xác định biên từ câu phát âm [Sinaporn 2005][Kwanchiva 2013] 1.8 Kết luận nội dung nghiên cứu luận án Một số vấn đề cấp thiết nhận dạng tiếng nói tiếng Việt sau: 1- Các nghiên cứu nhận dạng tiếng Việt hạn chế, cần có nghiên cứu đánh giá ảnh hưởng điệu điều kiện tiếng nói phát âm liên tục, từ vựng lớn; 2- Các nghiên cứu mô hình điệu cho tiếng Việt công bố sử dụng đặc trưng điệu chỉnh sửa liên tục, chưa có nghiên cứu đánh giá hiệu đặc trưng theo chất đứt gãy vùng vô thanh; 3- Chưa có nghiên cứu áp dụng mô hình MSD-HMM cho tiếng Việt; 4- Cần có thêm nghiên cứu nâng cao chất lượng đặc trưng đầu vào cho nhận dạng tiếng Việt Từ vấn đề thực tế dẫn đến luận án tập trung nghiên cứu số nội dung sau: 1- Nghiên cứu mô hình nhận dạng tiếng Việt từ vựng lớn phát âm liên tục có điệu; 2- Nghiên cứu áp dụng mô hình MSDHMM cho nhận dạng tiếng Việt phát âm liên tục từ vựng lớn; 3Nghiên cứu áp dụng mạng nơron vào việc trích chọn nâng cao chất lượng đặc trưng đầu vào cho nhận dạng tiếng Việt; 4- Nghiên cứu đề xuất mô hình tích hợp MSD-HMM với Bottleneck cho tiếng Việt Phạm vi nghiên cứu: Đối tượng nghiên cứu tiếng nói liên tục từ vựng lớn; Dữ liệu thử nghiệm thu từ giọng miền Bắc thống để nhận dạng từ L (trong phạm vi luận án L tiếng Việt) Khi ta có Wi phân tích thành chuỗi âm vị Wi={βi,j}, j=1, ,M với M số âm vị tạo Wi, Trong K kích thước chọn 45 âm vị (N=45) Bảng 2- Với cách tiếp cận âm vị chọn làm đơn vị nhận dạng hệ thống Như cách tổng quát kích thước hệ thống nhận dạng 45 không phụ thuộc vào kích thước W* Đồng thời chọn từ tập tất âm vị L nên từ có L nhận dạng cách nhận dạng âm vị cấu tạo nên Mô hình xác suất để đoán nhận vector đặc trưng đầu vào thời điểm k, xk (hoặc chuỗi vector xk) xác định theo công thức (2.1) ( | ) ∑ ( | ) ( | ) ( ) 2.4 Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn có điệu xây dựng từ cách thêm thông tin điệu âm tiết vào âm sau: +* {* {* +* +* +* +* +* +} ( +* ) +} ( ) Trong tập {thanh điệu}={T1, T2, T3, T4, T5, T6} mục 2.2.2 2.5 Thuật toán tạo từ điển ngữ âm tự động có điệu cho tiếng Việt (VN-G2P) Tên thuật toán: VN-G2P Đầu vào: Dữ liệu văn tiếng Việt Đầu ra: Từ điển ngữ âm từ vựng trích từ văn đầu vào 2.6 Dữ liệu thử nghiệm 2.6.1 Dữ liệu huấn luyện (Training) Bảng 2-2: Dữ liệu huấn luyện Kích thước theo VOV 17 IOIT2013 170 GlobalPhone 19.7 Tên Số người nói 30 206 129 Số lượng Từ vựng Chủ đề câu 20750 4908 Truyện, tin tức, vấn 86000 5378 Nhiều chủ đề 19000 4200 Nhiều chủ đề 10 2.6.2 Dữ liệu thử nghiệm (Testing) Bảng 2-3: Dữ liệu thử nghiệm Tên VOV-test VoiceTra-test 2.6.3 Kích thước theo 0.65 Số người nói 13 200 Số lượng Chủ đề câu 2688 Truyện, tin tức, vấn 803 Nhiều chủ đề Đánh giá kích thước liệu Qua phân tích so sánh với số hệ thống nhận dạng tiếng Anh, Đức cho thấy liệu mà luận án sử dụng đủ độ lớn 2.7 Tổng quan công cụ HTK& HTS cho nhận dạng tiếng nói 2.7.1 Tổng quan HTK HTK (Hidden Markov Model Toolkit) công cụ cho mục đích phát triển hệ thống nhận dạng tiếng nói 2.7.2 Tổng quan HTS HTS (HMM-based Speech Synthesis System) [Oura 2011] xây dựng dựa HTK HTS hỗ trợ mô hình MSD-HMM 2.8 Thử nghiệm mô hình điệu (Hệ thống nhận dạng sở Baseline) Bảng 2-4: Kết nhận dạng hệ thống sở Hệ thống Sys1(Baseline) Sys2 Đặc trưng MFCC PLP ACC(%) 77.70 76.77 2.9 Thử nghiệm mô hình có điệu Bảng 2-5: Kết thử nghiệm VN-G2P TT 2.9.1 Hệ thống Baseline HMM-1 HMM-2 Đặc trưng MFCC PLP MFCC Từ điển NonTonal-Dict Tonal-Dict ACC (%) 77.70 77.58 78.31(+0.61) Thử nghiệm với công cụ Kaldi sử dụng sở liệu lớn Bảng 2-6: Kết thử nghiệm với Kaldi tập liệu lớn TT Hệ thống Kaldi-HMM-1 Kaldi-HMM-2 Đặc trưng MFCC+P MFCC+P Từ điển NonTonal-Dict Tonal-Dict ACC (%) 45.63 47.17 (+1.54) 2.10 Kết luận chương Trong chương luận án trình bày mô hình có điệu điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục Mô hình có điệu cho kết tốt khoảng 3% tương đối so với mô hình điệu 11 Chương 3: Mô hình điệu sử dụng MSD cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục 3.1 Tóm tắt chương Tổng quan mô hình phân bố đa không gian MSD-HMM phương pháp áp dụng mô hình cho nhận dạng tiếng Việt 3.2 Vai trò đặc trưng điệu Thanh điệu tạo dao động dây trình phát âm Một cách tổng quát âm tiết có sáu ngữ nghĩa khác kết hợp với sáu điệu tiếng Việt 3.3 Đặc trưng điệu vấn đề không liên tục Dây dao động âm hữu mà vùng âm vô không tồn điệu Nếu xét câu phát âm đường đặc trưng điệu bị đứt gãy 3.3.1 Đặc trưng điệu NCC (giá trị tương quan chéo chuẩn hoá) Phương pháp NCC [Talkin 1995] tính toán đặc trưng điệu (pitch) theo công thức (3.1) ( ) ∑ ( ) ( ) (3.1) √ Trong đó: s(n) tín hiệu rời rạc đầu vào với 0≤n≤N, N kích thước khung tín hiệu; k chu kỳ pitch cần tìm, k≤ K ≤ N; ∑ ( ) 3.3.2 Đặc trưng điệu AMDF (độ lệch biên độ trung bình) Phương pháp AMDF [Talkin 1995] tính toán đặc trưng điệu dựa công thức (3.3) ( ) ∑ ( )| | ( ) (3.3) Trong đó: N kích thước khung tín hiệu, s(n)là giá trị tín hiệu đầu vào; k: chu kỳ pitch cần tìm, k ≤ K ≤ N 3.3.3 Trích chọn NCC AMDF sử dụng công cụ SNACK Luận án sử dụng công cụ mã nguồn mở SNACK [Snack 2004] để tính toán NCC AMDF 12 3.4 Tổng quan mô hình MSD-HMM 3.4.1 Định nghĩa MSD-HMM Mô hình MSD-HMM [Tokuda 1999] định nghĩa lại hàm xác suất phát tán dựa lý thuyết mô hình phân bố đa không gian công thức (3.10) ( ) ( | ∑ ) (3.10) Trong o vector đầu vào có kích thước thay đổi, loại kích thước L o gán với không gian có kích thước L chiều đặc trưng trọng số hàm Gaussian tương ứng ( | ) Nếu L>0 hàm ( | ) định nghĩa công ) định nghĩa thức (3.8), L=0 ( | 3.4.2 Ước lượng tham số cho MSD-HMM Việc huấn luyện hay ước lượng tham số [Tokuda 1999] cho mô hình MSD-HMM theo tập quan sát O cho trước thực tương tự mô hình HMM 3.5 Các nghiên cứu công bố áp dụng MSD-HMM nhận dạng tiếng nói Tính đến MSD-HMM nghiên cứu áp dụng cho hai ngôn ngữ tiếng Quan thoại (Mandarin) Trung Quốc tiếng Ba tư Nghiên cứu tác giả Qian [Y a Qian 2009] nghiên cứu việc áp dụng MSD-HMM cho nhận dạng tiếng Mandarin phát âm liên tục từ vựng lớn Đối với tiếng Ba Tư [Fatemeh 2013] nhóm tác giả áp dụng mô hình MSD-HMM để mô hình hóa nhận dạng ngữ điệu câu phát âm mức Từ 3.6 Chuẩn hóa đặc trưng AMDF NCC cho mô hình MSD-HMM Giả sử tín hiệu tiếng nói đầu vào X sau phân tách thành khung rời rạc ta thu * + khung tín hiệu thứ k, với k=1, ,N AMDF NCC chuẩn hóa lại cho mô hình MSD-HMM công thức (3.18), (3.19) { { ( ) ( ) unvoiced , ( ) unvoiced , 13 ( ) (3.18) (3.19) Trong NCCi AMDFi tính theo công thức (3.7) (3.8), voice ( ) và: ( ) { (3.20) Trong ( ) ( ) hàm lượng với L độ dài ∑ , hệ số 3.7 Áp dụng mô hình MSD-HMM cho nhận dạng tiếng Việt có điệu Trong phạm vi nghiên cứu luận án đề xuất sử dụng mô hình MSD-HMM trạng thái với nhiều luồng liệu vào cho nhận dạng tiếng Việt với mục đích kết hợp đặc trưng ngữ âm đặc trưng điệu vào mô hình Trong luồng thứ dành cho đặc trưng ngữ âm (MFCC/PLP) Từ luồng thứ hai sử dụng cho đặc trưng pitch Ở luồng sử dụng hai không gian * +, không gian số thực có số chiều d tương ứng với kích thước vector đặc trưng pitch đầu vào có giá trị nhãn “unvoiced” 3.8 Cài đặt thử nghiệm kết Bảng 3-1: Kết thử nghiệm Pitch MFCC/PLP với HMM TT Hệ thống Baseline HMM-3 HMM-4 HMM-5 HMM-6 Đặc trưng MFCC PLP+AMDF MFCC+AMDF PLP+NCC MFCC+NCC Từ điển Tonal-Dict ACC (%) 77.70 74.34 76.10 79.09 80.26(+2,56) Bảng 3-2: Kết thử nghiệm mô hình MSD-HMM TT Hệ thống MSD-HMM-1 MSD-HMM-2 MSD-HMM-3 MSD-HMM-4 MSD-HMM-5 MSD-HMM-6 Đặc trưng PLP+NCC_MSD PLP+AMDF_MSD MFCC+NCC_MSD MFCC+AMDF_MSD PLP+NCC+AMDF_MSD MFCC+NCC+AMDF_MSD Từ điển Tonal-Dict ACC (%) 76.47 79.78 77.64 80.37 79.71 80.80 3.9 Kết luận chương Từ kết thí nghiệm luận án dẫn đến kết luận sau: 1Mô hình MSD-HMM có hiệu với ngôn ngữ tiếng Việt: Cụ thể hệ thống sử dụng mô hình MSD-HMM cho kết tốt mô hình HMM 0.54%, tốt 3.1% tuyệt đối (15% tương đối) so với hệ thống sở 2- Đặc trưng điệu dựa phương pháp AMDF thích hợp với mô hình MSD-HMM 14 Chương 4: Tăng cường đặc trưng ngữ âm sử dụng mạng nơron 4.1 Tóm tắt chương Trình bày phương pháp tăng cường đặc trưng Bottleneck sử dụng mạng nơron áp dụng cho nhận dạng tiếng Việt 4.2 Tổng quan mạng nơron MLP (Multilayer Perceptron) Mạng nơron MLP (MultiLayer Perceptron) [Đức 2003] [Kriesel 2005] cấu trúc mạng gồm có lớp vào (input), lớp (output) nhiều lớp ẩn (hidden) 4.3 Ứng dụng mạng nơron nhận dạng tiếng nói Có hai cách tiếp cận việc áp dụng mạng nơron cho nhận dạng tiếng nói Cách tiếp cận thứ sử dụng mạng nơron mô hình âm học Cách tiếp cận thứ hai kết hợp mô hình HMM mạng nơron 4.4 Trích chọn đặc trưng Bottleneck sử dụng mạng MLP 4.4.1 Tổng quan đặc trưng Bottleneck Các vector đầu vào ot đưa qua mạng MLP đặc biệt huấn luyện để tách thông tin quan trọng nén thông tin tạo đặc trưng o’t lớp (output) 4.4.2 Trích chọn đặc trưng Bottleneck (BNF) Tại bước trích chọn đặc trưng sử dụng ba lớp mạng MLP (L1, L2, L3) huấn luyện để tính toán BNF công thức (4.5) ∑ 𝐵 𝐵 (4.5) Trong đó: BNFk giá trị kích hoạt nút mạng thứ k lớp L3 (lớp BN), với k=1, ,K; N kích thước lớp ẩn thứ L2; giá trị kích hoạt nút thứ j lớp ẩn thứ L2 tính theo công thức (4.1); trọng số liên kết nút j lớp L3 với nút thứ k lớp L2; Bk hệ số Bias nút thứ k lớp L3 4.5 Cài đặt thử nghiệm 4.5.1 Gán nhãn liệu huấn luyện mạng Luận án sử dụng hệ thống nhận dạng sở Baseline để gán nhãn tự động cho toàn liệu 4.5.2 Lựa chọn cấu hình mạng MLP Mô hình MLP sử dụng để tính toán trưng BNF luận án mạng MLP có lớp L1, L2, L3, L4, L5 Kích thước 15 lớp đầu vào L1 585, BN 39, kích thước L2 L4 thay đổi với giá trị {1000,2000,3000,4000} thử nghiệm để tìm cấu trúc mạng tối ưu 4.5.3 Huấn luyện mạng MLP Tất mạng MLP thử nghiệm huấn luyện công cụ Quicknet [Farber 1997] Luận án sử dụng hàm Sigmoid công thức (4.7) làm hàm kích hoạt lớp ẩn hàm Softmax công thức (4.8) làm hàm kích hoạt lớp Tất mạng huấn luyện với hệ số học (learning rate) khởi đầu 0.05 ( ) (4.7) (4.8) ∑ Trong đó: giá trị kích hoạt tuyến tính nút thứ j lớp i công thức (4.1) 463 kích thước lớp Output 4.5.4 Áp dụng đặc trưng BNF với mô hình HMM Bảng 4-1: Kết thử nghiệm đặc trưng BNF TT Hệ thống HMM-2 BNF-1 BNF-2 Đặc trưng MFCC BNFPLP BNFMFCC Từ điển Tonal-Dict ACC (%) 78.31 79.33 79.56(+1.25) 4.6 Tối ưu đặc trưng Bottleneck Để tìm kích thước lớp BN tối ưu luận án tiếp tục huấn luyện thêm mạng MLP có kích thước lớp BN thay đổi với giá trị sau: {9,11,13,17,21,25,29,33,39,45} Kết thử nghiệm cho chất lượng tốt 6.48% tuyệt đối so với hệ thống sở với kích thước lớp BN 13 4.7 Kết luận chương 1) Đặc trưng Bottleneck có hiệu với nhận dạng tiếng Việt Kết thử nghiệm tốt cho thấy chất lượng nhận dạng tăng lên 6.48% tuyệt đối (29% tương đối) so với hệ thống sở sau áp dụng đặc trưng 2) Để tối ưu chất lượng nhận dạng áp dụng đặc trưng Bottleneck cần phải có bước thử nghiệm để lựa chọn cấu hình mạng tối ưu 16 Chương 5: Cải tiến đặc trưng điệu sử dụng mạng nơron mô hình tích hợp MSD-HMM với Bottleneck 5.1 Tóm tắt chương Trình bày phương pháp tính toán đặc trưng cải tiến TonalBottleneck (TBNF) cho mô hình MSD-HMM Trình bày phương pháp tích hợp mô hình MSD-HMM với BNF TBNF vào hệ thống 5.2 Trích chọn đặc trưng điệu sử dụng mạng nơron 5.2.1 Đặc trưng điệu Tonal Bottleneck (TBNF) TBNF tương tự phương pháp BNF Tuy nhiên lớp đầu mạng sử dụng để phân lớp điệu tiếng Việt bổ sung giá trị “unvoiced” vào vùng vô 5.2.2 Trích chọn đặc trưng điệu TBNF TBNF tính toán theo công thức (5.1) ∑ 𝐵 𝐵 𝑎𝑐𝑡 … (5.1) Trong đó: 𝑎𝑐𝑡 (∑ … ) ; TBNFk 𝑡 giá trị kích hoạt nút mạng thứ k lớp BN, với K kích thước lớp BN; N kích thước lớp ẩn thứ L2; 𝑎𝑐𝑡 giá trị kích hoạt nút thứ j lớp ẩn thứ L2; Hàm Sigmoid thính toán theo công thức (4.7); trọng số liên kết nút k lớp L3 với nút thứ j lớp L2; trọng số liên kết nút j lớp L2 với nút thứ q lớp đầu vào L1; 𝐵 hệ số Bias nút thứ k lớp Bottleneck; hệ số Bias nút thứ j lớp L2; 𝑡 phần tử thứ q vector đặc trưng đầu vào xt 5.2.3 Cải tiến đặc trưng TBNF cho mô hình MSD-HMM TBNF_MSD tính toán công thức (5.3) 𝐵 𝑡 { 𝐵 ( ( 𝑡 )) ( ( 𝑡 )) 𝑡 unvoiced (5.3) Trong đó: TBNFt giá trị TBNF xt xác định công thức (5.1); O(xt) vector chứa giá trị nút mạng lớp đầu L5 mạng MLP; “Notone” nút mạng lớp L5 tương ứng với lớp mẫu đầu vào xt không tồn điệu 5.3 Gán nhãn liệu 5.3.1 Gán nhãn mức trạng thái HMM điệu Thuật toán gán nhãn điệu tự động: Đầu vào: File way file phiên âm liệu cần gán nhãn 17 Đầu ra: Nhãn theo thời gian mức trạng thái HMM điệu Thuật toán: Bước 1: Gán nhãn âm vị (Y): Xét chuỗi vector đầu vào X={xt}, t=1, ,T nhãn mức âm vị X là:Y = Label(X)={yt}, W=Word(X)={wt} Bước 2: Gán nhãn điệu thô (Z) * 𝑡+ { ( 𝑡) ( 𝑡) ( 𝑡) 𝑡 𝑡 Bước 3: Chuẩn hóa (bỏ nhãn điệu thuộc vùng vô X) * 𝑡+ 5.3.2 𝑡 { ( 𝑡) ( 𝑡) Gán nhãn mức điệu (Tone Labeling - TL) Nhãn mức điệu tạo cách xoá bỏ ký hiệu trạng thái (S2,S3,S4) liệu gán nhãn mức trạng thái HMM điệu mục trước 5.4 Lựa chọn cấu hình mạng MLP Cấu hình mạng tối ưu ban đầu 45-100-3-050-07 tương ứng với kích thước lớp L1, L2, L3, L4, L5 5.5 Thử nghiệm đặc trưng TBNF-MSD với mô hình MSD-HMM Bảng 5-1: Kết thử nghiệm TBNF-MSD với MSD-HMM TT Hệ thống MSD-HMM-4 TBNF-MSD-HMM-1 TBNF-MSD-HMM-2 Đặc trưng MFCC+AMDF MFCC+TBNF-MSD3 PLP+TBNF-MSD3 ACC(%) 80.37 80.69 80.23 5.6 Mô hình tích hợp BNF, TBNF-MSD MSD-HMM Mô hình tích hợp MSD-HMM trạng thái với hai luồng đầu vào, luồng thứ dành cho đặc trưng BNF Luồng thứ hai dành cho đặc trưng điệu TBNF-MSD3 Bảng 5-2: Kết thử nghiệm MSD-HMM với đặc trưng BNF13+TBNF-MSD3 TT Đặc trưng ACC(%) BNF13 84.18 BNF13+TBN-MSD13 84.54 (+0.36) 5.7 Kết luận chương TBNF tốt khoảng 0.3% tuyệt đối (khoảng 2% tương đối) so với đặc trưng điệu có AMDF NCC Mô hình tích hợp BNF, TBNF với MSD-HMM cho chất lượng tốt so với mô hình HMM sử dụng đặc trưng MFCC/PLP+AMDF/NCC 18 Kết luận  Các công việc thực luận án - Đã nghiên cứu tổng quan tình hình nghiên cứu nhận dạng tiếng nói nhận dạng tiếng Việt Từ kết nghiên cứu luận án xác định vấn đề tồn nhận dạng tiếng Việt từ vựng lớn - Đã nghiên cứu trình bày tổng quan thành phần hệ thống nhận dạng tiếng nói Nội dung nghiên cứu luận án tập trung vào việc cải tiến phần liên quan đến trích chọn đặc trưng mô hình âm học hệ thống nhận dạng tiếng nói - Đã nghiên cứu đặc tính ngữ âm tiếng Việt Luận án trình bày cấu trúc ngữ âm, tập âm vị, tập điệu tiếng Việt Từ kết luận án đề xuất phương pháp xây dựng mô hình nhận dạng tiếng Việt từ vựng lớn phát âm liên tục cách sử dụng tập âm vị có điệu làm đơn vị nhận dạng Với cách tiếp cận mô hình nhận dạng luận án nhận dạng tất từ có tiếng Việt, từ không cần có liệu huấn luyện Đồng thời luận án đề xuất giải thuật tạo từ điển âm vị tự động cho tiếng Việt áp dụng cho nhận dạng tiếng Việt từ vựng lớn Giải thuật VN-G2P áp dụng để tạo từ điển ngữ âm cho tập từ vựng tiếng Việt đầu vào - Nghiên cứu đưa mô hình điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục theo phương pháp tích hợp nhận dạng điệu nhận dạng âm vị pha Việc tích hợp thực cách tổ hợp âm âm tiết tiếng Việt với thông tin điệu để tạo thành âm có điệu - Đã nghiên cứu trình bày lý thuyết mô hình phân bố đa không gian MSD-HMM Đã nghiên cứu đề xuất loại mô hình MSD-HMM áp dụng cho nhận dạng tiếng Việt có điệu Bao gồm quy trình phương pháp cấu hình mô hình MSDHMM, phương pháp huấn luyện mô hình Luận án trình 19 bày phương pháp trích chọn đặc trưng điệu cho loại mô hình MSD-HMM này, từ tìm loại đặc trưng điệu tương thích - Đã nghiên cứu trình bày lý thuyết phương pháp trích chọn đặc trưng Bottleneck áp dụng cho nhận dạng tiếng Việt Luận án trình bày quy trình phương pháp tính toán đặc trưng BNF, phương pháp gán nhãn huấn luyện mạng MLP, phương pháp chuẩn hóa tối ưu đặc trưng BNF cho tiếng Việt Kết nghiên cứu áp dụng để xây dựng module nhận dạng tiếng Việt dự án quốc tế VoiceTra4U1 phát triển ứng dụng dịch tiếng nói tự động 32 quốc gia mà Viện công nghệ thông tin (IOIT) đại diện Việt Nam tham gia - Đã nghiên cứu đề xuất phương pháp trích chọn đặc trưng điệu cho mô hình MSD-HMM sử dụng mạng nơron MLP Luận án trình bày phương pháp trích chọn đặc trưng, tối ưu hóa đặc trưng, kỹ thuật gán nhãn liệu, phương pháp chuẩn hóa tích hợp đặc trưng với mô hình MSD-HMM cho tiếng Việt - Đã nghiên cứu đề xuất kết hợp kỹ thuật trích chọn đặc trưng BNF đặc trưng điệu TBNF sử dụng mạng nơron MLP với mô hình MSD-HMM vào hệ thống cho nhận dạng tiếng Việt Với công việc thực luận án hoàn thành mục tiêu đặt Chương Cụ thể là: Đã đưa mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn phát âm liên tục Từ kết thí nghiệm cho thấy mô hình cho kết tốt mô hình điệu Đã đưa phương pháp áp dụng mô hình MSD-HMM việc mô hình hóa đặc trưng điệu tiếng Việt theo chất đứt gãy Và việc áp dụng mô hình cho kết tốt mô hình HMM truyền thống http://www.ustar-consortium.com/app/app.html 20 Đã đưa phương pháp áp dụng mạng nơron để tính toán Bottleneck cho tiếng Việt, đồng thời dựa vào kết luận án đề xuất phương pháp tính toán đặc trưng cải tiếng TBNF cho tiếng Việt TBNF cho kết tốt phương pháp AMDF, NCC có Đã đưa mô hình tích hợp BNF, TBNF MSD-HMM cho tiếng Việt  Các kết luận thảo luận từ kết thử nghiệm luận án - Đặc trưng điệu tập âm vị có thông tin điệu thành phần quan trọng ảnh hưởng đến chất lượng mô hình nhận dạng tiếng Việt có điệu Qua thử nghiệm liệu kích thước lớn trung bình công cụ khác HTK Kaldi cho thấy đặc trưng điệu giúp làm tăng chất lượng nhận dạng thêm khoảng 3% tuyệt đối tập âm vị có thông tin điệu làm tăng chất lượng nhận dạng thêm khoảng 1.5% tuyệt đối Tương tự nghiên cứu ngôn ngữ Mandarin, Cantonese, Thai cho thấy rõ ràng điệu yếu tố quan trọng việc tối ưu mô hình nhận dạng Tuy nhiên phương pháp xây dựng đơn vị cho mô hình điệu mà luận án thực có điệu tiếng Việt sử dụng Trong phạm vi luận án chưa xét đến biến đổi điệu với phụ âm cuối đóng (stop consonant) /p/, /t/, /k/, trường hợp có điệu Việc bổ sung thông tin điệu vào tập âm vị bổ sung đặc trưng điệu với đặc trưng ngữ âm làm đặc trưng đầu vào làm tăng độ phức pháp tính toán cho hệ thống Cụ thể tập âm vị tăng từ 54 lên 154 cần có thêm khâu tính toán đặc trưng điệu Nếu hệ thống nhận dạng tính đến tốc độ không yêu cầu chất lượng tối ưu bỏ qua thông tin điệu mô hình âm học đặc trưng đầu vào chấp nhận độ xác giảm khoảng 5% Khi việc xây dựng mô hình nhận dạng cho tiếng Việt hoàn toàn áp dụng mô hình có ngôn 21 - - ngữ phổ dụng điệu tiếng Anh, Đức mà không cần quan tâm đến đặc tính điệu tiếng Việt Việc nhận dạng điệu chuyển sang mô hình ngôn ngữ Mô hình MSD-HMM có hiệu với tiếng Việt Mô hình MSDHMM có khả mô tả đặc tính vật lý đặc trưng điệu liên tục vùng hữu đứt gãy vùng vô Mô hình giúp làm tăng chất lượng nhận dạng thêm khoảng 15% tương đối so với mô hình HMM truyền thống Kết tương đồng với nghiên cứu ngôn ngữ Mandarin [Y a Qian 2009] [Chong-Jia 2011] (khoảng 17%) Như việc nghiên cứu tìm loại mô hình có khả mô hình hóa thông tin điệu yếu tố quan trọng việc nâng cao chất lượng nhận dạng cho tiếng Việt Đồng thời với kết nghiên cứu tiếng Mandarin cho thấy việc mô hình hóa chất đứt gãy đặc trưng điệu cho kết tốt loại đặc trưng bổ sung giá trị “nhận tạo” vào vùng vô Phương pháp tăng cường đặc trưng sử dụng mạng nơron có hiệu với tiếng Việt Phương pháp tính toán đặc trưng giúp tăng chất lượng cho hai loại đặc trưng ngữ âm đặc trưng điệu Với đặc trưng ngữ âm BNF giúp tăng thêm khoảng 29% tương đối so với hai loại đặc trưng có MFCC PLP, đặc trưng điệu TBNF cải tiến giúp tăng thêm khoảng 2% tương đối so với hai loại đặc trưng điệu có AMDF NCC Cả BNF TBNF trích chọn dựa theo đặc tích ngữ âm tiếng Việt Cụ thể BNF tính toán thông qua mạng nơron huấn luyện để phân lớp âm vị tích hợp điệu tiếng Việt, TBNF sử dụng mạng nơron huấn luyện để phân lớp điệu tiếng Việt Từ kết thử nghiệm cho thấy rõ ràng mạng nơron hiệu việc phân lớp mà có hiệu mô hình biến đổi đặc trưng Tuy nhiên việc áp dụng BNF, TBNF làm gia tăng độ phức tạp tính toán cho hệ thống Nhưng với 29% tăng chất lượng nghiên cứu này, 22 khoảng 10% tăng chất lượng công bố ngôn ngữ khác tiếng Anh, Đức cho thấy mô hình quan trọng để tối ưu đặc trưng Tham số mạng tính toán BNF TBNF tùy thuộc vào ngôn ngữ vào kích thước liệu huấn luyện cụ thể Hai yếu tố quan trọng ảnh hưởng đến chất lượng đặc trưng BNF TBNF cấu hình mạng MLP chất lượng việc gán nhãn liệu để huấn luyện mạng - Mô hình tích hợp BNF, TBNF với MSD-HMM cho kết tối ưu so với mô hình khác mà luận án xây dựng Kết cho thấy mô hình MSD-HMM thực hiệu mô hình HMM sử dụng với đặc trưng điệu đứt gãy Các đặc trưng tăng cường BNF đặc trưng cải tiến TBNF giúp cho mô hình MSD-HMM đạt chất lượng tốt so với việc sử dụng đặc trưng chưa tăng cường MFCC, PLP, AMDF NCC (tốt khoảng 19% tương đối) Như việc nghiên cứu để tìm mô hình tăng cường chất lượng đặc trưng, tối ưu cho MSD-HMM đắn cần thiết  Hướng phát triển - Việc sử dụng tập âm vị có thông tin điệu làm gia tăng kích thước hệ thống từ 54 âm vị đơn lên 154 âm vị đơn Và việc bổ sung thông tin điệu áp dụng âm âm tiết Cần có nghiên cứu để tìm tập âm vị tối ưu, vị trí bổ sung thông tin điệu tối ưu cho tiếng Việt, phương pháp làm giảm kích thước tập âm vị thông qua kỹ thuật phân cụm - Đặc trưng điệu TBNF cho chất lượng tăng thấp, khoảng 2% tương đối Nên cần tiếp tục nghiên cứu để nâng cao chất lượng Một số kỹ thuật biến đổi đặc trưng LDA, MLLT áp dụng trước áp dụng phương pháp để nâng cao chất lượng - Trong luận án đặc trưng BNF TBNF trích chọn từ mạng MLP lớp Trong kỹ thuật mạng MLP học sâu với nhiều lớp ẩn mang lại nhiều kết tích cực nhiều lĩnh vực khác Trong nghiên 23 - cứu công nghệ mạng học sâu (Deep Learning) cần áp dụng để nâng cao chất lượng cho đặc trưng BNF TBNF Mô hình MSD-HMM nghiên cứu chưa áp dụng kỹ thuật tối ưu tham số Vì cần nghiên cứu thử nghiệm áp dụng kỹ thuật huấn luyện tối ưu ước lượng tham số phụ thuộc người nói (SAT), tối đa tính tự tương quan đặc trưng thuộc lớp (Maximum Likelihood),… Các đóng góp luận án Đã đề xuất kiến trúc hệ thống nhận dạng tiếng Việt liên tục từ vựng lớn tích hợp thông tin điệu 1) Đưa phương pháp áp dụng mô hình MSD-HMM để mô hình hóa tập âm vị tiếng Việt có thông tin điệu dựa đặc trưng điệu đầu vào giữ nguyên đặc tính đứt gãy 2) Đưa phương pháp cải tiến đặc trưng điệu (TBNF) sử dụng mạng nơron MLP TBNF biểu diễn đặc tính đứt gãy đặc trưng điệu tương thích với mô hình MSD-HMM 3) Đưa mô hình kết hợp MSD-HMM với đặc trưng BNF đặc trưng điệu TBNF cho nhận dạng tiếng Việt Một số đóng góp khác luận án 1) Đưa giải thuật tạo từ điển ngữ âm có thông tin điệu tự động cho tập liệu đầu vào tiếng Việt 2) Đưa thuật toán gán nhãn điệu cho liệu dựa kỹ thuật gán nhãn âm vị kết hợp với kỹ thuật phát vùng hữu vô 24 [...]... xuất một giải thuật tạo từ điển âm vị tự động cho tiếng Việt áp dụng cho nhận dạng tiếng Việt từ vựng lớn Giải thuật VN-G2P này có thể được áp dụng để tạo từ điển ngữ âm cho bất kỳ tập từ vựng tiếng Việt đầu vào nào - Nghiên cứu đưa ra được mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục theo phương pháp tích hợp nhận dạng thanh điệu và nhận dạng âm vị trong cùng một pha Việc...Chương 2: Mô hình thanh điệu cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục 2.1 Tóm tắt chương Trình bày phương pháp xây dựng mô hình nhận dạng tiếng Việt phát âm liên tục từ vựng lớn có thanh điệu; Hệ thống cơ sở 2.2 Tổng quan về tiếng Việt Tiếng Việt là một ngôn ngữ đơn âm tiết (Monosyllable) Các đặc tính chính của âm tiết tiếng Việt [Chừ 1997] như có tính độc lập... với mô hình không có thanh điệu 11 Chương 3: Mô hình thanh điệu sử dụng MSD cho nhận dạng tiếng Việt từ vựng lớn phát âm liên tục 3.1 Tóm tắt chương Tổng quan về mô hình phân bố đa không gian MSD-HMM và phương pháp áp dụng mô hình này cho nhận dạng tiếng Việt 3.2 Vai trò của đặc trưng thanh điệu Thanh điệu được tạo ra do dao động của dây thanh trong quá trình phát âm Một cách tổng quát thì mỗi âm tiết... âm, tập âm vị, tập thanh điệu của tiếng Việt Từ kết quả này luận án đã đề xuất phương pháp xây dựng mô hình nhận dạng tiếng Việt từ vựng lớn phát âm liên tục bằng cách sử dụng tập âm vị có thanh điệu làm bộ đơn vị nhận dạng Với cách tiếp cận này mô hình nhận dạng của luận án có thể nhận dạng tất cả các từ có thể có của tiếng Việt, mặc dù từ đó có thể không cần có trong dữ liệu huấn luyện Đồng thời... chấp nhận độ chính xác giảm đi khoảng 5% Khi đó việc xây dựng mô hình nhận dạng cho tiếng Việt hoàn toàn có thể áp dụng các mô hình đã có trên các ngôn 21 - - ngữ phổ dụng không có thanh điệu như tiếng Anh, Đức mà không cần quan tâm đến đặc tính thanh điệu của tiếng Việt Việc nhận dạng thanh điệu có thể chuyển sang mô hình ngôn ngữ Mô hình MSD-HMM có hiệu quả với tiếng Việt Mô hình MSDHMM có khả năng mô. .. hiện bằng cách tổ hợp âm chính trong các âm tiết của tiếng Việt với thông tin thanh điệu để tạo thành âm chính có thanh điệu - Đã nghiên cứu và trình bày lý thuyết về mô hình phân bố đa không gian MSD-HMM Đã nghiên cứu và đề xuất loại mô hình MSD-HMM áp dụng cho nhận dạng tiếng Việt có thanh điệu Bao gồm quy trình và phương pháp cấu hình mô hình MSDHMM, phương pháp huấn luyện mô hình Luận án cũng đã... tiếng Việt từ vựng lớn - Đã nghiên cứu và trình bày tổng quan về các thành phần chính của một hệ thống nhận dạng tiếng nói Nội dung nghiên cứu chính của luận án tập trung vào việc cải tiến các phần liên quan đến trích chọn đặc trưng và mô hình âm học trong hệ thống nhận dạng tiếng nói - Đã nghiên cứu cơ bản về đặc tính ngữ âm tiếng Việt Luận án đã trình bày cấu trúc ngữ âm, tập âm vị, tập thanh điệu. .. được mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn phát âm liên tục Từ kết quả thí nghiệm cho thấy mô hình này cho kết quả tốt hơn mô hình không có thanh điệu 2 Đã đưa ra được phương pháp áp dụng mô hình MSD-HMM trong việc mô hình hóa đặc trưng thanh điệu tiếng Việt theo đúng bản chất đứt gãy Và việc áp dụng mô hình này cũng đã cho kết quả tốt hơn mô hình HMM truyền thống 1 http://www.ustar-consortium.com/app/app.html... 2.4 Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn có thanh điệu được xây dựng từ bằng cách thêm thông tin thanh điệu của âm tiết vào âm chính như sau: +* {* {* +* +* +* +* +* +} ( +* ) +} ( ) Trong đó tập {thanh điệu} ={T1, T2, T3, T4, T5, T6} ở mục 2.2.2 2.5 Thuật toán tạo từ điển ngữ âm tự động có thanh điệu cho tiếng Việt (VN-G2P) Tên thuật toán: VN-G2P Đầu vào: Dữ liệu văn bản tiếng Việt. .. /-ṷ/, /-˰i/) /ɯˬɤ/ ươ, ưa Âm cuối IPA Cách Viết /-p/ p /-t/ t /-k/ c, ch /-m/ m /-n/ /-ŋ/ n ng, nh /-ṷ/ u, o /-˰i/ i, y Thanh điệu tiếng Việt Nếu không xét đến sự biến đổi thanh điệu trên các phụ âm dừng ở cuối âm tiết thì tiếng Việt có 6 thanh điệu [Chừ 1997] Bao gồm thanh huyền, ngã, hỏi, sắc, nặng và thanh bằng 2.3 Mô hình cho hệ thống nhận dạng tiếng Việt từ vựng lớn Bộ từ vựng W={Wi}, i=(1, ,N) kích

Nghiên cứu mô hình thanh điệu trong nhận dạng tiếng việt từ vựng lớn phát âm liên tục (TT)

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan