TÍCH HỢP CÁC MÔ HÌNH NGÔN NGỮ VÀO NHẬN DẠNG TIẾNG NÓI VIỆT NAM

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HCM KHOA CÔNG NGHỆ THÔNG TIN LUẬN VĂN TỐT NGHIỆP TÍCH HỢP CÁC MƠ HÌNH NGƠN NGỮ VÀO NHẬN DẠNG TIẾNG NĨI VIỆT NAM Ngành Niên khố Lớp Sinh viên thực : : : : Công nghệ thơng tin 2006-2010 DH06DT Hồng Tiến Long Nguyễn Ngọc Thắm Nguyễn Hữu Tình TP.HỒ CHÍ MINH, tháng năm 2010 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NÔNG LÂM TP HCM KHOA CÔNG NGHỆ THÔNG TIN LUẬN VĂN TỐT NGHIỆP TÍCH HỢP CÁC MƠ HÌNH NGƠN NGỮ VÀO NHẬN DẠNG TIẾNG NÓI VIỆT NAM Giáo viên hướng dẫn: Sinh viên thực hiện: TS Lê Quân Hà Hoàng Tiến Long KS Nguyễn Văn Khiêm Nguyễn Ngọc Thắm Nguyễn Hữu Tình TP.HỒ CHÍ MINH, tháng năm 2010 TÍCH HỢP CÁC MƠ HÌNH NGƠN NGỮ TRONG NHẬN DẠNG TIẾNG NĨI Năm 2010 LỜI CẢM ƠN Để hoàn thành đề tài có kiến thức ngày hơm nay, chúng em xin gửi lời cảm ơn đến Ban Giám Hiệu tồn thể Thầy Cơ Khoa Cơng Nghệ Thông Tin – Trường Đại Học Nông Lâm TP.HCM tận tình giảng dạy, truyền đạt kiến thức kinh nghiệm quý báu cho chúng em suốt trình học tập nghiên cứu trường Chúng em chân thành cảm ơn TS Lê Quân Hà thầy Nguyễn Văn Khiêm tận tình hướng dẫn quan tâm, động viên chúng em trình thực đề tài Chúng em bày tỏ lòng biết ơn sâu sắc đến người thân gia đình, bạn bè động viên tạo điều kiện giúp chúng em trình học tập sống Mặc dù chúng em cố gắng hồn thành tốt đề tài khơng thể tránh khỏi sai sót định, mong thông cảm chia sẻ quý Thầy Cô bạn bè Chúng em xin gửi lời chúc sức khỏe thành đạt tới tất quý thầy cô bạn Nhóm sinh viên thực 06130155 Hồng Tiến Long 06130194 Nguyễn Ngọc Thắm 06130204 Nguyễn Hữu Tình CÁC XUẤT BẢN ĐÃ ĐẠT ĐƯỢC TRONG NƯỚC 1) Nguyễn Văn Khiêm, Nguyễn Thị Tú Mi, Hoàng Tiến Long, Nguyễn Hữu Tình, Nguyễn Ngọc Thắm, Lê Quân Hà 2010 Nhận dạng tiếng nói Việt Nam Hội Nghị Khoa Học Trẻ Trường Đại Học Nông Lâm lần thứ VII, trang 166-171 Tp Hồ Chí Minh 2) Nguyễn Văn Khiêm, Cao Văn Kiên, Đào Duy Khanh, Trịnh Xuân Đạt, Nguyễn Thị Tú Mi Lê Quân Hà 2010 Khảo Sát Mô Hình Ngơn Ngữ Cá Thể Từ Hội Nghị Khoa Học Trẻ Trường Đại Học Nông Lâm lần thứ VII, trang 157-165 Tp Hồ Chí Minh 3) Lê Qn Hà, Hồng Tiến Long, Nguyễn Văn Khiêm, Nguyễn Hữu Tình, Nguyễn Ngọc Thắm Lai Quốc Trọng 2010 Nhận dạng tiếng nói Việt Nam bền vững Đã chấp thuận chờ đăng Tạp chí Cơng Nghiệp số Bộ Cơng Thương Tp Hồ Chí Minh 4) Lê Quân Hà, Nguyễn Văn Khiêm, Hồng Tiến Long, Nguyễn Hữu Tình, Nguyễn Ngọc Thắm Đỗ Hồng Thy 2010 Đề xuất Nhận dạng tiếng Việt Nam cho Điện Thoại Di Động Đã chấp thuận chờ đăng Tạp chí Cơng Nghiệp số Bộ Cơng Thương Tp Hồ Chí Minh 5) Lê Qn Hà, Hồng Tiến Long, Nguyễn Hữu Tình, Nguyễn Ngọc Thắm, Nguyễn Văn Khiêm Trần Thị Thu Vân 2010 Mơ Hình Ngơn Ngữ Cá Thể Từ tiếng Việt Đã chấp thuận chờ đăng Tạp chí Cơng Nghiệp số Bộ Cơng Thương Tp Hồ Chí Minh NƯỚC NGỒI (TẠP CHÍ LỚN NHẤT CHÂU Á & NẰM TRONG DANH SÁCH CƠNG NHẬN TỒN THẾ GIỚI CỦA ACL) 6) Le Trong Ngoc, Tran Thi Thu Van, Le Quan Ha, Hoang Tien Long, Nguyen Huu Tinh and Nguyen Ngoc Tham A Posteriori Individual Word Language Models for Vietnamese Language Đã chấp thuận chờ đăng vào tạp chí International Journal of Computational Linguistics and Chinese Language Processing (IJCLCLP), Vol 2011 Taipei, Taiwan MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG 11 DANH SÁCH CHỮ VIẾT TẮT .12 TÓM TẮT 13 MỤC ĐÍCH CỦA LUẬN VĂN 15 CHƯƠNG : BÀI TỐN NHẬN DẠNG TIẾNG NĨI 19 1.1 Giới thiệu 19 1.2 Công thức 20 1.3 Các thành phần nhận dạng tiếng nói 21 Xử lý cú âm .21 Mơ hình cú âm 22 Mơ hình ngơn ngữ .22 Tìm kiếm giả định .23 CHƯƠNG : MƠ HÌNH MARKOV ẨN 24 2.1 Giới thiệu chuỗi Markov 24 2.2 Cơ mơ hình Markov ẩn 25 2.3 Tìm chuỗi chuyển trạng thái tốt - Thuật toán Viterbi .29 2.4 Ước lượng tham số xác suất cho HMM – Thuật toán Baum-Welch 31 CHƯƠNG : TIỀN XỬ LÝ TIẾNG NÓI 34 3.1 Tổng quan tiền xử lý tiếng nói 34 3.2 Cải thiện tín hiệu – lọc Wiener 35 3.2.1 Định nghĩa lọc Wiener 35 3.2.2 Công thức lọc Wiener .36 3.2.3 Sai số tín hiệu lọc Wiener .36 3.2.4 Mối quan hệ vector hệ số w sai số tín hiệu e(m) 36 3.2.5 Tối ưu lọc Wiener 37 3.2.6 Biểu diễn lọc Wiener không gian vector 38 3.2.7 Ứng dụng lọc Wiener việc loại bỏ nhiễu cộng thêm 39 3.3 Cắt khung tín hiệu 42 3.4 Phân tích Fourier – biến đổi Fourier rời rạc 43 3.4.1 Cơ biến đổi Fourier .43 Giai đoạn .44 Giai đoạn 45 Giai đoạn 45 3.5 Xác định phổ Mel 46 3.5.1 Định nghĩa tần số Mel 46 3.5.2 Phổ Mel 47 3.6 Biến đổi Cosine rời rạc tần số Mel 48 CHƯƠNG : MÔ HÌNH CÚ ÂM 49 4.1 Giới thiệu 49 4.2 Mô hình cú âm Phonetic 49 CHƯƠNG : MƠ HÌNH NGƠN NGỮ 51 5.1 Giới thiệu 51 5.2 Cách sử dụng mô hình ngơn ngữ nhận dạng 52 5.3 Phân loại 52 5.4 Mơ hình ngôn ngữ Trigram .53 5.5 Mơ Hình Ngơn Ngữ Cá Thể Từ 54 CHƯƠNG : TÌM KIẾM GIẢ ĐỊNH 60 6.1 Giới thiệu 60 6.2 Tìm chuỗi từ 60 6.3 Tìm kiếm Viterbi .62 6.4 Tìm kiếm theo 62 CHƯƠNG : SPHINX 64 7.1 Tổng quan Sphin-4 .64 Giới thiệu 64 Khả Sphinx-4 .64 Diễn biến 65 Cài đặt 66 7.1.1.1 Phần mềm yêu cầu 66 7.1.1.2 Xây dựng Sphinx-4 66 Các demo Sphinx-4 67 7.2 Các demo cho nhận dạng tiếng Việt 68 Demo cho biến đổi Fourier nhanh .68 Chương trình demo đọc số liên tục 68 ZipCity .69 Chương trình hỗ trợ nhập điểm sinh viên 71 Chương trình Mơ hình Ngơn Ngữ Cá Thể Từ 78 CHƯƠNG : DỮ LIỆU VÀ HUẤN LUYỆN TIẾNG VIỆT NAM 83 8.1 Lexicon 83 8.2 Dữ liệu .84 Dữ liệu văn 84 Dữ liệu âm .85 Tiếng ồn nhiễu liệu âm 86 8.3 Huấn luyện tiếng Việt .86 Chuẩn bị liệu 87 Các bước trình học tiếng Việt 89 Tạo Model dùng cho Sphinx-4 98 Audio Tool 101 CHƯƠNG : POCKETSPHINX: HỆ THỐNG NHẬN DẠNG TIẾNG NÓI LIÊN TỤC THỜI GIAN THỰC CHO CÁC THIẾT BỊ CẦM TAY 106 9.1 Giới thiệu .106 9.2 Hệ thống Pocket Sphinx 107 9.3 Tối ưu hóa .107 Tối ưu hóa nhớ 107 Tối ưu hóa cấp thấp 108 9.4 Tối ưu hóa thuật tốn 109 9.5 Demo Pocketsphinx_continuous 111 9.6 Kết thử nghiệm .112 9.7 Nghiên cứu PocketSphinx hệ điều Hành Linux .113 9.8 Kết luận công việc tới 115 CHƯƠNG 10 : CÁC KẾT QUẢ ĐẠT ĐƯỢC .116 10.1 Kết Nhận dạng Tiếng nói 116 10.2 Kết Mơ hình Ngôn ngữ Cá thể Từ 120 TÀI LIỆU THAM KHẢO .127 DANH MỤC CÁC HÌNH Hình 1.1 Mơ tả tổng quan q trình nhận dạng tiếng nói 19 Hình 2.1 Một chuỗi Markov trạng thái .25 Hình 2.2 Mơ tả q trình forward 31 Hình 2.3 Mơ tả trình backward .32 Hình 2.4 Mơ tả xác suất t(i, j) 32 Hình 3.1 Phép chiếu bình phương tối thiểu sai số ước lượng 38 vector tín hiệu mong đợi x mặt phẳng chứa hai tín hiệu đầu vào y1 y2 38 Hình 3.2 Độ biến thiên tần số Wiener tương ứng với phổ tín hiệu nhiễu cộng thêm (nhiễu trắng) 40 Hình 3.3Tần số W(f) tương quan tỉ lệ SNR(f) 41 (a) phổ tín hiệu nhiễu khơng bị trùng lấp (overlap) tín hiệu phục hồi lọc low- pass 41 (b) phổ tín hiệu nhiễu bị trùng lấp (overlap) nhiễu loại bỏ khơng hồn tồn 41 Hình 3.4 Độ biến thiên W(f) với SNR(f) 42 Hình 3.5 Phân rã Fourier 45 Hình 3.6 Tần số Mel tần số tuyến tính Hz 46 Hình 3.7 Mel filterbank 47 Hình 6.1 Đồ thị xác suất cho mơ hình ngơn ngữ unigram 61 Hình 6.2 Đồ thị xác suất cho mơ hình ngơn ngữ bigram 61 Hình 6.3 Đồ thị xác suất cho mơ hình ngơn ngữ trigram hai trạng thái 62 Hình 6.4 Một với V = n = 63 Hình 7.1 Demo cho biến đổi Fourier nhanh câu nói 68 Hình 7.2 Màn hình ban đầu demo đọc số 69 Hình 7.3 Màn hình sau nhận dạng câu đọc số 69 Hình 7.4 Màn hình ZipCity nhận dạng 70 Hình 7.5 Màn hình chương trình khởi động .72 Hình 7.6 Màn hình nhập điểm .73 Hình 7.7 Màn hình thêm sinh viên .74 Hình 7.8 Màn hình sửa sinh viên 75 Hình 7.9 Màn hình tìm kiếm 76 Hình 7.10 Màn hình kết tìm kiếm 77 Hình 7.11 Giao diện menu chương trình .80 Hình 7.12 Tạo CSDL cho mơ hình tồn cục Việt 80 Hình 7.13 Giao diện tạo mơ hình cá thể từ 81 Hình 7.14 Giao diện đánh giá độ phức tạp mơ hình tồn cục 81 Hình 7.15 Giao diện đánh giá độ phức tạp mơ hình cá thể từ nội suy tuyến tính cho tiếng Việt 82 Hình 8.1 Sóng câu "ba bốn bảy" không bị ồn nhiễu 85 Hình 8.2 Câu "tơi đi" đọc rõ ràng 85 Hình 8.3 Câu "tôi đi" đọc nhanh .85 Hình 8.4 Từ “tơi” đọc ngân dài 86 Hình 8.5 Câu “ba bốn bảy” thu âm bị ồn nhiễu 86 Hình 8.6 Màn nhìn cấu hình ghi âm 102 Hình 8.7 Màn hình ghi âm 103 Hình 8.8 Màn hình player khởi động .104 Hình 8.9 Màn hình kiểm tra liệu .105 Hình 9.1 Màn hình nhận dạng tiêng nói liên tục PocketSphinx 112 Hình 9.2 Tập tin lưu kết nhận dạng từ PocketSphinx 112 Hình 9.3 Giao diện PocketSphinx Ubuntu 114 Hình 10.1 Kết nhận dạng tiếng Việt máy PC (Khiêm 2009) người nói 119 Hình 10.2 Kết nhận dạng tiếng Việt máy PC (2010) người nói 119 Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam nhận dạng câu tăng lên 98.13% tỉ lệ lỗi từ WER giảm xuống 1.87% Đây kết chứng minh huấn luyện với nhiều người nói (multi speakers) huấn luyện nhiều độ xác cao giảm tỉ lệ lỗi từ Thêm nữa, để khắc phục nhược điểm Khiêm, chúng em thực 60 câu kiểm tra hoàn toàn khơng có huấn luyện, độ xác 88.95% tỉ lệ WER 11.05% Như vậy, kết đạt yêu cầu phần mềm chỉnh sửa lại sai sót Khiêm Các chương trình nhận dạng tiếng Việt chúng em có dạng kiến trúc mã nguồn mở, chúng em xây dựng mã nguồn mở cho nhận dạng tiếng Việt có độ xác cao Java, Net C Perl Cuối chúng em chuyển đổi chương trình điện thoại di động để chạy hệ điều hành Linux (có hỗ trợ sẵn Unicode) Đây bước tìm hiểu giải pháp mà nhà nghiên cứu giới làm theo cách 10.2 Kết Mơ hình Ngôn ngữ Cá thể Từ Đã kiểm tra lý thuyết cơng thức mơ hình ngơn ngữ Anh dùng văn huấn luyện Wall Street Journal (WSJ) gồm 40 triệu từ tiếng Anh Paul Baker (1992.) Văn kiểm tra WSJ gồm 584 đoạn, 1.869 câu 34.781 từ Đối với mơ hình ngơn ngữ Việt Nam, chúng em sử dụng văn huấn luyện Hà, Sicilia-Garcia Smith (2002) gồm 6,5 triệu từ tiếng Việt Văn kiểm tra tiếng Việt chúng em xây dựng gồm 243 đoạn, 3.321 câu 33.108 từ kết sơ Chúng em trình bày kết mơ hình tiên nghiệm kể từ mơ hình xác suất đến mơ hình tần số, chúng em trình bày kết hậu nghiệm Tất phần trăm giảm độ phức tạp so với mơ hình chuẩn trọng số trung bình tri-gram A Các kết mơ hình xác suất tiếng Anh tiếng Việt Đối với phương pháp tiên nghiệm, mơ hình xác suất tốt mơ hình xác xuất trọng số lũy thừa cải tiến 34% giảm độ xác suất cho tiếng Anh 37 % cho tiếng Việt, trọng số tối ưu LnTi Kết cho tiếng Việt tiếng Anh Bảng 10.7 10.8 Kết tất mơ hình xác suất Bảng 10.9 Bảng 10.10 Nói chung tất mơ hình ta Sicilia-Garcia (2001, 2002) đặn 6%-7% cải thiện tăng kích thước huấn luyện từ 16 triệu từ lên 40 triệu từ GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 120 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam mơ hình cá thể từ ta giảm kích thước đệm từ 500 từ mơ hình ngơn ngữ trước (Clarkson Robinson, 1997; Donnelly, Smith, Sicilia-Garcia Ming, 1999) xuống 30 từ tiếng Anh 64 vần tiếng Việt, điều quan trọng tiếng nói gần với khả người CÂU /WSJ n-gram Độ phức tạp % Cải thiện (d, Cache, Hàm) tri-gram 62,71 16,78% (8, 75, Sqrt(1/LnTi)) 5-gram 51,09 32,21% (8, 70, LnTi) 7-gram 49,91 33,77% (7, 75, LnTi) 9-gram 49,82 33,90% (7, 75, LnTi) Bảng 10.7 Mơ hình trọng số lũy thừa Tiếng Anh CÂU /QUB n-gram Độ phức tạp % Cải thiện (d, Cache, Hàm) tri-gram 94,70 22,98% (13, 100, Sqrt(LnTi)) 5-gram 80,16 34,81% (13, 100, LnTi) 7-gram 78,12 36,47% (13, 100, LnTi) 9-gram 77,57 36,92% (13, 100, LnTi) Bảng 10.8 Mơ hình trọng số lũy thừa Tiếng Việt Mơ hình tri-gram 9-gram Tồn cục 0,00% 26,77% Nội suy tuyến tính 11,16% 31,98% λ=0,7, WM=23 Phân rã lũy thừa 16,75% 33,72% Phân rã=6, Cache=70 Trọng số xác suất 13,90% 32,52% WM=16, Sqrt(Ti) Trọng số lũy thừa 16,78% 33,90% 12,91% 32,28% Nội suy tuyến tính lũy thừa có trọng số Thông số tốt Phân rã=7, Cache=75, LnTi λ=0,6, Phân rã=13, Cache=65, Ln(1+LnTi) Bảng 10.9 Cải thiện tất mơ hình xác suất tiên nghiệm Tiếng Anh GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 121 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Mơ hình Tồn cục tri-gram 0,00% 9-gram 20,88% Thông số tốt Nội suy tuyến tính 18,46% 34,02% λ=0.6, WM=64 Phân rã lũy thừa 22,88% 36,54% Phân rã=10, Cache=100 Trọng số xác suất 20,45% 34,45% WM=29, Sqrt(Ti) Trọng số lũy thừa 22,98% 36,92% Phân rã=13, Cache=100, LnTi 33,88% Nội suy tuyến tính lũy 18,40% λ=0.6, Phân rã=57, thừa có trọng số Cache=100, 1/Ln(1+LnTi)) Bảng 10.10 Cải thiện cho mơ hình xác suất tiên nghiệm Tiếng Việt B Các kết cho mơ hình tần số tiếng Anh tiếng Việt Chúng em trình bày kết cho mơ hình tần số tiên nghiệm mơ hình tần số nội suy tuyến tính mơ hình tần số trọng số Mơ hình tần số tiếng Anh tốt mơ hình tần số trọng số kết chúng em cho mơ hình hiển thị Bảng 10.11 Một cải tiến 38% đạt cho mơ hình tần số trọng số tiếng Anh Một mơ hình tiếng Việt tốt mơ hình tần số phân rã lũy thừa với 47,3% cải thiện độ phức tạp Bảng 10.13 Sentence/WSJ n-gram Độ phức tạp % Cải thiện (WM, Hàm) tri-gram 58,12 22,87% (29,1/Ti*Ln(Ti)) 5-gram 47,36 37,16% (29, 1/Ti) 7-gram 46,70 38,03% (29, Ln(Ti)/Ti) 9-gram 46,73 38,00% (29, Ln(Ti)/Ti) Bảng 10.11 Mô hình tần số trọng số Tiếng Anh CÂU /QUB n-gram Độ phức tạp % Cải thiện (WM, Hàm) tri-gram 85,88 30,15% (67, 1/Ti) 5-gram 73,55 40,18% (67, 1/Ti) 7-gram 72,63 40,93% (67, 1/Ti) 9-gram 72,47 41,06% (67, 1/Ti) Bảng 10.12 Mơ hình tần số trọng số Tiếng Việt GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 122 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam CÂU /QUB n-gram Độ phức tạp % Cải thiện (Phân rã, Cache) tri-gram 100,60 18,19% (150, 150) 5-gram 71,68 41,71% (150, 145) 7-gram 66,11 46,24% (150, 145) 9-gram 64,77 47,32% (150, 145) Bảng 10.13 Mơ hình tân số phân rã lũy thừa Tiếng Việt Mơ hình tri-gram 9-gram Thơng số tốt Tồn cục 0,00% 26,77% Nội suy tuyến tính 15,77% 34,32% λ=0,003, WM=29 Phân rã lũy thừa 8,13% 30,78% Phân rã=150, Cache=115 Trọng số tần số 22,87% 38,00% WM=29, Ln(Ti)/Ti Trọng số phân rã lũy thừa 22,84% 37,95% Phân rã=100,Cache=85, 1/Ti Bảng 10.14 Kết tất mơ hình tần số tiên nghiệm Tiếng Anh Mơ hình tri-gram 9-gram Thơng số tốt Tồn cục 0,00% 20,88% Nội suy tuyến tính 22,72% 36,20% λ=0.002, WM=46 Phân rã lũy thừa 18,19% 47,32% Phân rã=150,Cache=145 Tần số trọng số 30,15% 41,06% WM=67, 1/Ti Trọng số phân rã lũy thừa 30,10% 41,05% Phân rã=100, Cache=100, 1/Ti Bảng 10.15 Cải thiện độ phức tạp cho mơ hình tần số tiên nghiệm Tiếng Việt C Các kết cho mơ hình hậu nghiệm tiếng Anh tiếng Việt Chúng em khảo sát phương pháp tiếp cận để tính xác suất hậu nghiệm cách sử dụng năm mơ hình: mơ hình xác suất nội suy tuyến tính, mơ hình xác suất phân rã lũy thừa, mơ hình xác suất trọng số, mơ hình tần số nội suy tuyến tính mơ hình tần số trọng số Chúng em thấy hiệu suất tốt mơ hình hậu nghiệm mơ hình tần số trọng số cải tiến độ phức tạp 44,46% 53,34% cho tiếng Anh tiếng Việt, tốt nhiều so với phương pháp phân đoạn Iyer Ostendorf (1999), Clarkson (1997) GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 123 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Các kết mơ hình tần số trọng số hậu nghiệm hiển thị Bảng 10.16 Bảng 10.17 tất kết tốt cho mơ hình hậu nghiệm khác trình bày Bảng 10.18 Bảng 10.19 Độ phức tạp % Cải thiện Hàm trọng số tri-gram 5-gram 7-gram 9-gram tri-gram 5-gram 7-gram 9-gram Ti*Ln(Ti) 73,91 56,08 54,61 54,52 1,93% 25,59% 27,53% 27,66% Ti 73,77 56,00 54,54 54,45 2,11% 25,69% 27,62% 27,75% Ti/Ln(Ti) 73,62 55,92 54,47 54,38 2,31% 25,80% 27,72% 27,85% Sqrt(Ti) 71,88 54,92 53,56 53,48 4,63% 27,13% 28,93% 29,03% Ln(Ti) 67,91 52,52 51,35 51,30 9,88% 30,30% 31,86% 31,93% Sqrt(Ln(Ti)) 67,49 52,26 51,10 51,05 10,45% 30,65% 32,19% 32,26% Ln(1+Ln(Ti)) 67,34 52,17 51,02 50,97 10,64% 30,77% 32,30% 32,36% 1/Ln(1+Ln(Ti)) 66,72 51,79 50,66 50,62 11,47% 31,28% 32,78% 32,83% Sqrt(1/Ln(Ti)) 66,57 51,69 50,57 50,53 11,67% 31,41% 32,89% 32,95% 1/Ln(Ti) 66,07 51,39 50,29 50,25 12,32% 31,81% 33,27% 33,32% Sqrt(1/Ti) 58,31 46,54 45,73 45,72 22,63% 38,24% 39,32% 39,33% Ln(Ti)/Ti 52,00 42,71 42,16 42,19 31,01% 43,32% 44,06% 44,02% 1/Ti 51,45 42,44 41,92 41,96 31,73% 43,68% 44,37% 44,32% 1/Ti*Ln(Ti) 51,09 42,30 41,81 41,85 32,21% 43,87% 44,52% 44,46% Bảng 10.16 Mơ hình tần số trọng số hậu nghiệm Tiếng Anh Độ phức tạp Hàm trọng số % Cải thiện tri-gram 5-gram 7-gram 9-gram tri-gram 5-gram 7-gram 9-gram Ti*Ln(Ti) 122,45 98,83 97,16 96,87 0,41% 19,62% 20,98% 21,22% Ti 122,27 98,68 97,02 96,73 0,56% 19,74% 21,10% 21,33% Ti/Ln(Ti) 122,03 98,49 96,83 96,54 0,75% 19,90% 21,25% 21,48% Sqrt(Ti) 118,30 95,61 94,06 93,79 3,79% 22,25% 23,51% 23,72% Ln(Ti) 107,45 87,82 86,52 86,30 12,61% 28,58% 29,64% 29,82% Sqrt(Ln(Ti)) 106,05 86,82 85,55 85,33 13,75% 29,39% 30,42% 30,60% Ln(1+Ln(Ti)) 105,64 86,53 85,27 85,05 14,09% 29,63% 30,65% 30,83% 1/Ln(1+Ln(Ti)) 103,41 84,94 83,72 83,51 15,90% 30,92% 31,91% 32,08% Sqrt(1/Ln(Ti)) 102,96 84,62 83,41 83,20 16,27% 31,19% 32,17% 32,34% 1/Ln(Ti) 101,24 83,38 82,21 82,00 17,67% 32,19% 33,14% 33,31% Sqrt(1/Ti) 82,11 69,34 68,46 68,31 33,22% 43,61% 44,32% 44,45% Ln(Ti)/Ti 68,88 59,43 58,75 58,63 43,98% 51,67% 52,22% 52,32% GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 124 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam 1/Ti 67,31 58,35 57,71 57,59 45,26% 52,55% 53,07% 53,16% 1/Ti*Ln(Ti) 66,77 58,11 57,49 57,37 45,70% 52,74% 53,25% 53,34% Bảng 10.17 Mơ hình tần số trọng số hậu nghiệm Tiếng Việt Các mơ hình hậu nghiệm tri-gram 9-gram Thơng số tốt Tồn cục 0,00% 26,77% Xác suất nội suy tuyến tính 30,99% 44,20% λ=0.2 Xác suất phân rã lũy thừa 28,66% 42,82% Phân rã=100, Cache=5 Xác suất trọng số 30,82% 44,17% Sqrt(1/Ln(Ti)) Tần số nội suy tuyến tính 25,17% 40,66% λ=0.001 Tẩn số trọng số 32,21% 44,46% WM=16, 1/Ti*Ln(Ti) Bảng 10.18 Cải tiến mơ hình hậu nghiệm Tiếng Anh Mơ hình hậu nghiệm tri-gram 9-gram Thơng số tốt Tồn cục 0.00% 20.88% Xác suất nội suy tuyến tính 37.44% 47.63% λ=0.3 Xác suất phân rã lũy thừa 40.31% 49.28% Phân rã=15, Cache=99 Trọng số xác suất 37.62% 47.34% Ln(Ti) Tần số nội suy tuyến tính 36.21% 47.03% λ=0.001 Tần số trọng số 45.70% 53.34% WM=34, 1/Ti*Ln(Ti) Bảng 10.19 Độ cải thiện mơ hình hậu nghiệm Tiếng Việt D Tỉ lệ lỗi từ cho mơ hình hậu nghiệm cho tiếng Việt Chúng em sử dụng giải mã tiếng nói từ vựng tiếng Việt lớn liên kết năm mơ hình hậu nghiệm tiếng Việt Hệ thống nhận dạng tiếng Việt sở sử dụng ngơn ngữ mơ hình tri-gram Katz Back-Off, tính toán tỷ lệ lỗi từ (WER) Bảng 10.20 sau : Mơ hình hậu nghiệm Tỉ lệ lỗi từ WER % Cải thiện so với mơ hình sở Cơ sở 45.65% Xác suất nội suy tuyến tính 33.67% 11.98% Xác suất phân rã lũy thừa 35.78% 9.87% Trọng số xác suất 33.33% 12.32% GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 125 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Tần số nội suy tuyến tính 33.44% 12.21% Tần số trọng số 28.87% 16.78% Bảng 10.20 Tỉ lệ lỗi từ cho mơ hình hậu nghiệm Tiếng Việt Các thử nghiệm chúng em thực với tiếng nói Việt có nhiễu đủ trường hợp chèn/xóa/thay phoneme Chúng em mô tả khái niệm mô hình cá thể từ để cải thiện hiệu suất mơ hình ngơn ngữ Các mơ hình ngơn ngữ cá thể từ cho phép ghi lại xác miền mà từ yếu xuất cải thiện hiệu suất mơ hình Kết cho thấy mơ hình cá thể từ cung cấp phương tiện đầy hứa hẹn đơn giản, giới thiệu thơng tin miền vào mơ hình ngơn ngữ n-gram Con người nghe thấy âm số từ ngữ nói trước sử dụng hình thức mơ hình ngơn ngữ người để tạo thành câu hợp lý từ tiếng, đặc biệt có lỗi Vì vậy, ý tưởng sử dụng phương pháp hậu nghiệm để xác định miền thích hợp so với phương pháp tiên nghiệm Chúng em tin việc sử dụng từ xuất lúc nhiều lĩnh vực, mơ hình miền văn viết văn nói giúp nhận dạng tiếng nói Việt xác phương pháp miền khác GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 126 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam TÀI LIỆU THAM KHẢO Luận văn “Nhận dạng tiếng nói từ vựng lớn bền vững” khóa 2005 – 2009 Nguyễn Văn Khiêm, Cao Văn Kiên, Đào Duy Khanh, Trịnh Xuân Đạt A Waibel, A Badran, A W Black, R Frederking, D Gates, A Lavie, L Levin, K Lenzo, L Mayfield Tomokiyo, J Reichert, T Schultz, D Wallace, M Woszczyna, and J Zhang, “Speechalator: Two-way speech-to-speech translation in your hand,” in Proceedings of NAACL-HLT, 2003 T W Kăohler, C Făugen, S Stăuker, and A Waibel, “Rapid porting of ASRsystems to mobile devices,” in Proceedings of Interspeech, 2005 H Franco, J Zheng, J Butzberger, F Cesari, M Frandsen, J Arnold, V R R Gadde, A Stolcke, and V Abrash, “Dynaspeak: SRI’s scalable speech recognizer for embedded and mobile systems,” in Proceedsings of HLT, 2002 A Chan, J Sherwani, M Ravishankar, and A Rudnicky, “Four-layer categorization scheme of fast GMM computation techniques in large vocabulary continuous speech recognition systems,” in Proceedings of ICSLP, 2004 A Chan, M Ravishankar, and A Rudnicky, “On improvements of CI-based GMM selection,” in Proceedings of Interspeech, 2005 A Lee, T Kawahara, and K Shikano, “Gaussian mixture selection using context-independent HMM,” in Proceedings of ICASSP, 2001, vol 1, pp 69–72 A Waibel, A Badran, A W Black, R Frederking, D Gates, A Lavie, L Levin, K Lenzo, L Mayfield Tomokiyo, J Reichert, T Schultz, D Wallace, M Woszczyna, and J Zhang, “Speechalator: Two-way speech-to-speech translation in your hand,” in Proceedings of NAACL-HLT, 2003 Acero, A &Stern, R.M.,‘Environmental Robustness in Automatic Speech Recognition’,Proc.of ICASSP, pp.849-852, 1990 Aubert, X & Dugast, C., ‘Improved Acoustic-Phonetic Modelling in Philip’s Dictation System by Handling Liaisons and Multiple Pronunciations’,Proc of EuroSpeech’95, Vol 2, pp.767-770, 1995 B Pellom, R Sarikaya, and J H L Hansen, “Fast likelihood computation techniques in nearest-neighbor based search for continuous speech recognition,” IEEE Signal Processing Letters, vol 8, no 8, pp 221–224, July 2001 GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 127 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Bahl, L.R., Bakis, R., et al., ‘Large Vocabulary Natural Language Continuous Speech Recognition’, Proc of ICASSP’89, pp.465-467, 1989 Bahl, L.R., Brown, P.F., de Souza, P.V & Mercer, R.L., ‘Maximum Mutual Information Estimation of Hidden Markov Model Parameters for Speech Recognition’, Proc of ICASSP’86, pp.49-52, 1986 Bahl, L.R., de Souza, P.C., Gopalakrishnan, P.S., Nahamoo, D., Picheny, M.A & Watson, T.J., ‘Robust Methods for Using Context-Dependent Features and Models in a Continuous Speech Recognizer’, Proc of ICASSP’94, pp.I533-I536, 1994 Bahl, L.R., Jelinek, F., ‘Decoding for Channels with Insertions, Deletions and Substiutions, with Applications to Speech Recognition’, IEEE Trans Information Theory, IT-21, pp.404-411, 1975 Baker, J.K., ‘The DRAGON System – An Overview ‘, IEEE Trans on Acoustics, Speech and Signal Processing, Vol 23, pp.24-29, 1975 Bakis, R., Schen, S., Gopalakrishnan, P., Gopinath, R., Maes, S & Polymenakos, L., ‘Transcription of Broadcast News – System Robustness Issues and Adaptation Techniques’, Proc of ICASSP’97, pp.711-714, 1997 Baum, L.E & Pertrie, T., ‘Statistical Inference for Probabilistic Functions of Finite State Markov Chains’, Ann Math Stat., Vol 37, pp.1554-1563, 1966 Baum, L.E & Sell, G.R., ‘Growth Functions for Transformation on Manifolds’, Prac Journal Math.27(2), pp.211-227, 1968 Bellegarda, J., ‘Statistical Techniques for Robust AST: Review and Perspectives’, Proc of EuroSpeech’97, pp.KN33-36, 1997 Lee, T Kawahara, and K Shikano, “Gaussian mixture selection using contextindependent HMM,” in Proceedings of ICASSP, 2001, vol 1, pp 69–72 Ben Gold and Nelson Morgan, Speech and Audio Signal Processing, John Wiley & Sons, INC, New York, 2000 Bourland, H., ‘Towards Increasing Speech Recognition Error Rates’, Proc of EuroSpeech’95, Vol 2, pp.883-894, 1995 Brown, P.F., ‘The Acoustic-Modelling Problem in Automatic Speech Recognition’, Technical Report, IBM Thomas J Watson Research Centre, 1987 GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 128 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Brown, P.F., Della Pietra, V.J., de Souza, P.V., Lai, J.C & Mercer, R.L., ‘Classbased N-Gram Models of Natural Language’, Proc of the IBM Natural Language ITL, 1990 Chen, S.F & Goodman, J., ‘An Empirical Study of Statistical Techniques for Language Modelling’, Proc of the 34th Annual Meeting of the ACL, pp.310-318, 1996 Cole.R.,et.al.,‘The Challenge of spoken language systems: Research directions for the nineties’, IEEE Trans.on Speech and Audio Processing, 3(1), pp.1-21, 1995 Davis, S.B & Mermelstein, P., ‘Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences’, IEEE Trans on Acoustic, Speech and Signal Processing, ASSP-28, pp.357-366, 1980 Deller, J.R., Proakis, J.G & Hansen, J., ‘Discrete-Time Processing of Speech Signals’, Macmillian, 1993 DeMori, R & Kuhn, R., ‘A Cache-based Natural Language Model for Speech Recognition’, IEEE Trans on Pattern Analysis and Machine Intelligence, 12(6), pp.570-583, 1990 Dempster, A.P., Laird, N.M & Rubinm D.B., ‘Maximum Likelihood from Incomplete Data via the EM Algorithm’, Journal of the Royal Statistical Society, Vol 39, pp.1-88, 1977 Frederick Jelinek, Statistical Methods for Speech Recognition, The MIT Press Cambridge, Massachusetts London, England, 1997 Fry, D.B & Denes, P., ‘The Solution of Some Fundamental Problems in Mechanical Speech Recognition’, Language and Speech, Vol 1, pp.35-58, 1958 Good, I.J., ‘The Population Frequencies of Species and the Estimation of Population Parameters’, Biometrika, Vol 40, pp.237-254, 1953 H Franco, J Zheng, J Butzberger, F Cesari, M Frandsen, J Arnold, V R R Gadde, A Stolcke, and V Abrash, “Dynaspeak: SRI’s scalable speech recognizer for embedded and mobile systems,” in Proceedsings of HLT, 2002 H V Sorensen, D L Jones, M T Heideman, and C S Burrus, “Real-valued fast fourier transform algorithms,” IEEE Transactions on Acoustic, Speech, and Signal Processing, vol 35, no 6, pp 849–863, 1987 GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 129 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Hermansky, H., Morgan, N., Bayya, A & Kohn, P., ‘Compensation for the Effects of the Communication Channel in Auditory-like Analysis of Speech’, Proc of Eurospeech’91 pp.1367-1370,1991 Huang, X.D., Ariki, Y & Jack M.A., ‘Hidden Markov Models for Speech Recognition’, Edinburgh University Press, 1990 Huang, X.D., Hon, H.W., Hwang, M.Y & Lee, K.F., ‘A Comparative Study of Discrete Semi-continuous, and Continuous Hidden Markov Models’, Computer Speech and Language, Vol 7, pp.359-368, 1993 J Fritsch and I Rogina, “The bucket box intersection (BBI) algorithm for fast approximative evaluation of diagonal mixture Gaussians.,” in Proceedings of ICASSP, 1996, pp 837–840 Jeanrenaud, P., Eide, E., Chaudhari, U., McDonough, J., Ng, K., Siu M & Gish, H., ‘Reducing Word Error Rate on Conversational Speech From the Switchboard Corpus’, Proc of ICASSP’95, pp.53-56, 1995 Jeff A.Bilmes, A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models, International Computer Science Institute, April 1998 Jelinek, F., ‘A Fast Sequential Decoding Algorithm Using a Stack’, IBM J.Res.Develop., Vol 13, 1969 Jelinek, F., ‘Continuous Speech Recognition by Statistical Methods’, Proc of IEEE, 64(4), 1976 Jelinek, F., Mercer, R.L & Bahl, L.R., ‘A Maximum Likelihood Approach to Continuous Speech Recognition’, IEEE Trans on Pattern Analysis and Machine Intelligence, Vol 5, pp.179-190, 1983 Junqua, J.C & Anglade, Y., ‘Acoustic and Perceptual Studies of Lombard Speech: Application to Isolated-Word Automatic Speech Recognition’, Proc of ICASSP’90, pp.841-844, 1990 Kenny, P., Hollan, R., Gupta, V., Lennig, M & Mermelstein, P., ‘A*admissible heuristics for rapid lexical access’, Proc of ICASSP’91, pp689-692, 1991 Lacouture, R & Normandin, Y., ‘Efficient Lexical Access Strategies’, Proc of Eurospeech’93, pp.1537-1540, 1993 GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 130 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Lawrence R.Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of the IEEE, Vol.77, No.2, February 1989 Lawrence Rabiner and Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice-Hall, New Jersey, 1993 Lee, K-F., Hon, H-W & Reedy, R., ‘An Overview of the SPHINX Speech Recognition System’, IEEE Trans on Acoustic, Speech, Signal Processing, Vol 38, pp.35-45, 1990 Levinson, S.E., ‘Continuously Variable Duration Hidden Markov Models for Automatic Speech Recognition’, Computer Speech and Language, 1(1), pp.29-45, 1986 Levinson, S.E., Rabiner, L.R & Sondhi, M.M., ‘An Introduction to the Application of the Theory of Probabilistic Functions of a Markov Process to Automatic Speech Recognition’, The Bell Systems Technical Journal, 62(4), 1983 M K Ravishankar, Efficient Algorithms for Speech Recognition, Ph.D thesis, Carnegie Mellon University, May 1996 M Ravishankar, “Some results on search complexity vs accuracy,” in DARPA Speech Recognition Workshop, 1997 M Ravishankar, R Bisiani, and E Thayer, “Sub-vector clustering to improve memory and speed performance of acoustic likelihood computation,” in Proceedings of Eurospeech, 1997, pp 151–154 M Woszczyna, Fast Speaker Independent Continuous Speech Recognition, Ph.D thesis, Universităat Karlsruhe; Institut făur Logik, Komplexităat und Deduktionssysteme, 1998 Mariani, J., ‘Recent Advances in Speech Recognition’, Proc of ICASSP’89, Vol 1, pp.429-440, 1989 Merhav, N & Ephraim, Y., ‘Maximum Likelihood Hidden Markov Modeling using a Dominant State Sequence of States’, IEEE Trans on Signal Processing, 39(9), pp.2111-2114, 1991 Ney, H Mergel, D., Noll A., Paeseler, A., ‘A Data Driven Organization of the Dynamic Programming Beam Search for Continuous Speech Recognition’, Proc of ICASSP’87, 20.10.1-4, 1987 GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 131 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Ney, H., Mergel, D., Noll, A & Paesler, A., ’Data Driven Search Organization for Continuous Speech Recognition’, IEEE Trans on Signal Processing, 40(2), pp.272-281, 1992 Owens, F.J., ‘Signal Processing of Speech’, Macmillan Press, 1993 Paul, D.B., ‘Algorithm for an Optimal A* Search and Linearizing the Search in the Stack Decoder’, Proc of ICASSP’91, pp.693-696, 1991 Paul, D.B., ‘An Efficient A* Stack Decoder Algorithm for Continuous Speech Recognition with a Stochastic Language Model’, Proc of ICASSP’92, pp.25-28, 1992 Rabiner, L.R., ‘A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition’, Proc of IEEE, 77(2), 1989 Robinson, A.J., Holdsworth, J., Patterson, R & Fallside, F., ‘A Comparison of Preprocessors for the Cambridge Recurrent Error Propagation Network Speech Recognition System’, Proc of ICSLP, 1990 Shannon, C.E., ‘A Mathematical Theory of Communication’, Bell System Technical Journal, Vol 27, pp.379-423, pp623-656, 1948 Sloboda, T & Waibel, A., ‘Dictionary Learning for Spontaneous Speech Recognition’, Proc of ICSLP’96, pp.2328-2331, 1996 Steven M.Kay, Fundamentals of Statistical Signal Processing: Estimation Theory, Prentice-Hall, Upper Saddle River, 1993 T W Kăohler, C Făugen, S Stăuker, and A Waibel, Rapid porting of ASRsystems to mobile devices,” in Proceedings of Interspeech, 2005 The Shannon Lecture, Hidden Markov Models and the Baum-Welch Algorithm, IEEE Information Theory Society Newsletter, Vol.53, No.4, December 2003, pp 1, 10 - 13 Trask, R.L., ‘A Dictionary of Phonetics and Phonology’, Routledge, 1996 Valtchev, V., ‘Discriminative Methods in HMM-based Speech Recognition’, Doctoral Thesis, Cambridge University, 1995 Vintsjuk, T.K., ‘Recognition of Words of Oral Speech by Dynamic Programming’, Kibernetika, 81(8), 1968 Viterbi, A.J., ‘Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm’, IEEE Trans on Information Theory, Vol IT-13, pp.260-269, 1967 GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 132 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Wiabel, A & Lee, K.F., ‘Readings in Speech Recognition’, Morgan Kaufmann, 1990 Witten, I & Bell, T., ‘The Zero Frequency Problem: Estimating the Probability On Novel Events In Adaptive Text Compression’, IEEE Trans on Information Theory, Vol 37, pp.1085-1094, 1991 Young, S.J., ‘A Review of Large-vocabulary Continuous-speech Recognition’, IEEE Trans Signal Processing, pp.45-57, 1996 Young, S.J., ‘The General Use of Tying in Phoneme-Based HMM Speech Recognisers’, Proc of ICASSP’92, pp.I569-I572, 1992 Young, S.J., Oh, Y.H & Shin, G.C., ‘Improved Lexicon Modeling for Continuous Speech Recognition’, Proc of ICASSP’97, pp.1827-1830, 1997 Young, S.J., Russell, N.H & Thornton, J.H.S., ‘Token Passing: A Simple Conceptual Model for Connected Speech Recognition Systems’, Technical Report CUED/F-INFENG/TR38, Cambridge University Engineering Department, 1989 Clarkson, P R., & Robinson, A J (1997) Language Model Adaptation Using Mixtures and an Exponentially Decaying Cache IEEE ICASSP 2, 799-802 Munich, Germany Donnelly, P G., Smith, F J., Sicilia-Garcia, E I., & Ming, J (1999) Language Modelling With Hierarchical Domains Eurospeech 4, 1575-1578 Budapest Donnelly, P (1998) A Domain Based Approach to Natural Language Modelling PhD Thesis Queen’s University Belfast, Northern Ireland Good, I J (1953) The Population Frequencies of Species and the Estimation of Population Parameters Biometrika 40, 237-254 Iyer, R M., & Ostendorf, M (1999) Modeling Long Distance Dependence in Language: Topic Mixture Versus Dynamic Cache Models IEEE Transactions on Speech and Audio Processing 17(1), 30-39 Jelinek, F., Mercer, R L., & Bahl, L R (1983) A Maximum Likelihood Approach to Continuous Speech Recognition IEEE Transactions on Pattern Analysis and Machine Intelligence 5, 179-190 GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 133 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Katz, S M (1987) Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recogniser IEEE Transactions on Acoustic Speech and Signal Processing 35(3), 400-401 Kuhn, R., & De Mori, R (1990) A Cache-Based Natural Language Model for Speech Recognition IEEE Transactions on Pattern Analysis and Machine Intelligence 12(6), 570-583 Lau, R., Rosenfeld, R., & Roukos, S (1993) Trigger-based Language models: A Maximum entropy approach IEEE ICASSP 2, 45-48 Minneapolis, MN Nguyen Van Khiem, Cao Van Kien, Dao Duy Khanh, Le Quan Ha, Stewart, D W and Smith, F J 2009 A Posteriori Individual Word Language Models CML1, 257-270 Constantza, Romania O’Boyle, P., Owens, M., & Smith, F J (1994) Average n-gram Model of Natural Language Computer Speech and Language 8, 337-349 Paul, D B., & Baker, J M (1992) The Design for the Wall Street Journalbased CSR corpus ICSLP, 899-902 Seymore, K., Chen, S., & Rosenfeld, R (1998) Nonlinear Interpolation of Topic Models for Language Model Adaptation ICSLP 6, 2503-2506 Sicilia-Garcia, E I (2002) A Study in Dynamic Language Modelling PhD Thesis Queen’s University Belfast, Northern Ireland Sicilia-Garcia, E I., Ming, J., & Smith, F J (2001) Triggering Individual Word Domains in n-gram Language Models Eurospeech 1, 701-704 Aalborg Sicilia-Garcia, E I., Ming, J., & Smith, F J (2002) Individual Word Language Models and the Frequency Approach ICSLP, 897-900 Denver, Colorado Sicilia-Garcia, E I., Ming, J., & Smith, F J (2005) A posteriori multiple worddomain language model Interspeech-Eurospeech, 1285-1288 Lisbon, Portugal GVHD : TS Lê Quân Hà KS Nguyễn Văn Khiêm - 134 - SVTH : Tiến Long-Ngọc Thắm Hữu Tình ... Thắm Hữu Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam • Nhận dạng Điện Thoại Di Động 3.2.2 Các test nhận dạng tiếng nói Việt Nam cho câu khơng có huấn luyện • Nhận Dạng Từ Vựng... Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam CHƯƠNG : BÀI TỐN NHẬN DẠNG TIẾNG NÓI 1.1 Giới thiệu Một nhận dạng tiếng nói thiết bị có khả tự động chuyển đổi tiếng nói thành văn Hình. .. Tình Tích hợp Mơ Hình Ngơn Ngữ vào nhận dạng tiếng nói Việt Nam Nội dung đề tài, vấn đề cần giải quyết: 5.1 Mơ hình trọng số trung bình 5.2 Mơ hình ngơn ngữ QUB tiếng Việt Nam 5.3 Các mơ hình

Ngày đăng: 27/02/2019, 11:50

Xem thêm: TÍCH HỢP CÁC MÔ HÌNH NGÔN NGỮ VÀO NHẬN DẠNG TIẾNG NÓI VIỆT NAM

TÍCH HỢP CÁC MÔ HÌNH NGÔN NGỮ VÀO NHẬN DẠNG TIẾNG NÓI VIỆT NAM

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan