Nghiên cứu công nghệ nhận dạng tiếng nói và ứng dụng xây dựng hệ thống hỗ trợ dịch cabin

LỜI CẢM ƠN Trước bước vào trình trình bày chi tiết trình học tập thực đồ án tốt nghiệp thân thời gian qua Cho phép gửi lời cảm ơn đến người bên tôi, động viên giúp đỡ trình thực nghiên cứu, tìm hiểu đề tài trình hoàn thiện đề tài, để thân hoàn thành thời hạn với đề tài nghiên cứu thân Cho phép gửi lời cảm ơn tới Ban giám hiệu trường Đại học Công nghệ thông tin truyền thông thầy cô tham gia công tác giảng dạy trường cố gắng nỗ lực để tạo môi trường học tập tốt cho thân bạn sinh viên trường với trang thiết bị hỗ trợ ý nâng cấp đại qua năm Cho phép gửi lời cảm ơn tới thầy cô môn Hệ thống thông tin – Khoa công nghệ thông tin – Trường đại học Côg nghệ thông tin truyền thông giảng dạy, truyền đạt kiến thức chuyên ngành định hướng cho bạn sinh viên hướng thân để phù hợp với lực thân Cho phép gửi lời cảm ơn chân thành tới TS Nguyễn Văn Tới – người thầy hướng dẫn thực đồ án tốt nghiệp Cảm ơn thầy tạo điều kiện xây dựng định hướng kĩ cho thân để thực đề tài nghiên cứu tốt Tiếp theo cho gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Ái Việt – người tận tình bảo, định hướng cụ thể để thân có chuẩn bị rõ ràng, tiếp thu ý kiến bổ ích để thân thực đồ án tốt nghiệp với đề tài: “Nghiên cứu công nghệ nhận dạng tiếng nói ứng dụng xây dựng hệ thống hỗ trợ dịch Cabin” Qua cho gửi lời cảm ơn tới cô Lê Ngọc Hồng – Chủ tịch HĐQT kiêm Giám đốc Công ty VIEGRID JSC, toàn thể anh chị nhân viên công ty tạo điều kiên cho em làm việc môi trường nghiêm túc hướng dẫn bảo tận tình cho thân em trình thực đề tài nghiên cứu thân Cuối cho gửi lời cảm ơn chân thành tới tất người, người thân, bạn bè bên cạnh tôi, động viên, giúp đỡ để vững tâm thực đồ án với nỗ lực thân Xin chân thành cảm ơn! Thái Nguyên, ngày … tháng … năm …… Sinh viên thực Nguyễn Khắc An MỤC LỤC LỜI CẢM ƠN .1 MỤC LỤC DANH MỤC HÌNH ẢNH MỞ ĐẦU TÓM TẮT NỘI DUNG .8 CHƯƠNG I: SƠ LƯỢC VỀ DỊCH CABIN .9 1.1 Khái niệm dịch Cabin 1.2 Thành phần 1.3 Hiện trạng thực tế 10 CHƯƠNG II: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 11 2.1 Tổng quan nhận dạng tiếng nói 11 2.1.1 Khái niệm 11 2.1.2 Nguyên tắc nhận dạng tiếng nói 12 2.1.3 Cách tiếp cận .12 2.2 Một số công trình nghiên cứu nhận dạng tiếng nói .12 2.2.1 Quốc tế .12 2.2.2 Việt Nam 16 2.3 Ứng dụng nhận dạng tiếng nói .16 CHƯƠNG III: CMU SPHINX 18 3.1 Giới thiệu 18 3.1.1 Các tính 18 3.1.2 Các lợi ích sử dụng Sphinx 19 3.2 Kiến trúc Sphinx 19 3.2.1 Bộ ngoại vi (FontEnd) 21 3.2.2 Bộ giải mã (Decoder) 22 3.2.3 Bộ ngôn ngữ (Linguist) 23 CHƯƠNG IV: CHƯƠNG TRÌNH DEMO 26 4.1 Cài đặt 26 4.1.1 Tải gói Sphinx cần thiết 26 4.1.2 Cài đặt 26 4.2 Xây dựng ngôn ngữ .28 4.2.1 Xây dựng từ điển 28 4.2.2 Xây dựng mô hình ngôn ngữ 29 4.2.3 Xây dựng mô hình âm học 32 4.2.4 Tiến hành huấn luyện 36 4.2.5 Huấn luyện thích nghi 38 4.3 Chương trình Demo 43 4.3.1 Giao diện chương trình demo: .43 4.3.2 Đánh giá 43 KẾT LUẬN .53 Kết đạt 53 Những điểm hạn chế 53 Hướng nghiên cứu phát triển .53 TÀI LIỆU THAM KHẢO 55 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 57 DANH MỤC HÌNH ẢNH Hình 1.1 : Mô hình dịch Cabin Hình 2.1: Mô hình tổng quát nhận dạng tiếng nói 11 Hình 3.1: Kiến trúc Sphinx 20 Hình 3.2: Kiến trúc tổng quát Ngoại vi 21 Hình 3.3: Chuỗi Dataprocessor trình xử lý 22 Hình 3.4: Ví dụ đồ thị tìm kiếm đơn giản 25 Hình 4.1: cài đặt Sphinx Ubuntu .26 Hình 4.2: Sơ đồ trình tạo mô hình ngôn ngữ công cụ CMUcmltk .29 Hình 4.4: Giao diện ứng dụng nhận dạng HDH Window 43 Hình 4.5: Blue score – AJHope – Direct 44 Hình 4.6: Accuracy – AJHope – Direct .45 Hình 4.7: Blue score - Kennedy - Direct 45 Hình 4.8: Accuracy - Kennedy – Direct 46 Hình 4.9: Blue score - Nicxon – Direct 46 Hình 4.10: WER – Nicxon – Direct 47 Hình 4.11: Accuracy - Nicxon - Direct 47 Hình 4.12: Blue score - Kennedy nhận dạng AJHope 48 Hình 4.13: WER – Kennedy nhận dạng AJHope .48 Hình 4.14: Accuracy - Kennedy nhận dạng AJHope 49 Hình 4.15: Blue score - Kennedy nhận dạng Nicxon 49 Hình 4.16: WER – Kennedy nhận dạng Nicxon .50 Hình 4.17: Accuracy - Kennedy nhận dạng Nicxon 50 Hình 4.18: Blue score - Kennedy nhận dạng Nicxon 51 Hình 4.19: WER – Kennedy nhận dạng Nicxon .51 Hình 4.20: Accuracy - Kennedy nhận dạng Nicxon 52 MỞ ĐẦU Công nghệ nhận dạng tiếng nói, lĩnh vực dành quan tâm hàng đầu nhà nghiên cứu lĩnh vực Công nghệ thông tin Ngay từ năm kỉ XX, tức công nghệ thông tin bắt đầu đặt móng để phát triển, đề tài hay ý tưởng nhận dạng tiếng nói xử lý ngôn ngữ hình thành Cùng với trình phát triển công nghệ thông tin, bước đột phá việc nâng cấp phần cứng, cải thiện hiệu sử dụng đời hệ điều hành hỗ trợ người dùng thân thiện hơn; nhận dạng tiếng nói ngày nhận quan tâm nhiều để nghiên cứu ứng dụng vào thực tế, nhằm mục đích hỗ trợ tối đa người dùng thiết bị tăng thêm hiệu sử dụng thiết bị cá nhân thiết bị máy móc khác Ngày nay, công nghệ phát triển mạnh mẽ thay đổi liên tục, mà thiết bị phần cứng, đặc biệt thiết bị di động rơi vào trình bão hoà Nhận dạng tiếng nói lại trở thành đề tài ý đến hàng đầu với công nghệ thực tế ảo, máy tính lượng tử… Các ông lớn lĩnh vực công nghệ Google, Samsung, Apple… góp mặt tham gia nghiên cứu có cho sản phẩm riêng để ứng dụng vào thực tế cho sản phẩm Nhận thấy tiềm to lớn lĩnh vực này, với định hướng giáo viên hướng dẫn Em lựa chọn đề tài nghiên cứu: “Nghiên cứu nhận dạng tiếng nói ứng dụng để xây dựng hệ thống hỗ trợ dịch Cabin” Với mục đích nghiên cứu công nghệ nhận dạng tiếng nói, tìm xây dựng ứng dụng công nghệ vào lĩnh vực thực tế để hỗ trợ cho người dùng sản phẩm mang tính ứng dụng cao hữu ích cho sống Và hi vọng đóng góp nhỏ bé nghiên cứu thân phần sử dụng vào thực tế Trong đồ án này, em xin trình bày công cụ nhận dạng tiếng nói Sphinx với trình cài đặt, huấn luyện đánh giá mức độ hiệu công cụ này, nhằm có hướng thích hợp cho dự án Trong trình nghiên cứu thực đề tài, thân em tránh khỏi sai sót điểm hạn chế Mong quý thầy cô bạn tham gia đóng góp ý kiến để thân em hoàn thiện tốt đề tài thân, trình thực ứng dụng thực tế sau tốt TÓM TẮT NỘI DUNG Bài luận văn chia làm chương: - Chương I : Sơ lược dịch Cabin o Giới thiệu khái niệm dịch Cabin o Các thành phần cấu thành o Tình hình thực tế, đánh giá tính hiệu - Chương II: Tổng quan nhận dạng tiếng nói o Khái niệm nhận dạng tiếng nói o Giới thiệu số mô hình liên quan o Tính ứng dụng mô hình, đánh giá hiểu tiềm phát triển Nêu khó khăn hạn chế - Chương III: CMU Sphinx o Giới thiệu CMU Sphinx o Các thành phần cấu thành, nguyên lý hoạt động o Cài đặt chương trình o Xây dựng thư viện mẫu - Chương IV: Demo o Đưa lý chọn đề tài o Các bước thực o Đánh giá tính hiệu sản phẩm - Kết đạt được, hạn chế - Hướng phát triển CHƯƠNG I: SƠ LƯỢC VỀ DỊCH CABIN 1.1 Khái niệm dịch Cabin Dịch Cabin hiểu đơn giản trình phiên dịch trực tiếp, dịch song song Nhiệm vụ người dịch Cabin lắng nghe người đọc đồng thời phiên dịch lại thành ngôn ngữ mà người nghe yêu cầu Giúp cho đối thoại diễn hiệu liên tục Đây công việc phức tạp đòi hỏi phiên dịch viên việc am hiểu rõ ngôn ngữ phải có khả lắng nghe, phản xạ nhanh với tình yêu cầu tính xác cao 1.2 Thành phần Hình 1.1 : Mô hình dịch Cabin Thành phần mô hình dịch Cabin thường sử dụng bao gồm phiên dịch viên thiết bị thu phát âm cần thiết - Phiên dịch viên: người tham gia trực tiếp vào trình dịch Thông thường họ ngồi phòng kín gọi Cabin, nhiệm vụ họ đeo tai nghe để nghe trực tiếp âm từ người nói, đồng thời dịch song song với trình sang ngôn ngữ người nghe yêu cầu hiểu trò chuyện - Thiết bị thu âm, phát âm: bao gồm tai nghe, mic số thiết bị hỗ trợ khác để trình phiên dịch diễn dễ dàng với phiên dịch viên 1.3 Hiện trạng thực tế Thực tế, công việc mệnh danh dành cho “quái kiệt” mức độ khó, tính chất phức tạp công việc Trong thời điểm gần đồng thời, người phiên dịch phải lắng nghe người nói qua tai nghe dịch song song lúc cho người nghe lắng nghe nắm bắt nội dung câu chuyện Điều khiến người phiên dịch viên phải tập trung cao độ, lắng nghe, xử lý ứng biến nhanh nhạy để bắt kịp theo câu chuyện, phản ánh truyền đạt người nói Chưa hết, khó khăn gặp phải hội thảo mang tính đặc thù chuyên ngành, việc ngôn ngữ chuyên ngành trở ngại không nhỏ trình phiên dịch người phiên dịch viên Ngày nay, với hội nhập cao, đàm phán diễn liên tục với mật độ dày đặc, đặt cấp bách cho công việc Nhân lực để đáp ứng cho mô hình dịch Cabin ngày giảm, chất lượng phần bị ảnh hưởng nhiều Giá nhân công cho chương trình hội thảo không rẻ Trung bình khoảng từ 200$ - 300$/ngày Đặc biệt hội thảo mang tính đặc thù giá phải trả cho phiên dịch viên lên tới 1000$/ngày Điều cấp bách đặt cho ý tưởng ứng dụng giải pháp công nghệ thông tin vào phục vụ nhu cầu phiên dịch, nhằm giải toán dịch Cabin giảm lệ thuộc vào người trước 10 4.3 Chương trình Demo 4.3.1 Giao diện chương trình demo: Hình 4.4: Giao diện ứng dụng nhận dạng HDH Window Ứng dụng nhận dạng âm qua file âm qua MIC 4.3.2 Đánh giá a Dữ liệu dùng để đánh giá: Các nói giáo viên dạy tiếng anh (AJ Hope) với file âm chuẩn, không nhiễu, phát âm rõ ràng, có phụ đề xác tương ứng với liệu âm Các nói tổng thống Mỹ Kennedy, Nicxon với file âm bị nhiễu, phụ đề không tương ứng 100% với liệu âm b Phương pháp đánh giá Có hai phương pháp đánh giá phổ biến: - Phương pháp người: phương pháp thực trực tiếp người Các tester làm nhiệm vụ thống kê đưa từ công cụ biên dịch với văn gốc, sau tính tỉ lệ đưa đánh giá Tuy nhiên, phương pháp phù hợp với mô hình liệu nhỏ, với mô hình liệu lớn, việc đánh giá tốn nhiều thời gian chi phí bỏ để trả cho lượng nhân công tương xứng 43 - Phương pháp đánh giá tự động: BLEU(Bilingual Evaluation Understudy) thuật toán để đánh giá chất lượng văn máy dịch từ ngôn ngữ tự nhiên khác Ý tưởng phương pháp so sánh kết dịch tự động máy với dịch mẫu người, dịch máy giống với dịch mẫu người dịch xác Việc so sánh thực thông qua việc thống kê trùng khớp từ hai dịch có tính đến thứ tự chúng câu (phương pháp n-grams theo từ) Thang điểm BLEU tính khoảng từ – 1, điểm BLEU gần tỉ lệ dịch cao c Kết đánh giá  File âm nhận dạng trùng với file huấn luyện - Các nói AJ Hope Hình 4.5: Blue score – AJHope – Direct 44 Hình 4.6: Accuracy – AJHope – Direct - Các nói Kennedy Hình 4.7: Blue score - Kennedy - Direct 45 Hình 4.8: Accuracy - Kennedy – Direct - Các nói Nixon Hình 4.9: Blue score - Nicxon – Direct 46 Hình 4.10: WER – Nicxon – Direct Hình 4.11: Accuracy - Nicxon - Direct Kết nhận dạng DNS tốt PocketSphinx, phần lý DNS hệ thống nhận dạng phụ thuộc người nói, PocketSphinx hệ thống nhận dạng không phụ thuộc người nói Nói cách khác, DNS biết trước số đặc tính người nói trước thực nhận dạng Nếu mô hình ngữ âm dùng để nhận dạng PocketSphinx thích nghi người nói trước nhận dạng, độ xác cải thiện 47  Nhận dạng chéo - Kennedy nhận dạng AJ Hope : Hình 4.12: Blue score - Kennedy nhận dạng AJHope Hình 4.13: WER – Kennedy nhận dạng AJHope 48 Hình 4.14: Accuracy - Kennedy nhận dạng AJHope - Kennedy nhận dạng Nicxon (DNS) Hình 4.15: Blue score - Kennedy nhận dạng Nicxon 49 Hình 4.16: WER – Kennedy nhận dạng Nicxon Hình 4.17: Accuracy - Kennedy nhận dạng Nicxon 50 - Nicxon nhận dạng Kennedy (DNS) Hình 4.18: Blue score - Kennedy nhận dạng Nicxon Hình 4.19: WER – Kennedy nhận dạng Nicxon 51 Hình 4.20: Accuracy - Kennedy nhận dạng Nicxon Kết nhận dạng chéo cho thấy, DNS dùng để nhận dạng người khác, kết tương đương thấp so với PocketSphinx (tùy mô hình ngữ âm) Như vậy, trường hợp cần thay DNS PocketSphinx phương án khả thi 52 KẾT LUẬN Kết đạt Sau trình tìm hiểu, nghiên cứu phương pháp nhận dạng tiếng nói, đề tài đạt mục tiêu sau: - Tìm hiểu khái niệm có liên quan đến dịch Cabin, mô hình dịch Cabin điều kiện khó khăn thuận lợi mô hình - Tìm hiểu khái niệm có liên quan đến hệ nhận dạng tiếng nói từ hiểu vận dụng số yếu tố quan trọng việc sử dụng công cụ hỗ trợ - Tìm hiểu phương pháp cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng nói Sphinx Trong bao gồm việc chi tiết hóa bước cài đặt thực Các bước xây dựng mô hình huấn luyện - Xây dựng huấn luyện với liệu annk - Đánh giá khả nhận dạng PocketSphinx DNS - Huấn luyện thích ứng thành công - Xây dựng giao diện nhận dạng tiếng nói Desktop Những điểm hạn chế Những mặt hạn chế: - Bộ từ vựng Để có tự vựng lớn đòi hỏi phải bỏ nhiều công sức bao gồm thu thập liệu, xây dựng mô hình phiên âm xác, thu âm, phân tích ngữ pháp,… - Mô hình ngữ âm hạn chế nên độ xác chưa cao - Chưa thực huấn luyện nhiều ngôn ngữ để ứng rộng rãi vào thực tế - Chưa tối ưu thuật toán tăng tốc độ nhận dạng, xử lý giọng nói Hướng nghiên cứu phát triển Do việc thu âm xử lý liệu chưa phong phú nên kết chưa tốt Việc khắc phục cách thu nhiều mẫu huy động thêm người tình nguyện để thu âm Có thể xem xét tận dụng nguồn âm tiếng nói radio, internet để làm phong phú thêm liệu huấn luyện 53 Ngoài cần phát triển thêm phần sau: - Khảo sát thêm đặc điểm ngữ âm tiếng Việt huấn luyện nhận dạng tiếng Việt - Cải tiến phương pháp tách từ, tách tạp âm câu để có kết nhận dạng tốt - Tìm hiểu thêm mô hình ngôn ngữ thuật toán tìm kiếm nhận dạng tiếng nói để tăng tốc độ nhận dạng - Mở rộng vốn từ vựng tự điển, thực thu âm số với quy mô rộng rãi hơn, đa dạng giọng nói giúp nhận dạng xác - Xây dựng ứng dụng cụ thể hóa sử dụng mô hình huấn luyện Các ứng dụng tương tác người thiết bị giọng nói, hỗ trợ thông minh cho thiết bị hỗ trợ hoạt động người khuyết tật 54 TÀI LIỆU THAM KHẢO S Franz, “Analysis of available Software”,http://simonlistens.org/index.php? id=124&L=1 http://julius.sourceforge.jp/en_index.php http://www.voxforge.org/home/downloads http://www.keithv.com/software/ 5.http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language %20Models/ Willie Walker, Paul Lamere, Philip Kwok, Bhiksha Raj, Rita Singh, Evandro Gouvea, Peter Wolf, Joe Woelfel, Sphinx-4: A Flexible Open Source Framework for Speech Recognition, URL: http://twiki.di.uniroma1.it/pub/NLP/WebHome/Sphinx4Whitepaper.pdf Akinobu Lee and Tatsuya Kawahara, Recent Development of Open-Source Speech Recognition Engine Julius, Nagoya Institute of Technology, Nagoya, Dragon Nartually Speaking, Whitepaper Joel Gould, Implementation and Acceptance of NatLink, a Python-Based Macro System for Dragon NaturallySpeaking, Recently of Dragon Systems 10 Akinobu Lee The julius book: http://globalbase.dl.sourceforge.jp/julius/47534/Juliusbook-4.1.5.pdf 11 http://julius.sourceforge.jp/en_index.php?q=index-en.html\#about_models 12 http://www.repository.voxforge1.org/downloads/Main/Tags/Releases/ 13 Takehito Utsuro, Yasuhiro Kodama, Tomohiro Watanabe, Hiromitsu Nishizaki, and Seiichi Nakagawa An empirical study on multiple lvcsr model combination by machine learning In Daniel Marcu Susan Dumais and Salim Roukos, editors, HLT-NAACL 2004: Short Papers, pages 1316, Boston, Massachusetts, USA, May - May 2004 Association for Computational Linguistics 14 Sphinx4 Team, Sphinx4 Architecture Overview, Sphinx4 MIT Lunch Discussion December 18, 2002 15 http://www.jaivox.com/pocketsphinx.html 55 16 Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland, HTK Book, Cambridge University Engineering Department, 2009 17 L Rabiner, A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition, 1989 18 B.H Juang, Lawrence R Rabiner, "Automatic Speech Recognition – A Brief History of the Technology" 19 S Furui, "50 years of progress in speech and speaker recognition" 20 [Online] Available: http://www.cslu.ogi.edu/toolkit/ [Accessed 2012] 21 "Digital audio," [Online] Available: http://en.wikipedia.org/wiki/Digital_audio [Accessed 2012] 22 Red Hat, [Online] Available: http://www.cygwin.com/ [Accessed 2012] 23 Carnegie Mellon University, [Online] http://cmusphinx.sourceforge.net/ [Accessed 2012] 24 "Training Acoustic Model For CMUSphinx," Carnegie Mellon University, [Online] Available: http://cmusphinx.sourceforge.net/wiki/tutorialam [Accessed 2012] 25 [Online] Available: http://audacity.sourceforge.net/ [Accessed 2012] 26 Quách Tuấn Ngọc, Mai Công Nguyên (1998), Nhận dạng lời nói liên tục với từ vựng lớn, Tiểu luận môn Nhận dạng tiếng nói, Đại học Bách khoa Hà Nội 27 Quách Tuấn Ngọc, Phạm Xuân Trường (1998), Phương pháp phân tích xử lý nhận dạng tiếng nói, Tiểu luận môn Xử lý tiếng nói, Đại học Bách khoa Hà Nội 28 Phan Nguyễn Phục Quốc, Hà Thúc Phùng (2009), Hệ thống nhận dạng tiếng nói, Luận văn Đại học, Đại học Bách khoa TP.HCM 29 https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20 Models/ 30 https://github.com/ibillxia/CMUSphinx 31 http://stackoverflow.com/questions/22141873/cmu-sphinx-acoustic-modeltraining-hangs 56 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 57 ... đề tài nghiên cứu: Nghiên cứu nhận dạng tiếng nói ứng dụng để xây dựng hệ thống hỗ trợ dịch Cabin Với mục đích nghiên cứu công nghệ nhận dạng tiếng nói, tìm xây dựng ứng dụng công nghệ vào lĩnh... Accuracy - Kennedy nhận dạng Nicxon 52 MỞ ĐẦU Công nghệ nhận dạng tiếng nói, lĩnh vực dành quan tâm hàng đầu nhà nghiên cứu lĩnh vực Công nghệ thông tin Ngay từ năm kỉ XX, tức công nghệ thông tin... TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 2.1 Tổng quan nhận dạng tiếng nói 2.1.1 Khái niệm Nhận dạng tiếng nói trình nhận dạng mẫu, với mục đích phân lớp thông tin đầu vào tín hiệu tiếng nói thành dãy

Nghiên cứu công nghệ nhận dạng tiếng nói và ứng dụng xây dựng hệ thống hỗ trợ dịch cabin

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan