Nhận dạng tiếng nói qua mô hình markov ẩn và nghiên cứu điều khiển vài ứng dụng máy tính bằng lời nói

TRƯỜNG ĐẠI HỌC AN GIANG KHOA KỸ THUẬT - CÔNG NGHỆ - MÔI TRƯỜNG NGUYỄN VĂN HỘI KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CỬ NHÂN TIN HỌC NHẬN DẠNG TIẾNG NÓI QUA MÔ HÌNH MARKOV ẨN VÀ NGHIÊN CỨU ĐIỀU KHIỂN VÀI ỨNG DỤNG MÁY TÍNH BẰNG LỜI NÓI An Giang, 08/2010 TRƯỜNG ĐẠI HỌC AN GIANG KHOA KỸ THUẬT - CÔNG NGHỆ - MÔI TRƯỜNG NGUYỄN VĂN HỘI KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH CỬ NHÂN TIN HỌC NHẬN DẠNG TIẾNG NÓI QUA MÔ HÌNH MARKOV ẨN VÀ NGHIÊN CỨU ĐIỀU KHIỂN VÀI ỨNG DỤNG MÁY TÍNH BẰNG LỜI NÓI GV hướng dẫn: Ths Trương Hoàng Vinh An Giang, 05/2010 LỜI NÓI ĐẦU Đã từ lâu, thích lĩnh vực khoa học đặc biệt lĩnh vực khoa học công nghệ máy tính Tôi có ước mơ lớn để máy tính người giao tiếp trực tiếp với Thực điều mở nhiều ứng dụng lĩnh vực đời sống ,vươn tới kỹ nghệ cao khoa học máy tính Nghiên cứu lĩnh vực nhận dạng tiếng nói xuất từ trước Nhưng nay, đạt số thành công hệ thống tiếng anh: hệ thống nhận dạng tiếng nói tích hợp Office XP, phần mềm Via Voice IBM Những hệ thống hoạt động tốt chưa đạt đến ước mơ người Đối với, hệ thống nhận dạng tiếng việt chưa thấy xuất thị trường Với lý trên, với giúp đỡ Thầy, Anh khoa Kỹ Thuật – Công Nghệ - Môi Trường trường Đại Học An Giang, định chọn đề tài: “Nhận Dạng Tiếng Nói Qua Mô Hình Markov Ản Và Nghiên Cứu Điều Khiển Vài Ứng Dụng Máy Tính Bằng Lời Nói” nhằm nghiên cứu phương pháp nhận dạng tiếng nói, xây dựng thử nghiệm hệ thống nhận dạng cở nhỏ để điều khiển vài ứng dụng máy tính lời nói Thực đề tài bước khởi đầu để thực ước mơ Hy vọng, sau nhà trường tạo điều kiện cho phát triển hoài bảo tương lai Các đối tượng cần nghiên cứu đề tài này: tìm hiểu đặc trưng tín hiệu âm tiếng nói, tìm hiểu giải thuật nhận dạng tiếng nói, xây dựng thử nghiệm phần mềm: điều khiển vài ứng dụng máy tính lời nói Trong khóa luận này, lựa chọn mô hình markov ẩn để nhận dạng tiếng nói Bởi vì, có ưu điểm so với mô hình khác mô hình mạng neural Nhưng có điều kiện kết hợp hai mô hình lại, vì: Mô hình Markov Ẩn cho xác suất nhận dạng cao tốc độ nhận dạng chậm số lượng phép tính lớn Trong đó, mô hình mạng neural ngược lại Sau thời gian thực hiện, cố gắn thời gian, phương tiện, công cụ,… hạn chế nên kết nghiên cứu chưa thỏa mản thân Trong tương lai, có điều kiện hệ thống phát triển hoàn thiện tốt LỜI CẢM ƠN Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc tới Thạc sỹ Trương Hoàng Vinh, thầy nhiệt tình hướng dẫn, giúp đỡ tài liệu, phương pháp học,…trong suốt thời gian làm khóa luận vừa qua Em cảm ơn Anh Trương Minh Tuyền, Thầy Đỗ Thanh Cao, gợi ý, cung cấp thêm tài liệu nghiên cứu cho em Em cảm ơn Thầy, Cô khoa Kỹ Thuật-Công Nghệ-Môi Trường, trường Đại Học An Giang tận tình bảo, giúp đỡ tạo điều kiện cho em trình học tập, nghiên cứu thực hoài bảo Cảm ơn bạn lớp DH7TH đặc biệt bạn Lê Hiệp Hùng động viên, giúp đỡ để hoàn thành tốt công việc Con xin cảm ơn Cha mẹ toàn thể gia đình lòng biết ơn sâu đậm tình cảm thân thương Con cảm ơn tất cả! Cảm ơn Long Xuyên, ngày 14 tháng 05 năm 2010 Nguyễn Văn Hội Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội MỤC LỤC Mục lục Danh mục hình Phần A: LÝ THUYẾT Chƣơng I: GIỚI THIỆU Chƣơng II: LÝ THUYẾT VỀ ÂM THANH Giới thiệu âm Cơ quan phát âm người Chƣơng III: NHẬN DẠNG TIẾNG NÓI Giới thiệu Một số khái niệm Phân loại hệ thống nhận dạng tiếng nói Các nghành liên quan đến nhận dạng tiếng nói 5 Những khó khăn nhận dạng tiếng nói 6 Ba nguyên tắc nghiên cứu nhận dạng tiếng nói Chƣơng IV: MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI Giới thiệu Quá trình Markov ẩn Khái niệm mô hình Markov ẩn Các thành phần HMM Ba toán Phân loại Ứng dụng nhận dạng từ Chƣơng V: QUI TRÌNH NHẬN DẠNG TIẾNG NÓI 10 Giới thiệu 10 Qui trình nhận dạng tiếng nói 10 Phần B: MÔ PHỎNG ỨNG DỤNG 24 Chƣơng VI: XÂY DỰNG CHƢƠNG TRÌNH THỰC TẾ 24 Giới thiệu 24 Một số giao diện ban đầu chương trình 25 Chƣơng VII: KẾT LUẬN 28 Tóm tắt trình thực 28 Các công việc thực 28 Các công việc chưa thực 29 Hướng phát triển 29 TÀI LIỆU THAM KHẢO 30 Trang Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội DANH MỤC HÌNH Hình 1: Cơ quan phát âm người Hình 2: Mô hình Markov ẩn Hình 3: Sơ ứng dụng nhận dạng từ Hình 4: Sơ đồ giai đoạn huấn luyện 11 Hình 5: Lược đồ giải thuật Huấn luyện HMM 11 Hình 6: Sơ đồ giai đoạn nhận dạng 12 Hình 7: Lược đồ giải thuật nhận dạng sử dụng mô hình Markov Ẩn 13 Hình 8: Sơ đồ tổng quát hệ thống nhận dạng 13 Hình 9: Tiếng nói “chín” chưa xử lý 14 Hình 10: Tiếng nói “chín” qua tiền xử lý ( cắt khoảng lặng ) 15 Hình 11: Tiếng nói “chín” sau trích đặc trưng chia thành phần 18 Hình 12: Tiếng nói “một” chưa xử lý 19 Hình 13: Tiếng nói “một” qua tiền xử lý ( cắt khoảng lặng ) 19 Hình 14: Tiếng nói “một” sau trích đặc trưng chia thành phần 23 Hình 15: Tiếng nói “mở word” chưa xử lý 23 Hình 16: Tiếng nói “mở word” qua tiền xử lý ( cắt khoản lặng ) 23 Hình 17: Tiếng nói “tắt máy” chưa xử lý 24 Hình 18: Tiếng nói “tắt máy” qua tiền xử lý ( cắt khoản lặng ) 24 Hình 19: Giao diện 25 Hình 20: Giao diện nhận dạng số 26 Hình 21: Giao diện nhận dạng câu lệnh 27 Trang Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Phần A: LÝ THUYẾT Chƣơng I: GIỚI THIỆU Ngôn ngữ lời nói phương tiện đắc lực giao tiếp người Ngôn ngữ gồm có ngôn điệu ngữ điệu Ngôn điệu lời nói lại liên kết chặt chẽ với ngữ điệu Ngôn điệu mang lại âm sắc riêng biệt cho tiếng nói người Còn ngữ điệu nâng cao hạ thấp giọng nói Do đó, việc nghiên cứu phương pháp để nhận dạng lời nói người công việc vô hấp dẫn đầy khó khăn Nó mở nhiều ứng dụng lĩnh vực: kinh tế, văn hóa, xã hội trị Nội dung chương trình bày luận văn sau: Chương I Giới thiệu: trình bày nội dung chương Chương II Lý thuyết âm thanh: giới thiệu âm quan phát âm người Chương III Nhận dạng tiếng nói: trình bày khái niệm liên quan đến việc nhận dạng tiếng nói giúp ta hiểu rõ khái niệm: nhận dạng mẫu, nhận dạng tiếng nói, máy học, học có giám sát, phân biệt nhận dạng tiếng nói với tổng hợp tiếng nói, nhận dạng lệnh với nhận dạng người nói Trong luận văn nghiên cứu nhận dạng tiếng nói với việc nhận dạng lệnh Một số khó khăn nhận dạng tiếng nói, nghành liên quan, phân loại hệ thống nhận dạng tiếng nói trình bày chương Chương IV Mô hình Markov ẩn ứng dụng nhận dạng tiếng nói: trình bày mô hình Markov Ẩn (Hidden Markov Model), mô hình nhận dạng hiệu so với mô hình khác, cho xác suất nhận dạng xác cao Đây hướng tiếp cận với phương pháp đối sánh mẫu xác suất, tức mô hình so sánh mẫu cần nhận dạng với mẫu huấn luyện trước Chương V Qui trình nhận dạng tiếng nói: trình bày bước thực hệ thống nhận dạng tiếng nói, vẽ sơ đồ, giải thuật dùng hệ thống, giải thích sơ đồ tổng quát cho giai đoạn nhận dạng trình bày số hình ảnh biễu diễn tín hiệu âm tiếng nói sử dụng hệ thống, từ hình ảnh tín hiệu chưa xử lý đến hình ảnh tín hiệu qua trình tiền xử lý (cắt khoảng lặng) đến hình ảnh tín hiệu trích đặc trưng Chương VI Xây dựng chương trình thực tế: trình bày việc xây dựng ứng dụng thực tế mô trình nhận dạng tiếng nói ứng dụng hệ thống vào việc điều khiển số chương trình ứng dụng máy tính như: điều khiển nhóm Office, nhóm ứng dụng, nhóm hệ thống Windown XP, tạo thư mục,… số công cụ cần cho nghiên cứu Chƣơng II: LÝ THUYẾT VỀ ÂM THANH Giới thiệu âm Âm dao động học ( biến đổi vị trí qua lại) phần tử, nguyên tử hay hạt làm nên vật chất lan truyền vật chất sóng Âm giống nhiều sóng, đặc trưng tần số, bước sóng, chu kỳ, biên độ vận tốc lan truyền ( tốc độ âm ) Trang Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Đối với thính giác người, âm thường dao động dải tần số từ khoảng 20 Hz đến khoảng 20 kHz phần tử không khí, lan truyền không khí, va đập vào màng nhĩ, làm rung nhĩ kích thích não Tuy nhiên, âm định nghĩa rộng hơn, tùy vào ứng dụng bao gồm tần số cao hay thấp tần số mà tai người nghe thấy không lan truyền không khí mà vật liệu Trong định nghĩa rộng âm sóng học, sóng coi dòng lan truyền hạt lượng tử âm Cả tiếng ồn âm nhạc âm Trong việc truyền tín hiệu âm thanh, tiếng ồn dao động ngẫu nhiên không mang tín hiệu Tiếng nói chuỗi âm khác kết hợp lại Các âm chuyển tiếp chúng đóng vai trò biểu diễn thông tin cần truyền đạt Thứ tự xếp âm tuân theo quy tắc ngôn ngữ Để hiểu rõ âm tiếng nói ta xem xét đến quan phát âm người Cơ quan phát âm ngƣời Hình 1: Cơ quan phát âm người Không khí vào phổi thông qua hô hấp ( chưa tạo tiếng nói ) Không khí xuất phát từ phổi thông qua khí quản làm căng dây quản tạo dao động không khí Dao động không khí xung theo chu kì qua họng, khoang miệng, khoang mũi Sự kết hợp phận máy phát âm tạo âm khác * Cơ chế tạo tiếng nói Phổi đóng vai trò nguồn không khí kích thích máy phát âm Các lồng ngực đẩy không khí khỏi phổi qua phế quản khí quản Nếu dây âm căng lên, luồng không khí làm cho dây dao động tạo âm Nếu dây âm không căng, luồng không khí tiếp tục gặp vật cản tạo âm vô như: /s/, /sh/ gặp điểm cuối tạo áp suất đó, áp suất giải phóng cách đột ngột tạo âm bật như: /t/, /p/ Trang Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Chƣơng III: NHẬN DẠNG TIẾNG NÓI Giới thiệu Trong chương III trình bày khái niệm liên quan đến việc nhận dạng tiếng nói giúp ta hiểu rõ khái niệm: nhận dạng mẫu, nhận dạng tiếng nói, máy học, học có giám sát, phân biệt nhận dạng tiếng nói với tổng hợp tiếng nói, nhận dạng lệnh với nhận dạng người nói Trong luận văn nghiên cứu nhận dạng tiếng nói với việc nhận dạng lệnh Một số khó khăn nhận dạng tiếng nói, nghành liên quan, phân loại hệ thống nhận dạng tiếng nói trình bày chương Một số khái niệm Nhận dạng tiếng nói trình nhận dạng mẫu với mục đích phân lớp thông tin đầu vào thành dãy mẫu học trước lưu nhớ Mỗi mẫu đơn vị nhận dạng hay âm vị hay từ Trong đó, nhận dạng mẫu nghành thuộc lĩnh vực học máy ( machine learning) hay máy học, thuộc lĩnh vực trí tuệ nhân tạo, tập phương pháp học có giám sát (supervised), cần thực tác động vào liệu thô ( tác động tùy thuộc vào loại liệu ), mục đích phân loại liệu dựa kiến thức tiên nghiệm thông tin thống kê từ mẫu liệu có sẵn Machine learning: kỹ thuật mà máy tính “học” Supervised: kỹ thuật xây dựng hàm từ liệu huấn luyện, nhiệm vụ dự đoán giá trị hàm cho đối tượng tức đối tượng thông tin đầu vào Ta cần phân biệt: Nhận dạng tiếng nói: từ sóng tiếng nói người nói máy nhận biết chuyển thành liệu văn thực thi câu lệnh mà người điều khiển muốn nói Tổng hợp tiếng nói: từ liệu văn lưu sẵn trước máy phân tích chuyển thành tiếng người nói Trong khái niệm nhận dạng tiếng nói ta lại cần phân biệt: Nhận dạng lệnh: thực thi lệnh máy mà người điều khiển yêu cầu Nhận dạng người nói: dựa vào lời nói người mà máy cho thông tin lưu trữ trước họ Phân loại hệ thống nhận dạng tiếng nói Có hai loại: Hệ thống nhận dạng từ rời rạc Hệ thống nhận dạng từ liên tục Kích thước từ điển nhỏ ( từ vài chục đến vài trăm từ ) Kích thước từ điển trung bình lớn ( vài trăm từ trở lên ) Trong luận văn thực hệ thống nhận dạng từ rời rạc Các nghành liên quan đến nhận dạng tiếng nói Trang Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Recognition pattern: Nhận dạng mẫu Digital signal processing: Xử lý tín hiệu số Linguistic: Ngôn ngữ học Acoustic: vật lý ( âm học ) Những khó khăn nhận dạng tiếng nói Tín hiệu âm thời điểm khác khác về: Yếu tố: trọng âm, ngữ điệu, tốc độ, âm sắc, âm vực, âm bị ảnh hưởng âm liền kề… Cùng âm tiết, người nói câu khác Ba nguyên tắc nghiên cứu nhận dạng tiếng nói Tín hiệu tiếng nói biểu diễn xác giá trị phổ khung thời gian ngắn Nhờ ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn dùng đặc điểm làm liệu để nhận dạng tiếng nói Nội dung tiếng nói biểu diễn dạng chữ viết, dãy ký hiệu ngữ âm Do đó, ý nghĩa phát âm bảo toàn phiên âm phát âm thành dãy ký hiệu ngữ âm Nhận dạng tiếng nói trình nhận thức Thông tin ngữ nghĩa suy đoán có giá trị trình nhận dạng tiếng nói, thông tin âm học không rõ ràng Chƣơng IV: MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI Giới thiệu Trong chương IV trình bày mô hình Markov Ẩn (Hidden Markov ModelHMM), mô hình nhận dạng hiệu so với mô hình khác, cho xác suất nhận dạng xác cao Đây hướng tiếp cận với phương pháp đối sánh mẫu xác suất, tức mô hình so sánh mẫu cần nhận dạng với mẫu huấn luyện trước Mỗi từ sau trải qua giai đoạn trích đặc trưng ta thu dãy vector P chiều kí hiệu t1, t2, …, tn Dãy vector đặc trưng biến đổi thành quan sát sau lượng tử hóa vector kí hiệu o1, o2, …, on Quá trình Markov ẩn Xét tiến triển hệ thống theo thời gian, kí hiệu qt vị trí hệ thời điểm t, S = {Si}là không gian trạng thái (các vị trí mà hệ xuất tương lai) - Ở thời điểm t hệ trạng thái Si, xác suất chuyển sang trạng thái (Sj thời điểm t’) phụ thuộc vào trạng thái độc lập với khứ (tức phụ thuộc vào t, t’, Si, Sj) ta gọi tính Markov Trang Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 16 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 17 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 11: Tiếng nói “chín” sau trích đặc trưng chia thành phần Trang 18 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 12: Tiếng nói “một” chưa xử lý Hình 13: Tiếng nói “một” qua tiền xử lý ( cắt khoảng lặng ) Trang 19 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 20 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 21 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 22 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 14: Tiếng nói “một” sau trích đặc trưng chia thành phần Hình 15: Tiếng nói “mở word” chưa xử lý Hình 16: Tiếng nói “mở word” qua tiền xử lý ( cắt khoản lặng ) Trang 23 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 17: Tiếng nói “tắt máy” chưa xử lý Hình 18: Tiếng nói “tắt máy” qua tiền xử lý ( cắt khoản lặng ) Phần B: MÔ PHỎNG ỨNG DỤNG Chƣơng VI: XÂY DỰNG CHƢƠNG TRÌNH THỰC TẾ Giới thiệu Trong chương này, xây dựng ứng dụng thực tế mô trình nhận dạng tiếng nói ứng dụng hệ thống vào việc điều khiển số chương trình ứng dụng máy tính như: Điều khiển nhóm office: mở Word, Excel, Access, PowerPoint, FrontPage Sau đó, kết hợp với hệ thống nhận dạng tiếng nói tích hợp OfficeXP để đóng ứng dụng điều khiển số chức office cụ thể Word Điều khiển nhóm ứng dụng: mở JetAudio, Movie Maker, Calculator, notepad, Control Điều khiển nhóm hệ thống: Shutdown, Restar, Stand by, Log Off, Lock Workstation Một số công cụ cần cho nghiên cứu: Công cụ lập trình: C# ( sử dụng version 2008 ) Công cụ huấn luyện mô hình nhận dạng: Matlab ( sử dụng version 7.7 R2008b ), thực hiện: thu âm, tiền xử lý, trích đặc trưng, nhận dạng,… Công cụ xử lý tiếng nói: phần mềm Adobe Audition ( phát triển từ phần mềm CoolEdit ) có chức năng: cắt khoảng lặng, cắt từ, lọc nhiễu, lọc phổ, biễu diễn tín hiệu tiếng nói,… Trang 24 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Một số giao diện ban đầu chƣơng trình 2.1 Giao diện Hình 19: Giao diện Trang 25 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội 2.2 Giao diện nhận dạng số Hình 20: Giao diện nhận dạng số Trang 26 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội 2.3 Giao diện nhận dạng câu lệnh Hình 21: Giao diện nhận dạng câu lệnh Trang 27 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Chƣơng VII: KẾT LUẬN Tóm tắt trình thực Hệ thống nhận dạng tiếng nói thực trải qua hai giai đoạn: Giai đoạn 1: Tạo sở liệu, gồm bước: Thu âm Tiền xử lý Trích đặc trưng Lượng tử hóa vector Lưu vào sở liệu Lặp lại cho tất tiếng nói cần nhận dạng Giai đoạn 2: Nhận dạng, gồm bước: Thu âm Tiền xử lý Trích đặc trưng Lượng tử hóa vector Nhận dạng Các công việc thực đƣợc Thiết kế giao diện cho chương trình Viết hàm tác động đến hệ thống Viết hàm thu âm tín hiệu tiếng nói Viết hàm tiền xử lý tín hiệu tiếng nói Thực trích đặc trưng tín hiệu tiếng nói lượng tử hóa vector Tạo sở liệu mẫu Kết nối Matlab C# Viết chương trình phát âm từ máy tính để trả lời với người điều khiển Biễu diễn tín hiệu tiếng nói máy tính Thực sơ cấp chức nhận dạng số Thực tốt chức nhận dạng câu lệnh Thực thao tác thư mục: tạo, xóa, di chuyển, vào thư mục, thư mục, lên, xuống thư mục, …theo tên Giảng Viên, Sinh Viên, cấp định sẵn Đặc biệt điều khiển đóng, mở CD ROM tiếng nói cách dễ dàng Cơ sở liệu mẫu dễ dàng mở rộng với số lượng lớn Trang 28 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Các công việc chƣa thực Đang mở rộng thêm sở liệu mẫu lấy mẫu từ nhiều người để kết nhận dạng cao Còn tìm hiểu việc kết hợp mô hình Markov ẩn với mạng Neural Hƣớng phát triển Tiếp tục phát triển hệ thống hoàn chỉnh để kết nhận dạng xác Trang 29 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội TÀI LIỆU THAM KHẢO Lawrence, Rabiner 1989 “A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition” IEEE, VOL.77, NO.2 Lawrence, Rabiner, Biing-Hwuang Juang 1993 “Fundamental of Speech Recognition” Prentice Hall Lê Tiến Thường 2002 “Xử lý tín hiệu số wavelets” Nhà xuất Đại Học Quốc Gia TPHCM Mark Gales, Steve Young “The Application of Hidden Markov Model in Speech Recognition ” Nguyễn Hoàng Hải, Nguyễn Khắc Kiềm 2003 “Lập trình Matlab” Nhà xuất Khoa Học Kỹ Thuật Nguyễn Quốc Đính, TS Huỳnh Thái Hoàng “Thiết kế nhận dạng tiếng nói dựa tảng DSP TMS320C2812”, Khoa Điện-Điện tử, Đại Học Bách khoa TPHCM Nguyễn Văn Giáp, KS Trần Việt Hồng “Kĩ thuật nhận dạng tiếng nói ứng dụng điều khiển”, Bộ môn Cơ Điện tử, khoa Cơ khí, Đại Học Bách khoa TPHCM Trang 30 [...]... xử lý Hình 13: Tiếng nói “một” qua tiền xử lý ( cắt khoảng lặng ) Trang 19 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 20 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 21 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 22 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 14: Tiếng nói “một” sau khi... dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 16 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 17 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 11: Tiếng nói “chín” sau khi trích đặc trưng chia thành 8 phần Trang 18 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 12: Tiếng nói “một” khi chưa xử lý Hình. .. biễu diễn tín hiệu tiếng nói, … Trang 24 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội 2 Một số giao diện ban đầu của chƣơng trình 2.1 Giao diện chính Hình 19: Giao diện chính Trang 25 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội 2.2 Giao diện nhận dạng số Hình 20: Giao diện nhận dạng số Trang 26 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn... sang phải Điều này phù hợp với cấu trúc tự nhiên của tiếng nói là biến thiên theo thời gian từ trái sang phải Có ba loại mô hình Markov ẩn ( phân loại dựa vào tính chất của hàm phát xạ quan sát) + Mô hình Markov ẩn rời rạc + Mô hình Markov ẩn liên tục + Mô hình Markov ẩn bán liên tục: mô hình này là sự kết hợp của hai mô hình: rời rạc và liên tục 7 Ứng dụng trong nhận dạng từ Ta cần nhận dạng bộ từ... dựng một ứng dụng thực tế mô phỏng về quá trình nhận dạng tiếng nói và ứng dụng hệ thống vào việc điều khiển một số chương trình ứng dụng của máy tính như: Điều khiển nhóm office: mở Word, Excel, Access, PowerPoint, FrontPage Sau đó, kết hợp với hệ thống nhận dạng tiếng nói tích hợp của OfficeXP để đóng ứng dụng hoặc điều khiển một số chức năng của office cụ thể là Word Điều khiển nhóm ứng dụng: mở... lý do mà mô hình Markov được gọi là mô hình Markov Ẩn Trang 7 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Ví dụ 3: Hình 2: Mô hình Markov ẩn 4 Các thành phần của HMM Mô hình Markov ẩn bao gồm các thành phần: + [1, 2, …, N]: là các trạng thái + N: là số trạng thái của mô hình + qt: là trạng thái tại thời điểm t + O = { o1, o2, …, oM}: là tập các quan sát + M: là số lượng quan sát... “một” sau khi trích đặc trưng chia thành 8 phần Hình 15: Tiếng nói “mở word” khi chưa xử lý Hình 16: Tiếng nói “mở word” qua tiền xử lý ( cắt khoản lặng ) Trang 23 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 17: Tiếng nói “tắt máy khi chưa xử lý Hình 18: Tiếng nói “tắt máy qua tiền xử lý ( cắt khoản lặng ) Phần B: MÔ PHỎNG ỨNG DỤNG Chƣơng VI: XÂY DỰNG CHƢƠNG TRÌNH THỰC TẾ... nhận dạng Kết quả nhận dạng còn phụ thuộc vào giọng đọc của người điều khiển có chính xác hay không * Một số hình ảnh biểu diễn tín hiệu âm thanh + Biễu diễn tín hiệu của tiếng nói được thu âm trong vòng 3 giây: Hình 9: Tiếng nói “chín” khi chưa xử lý Trang 14 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Hình 10: Tiếng nói “chín” qua tiền xử lý ( cắt khoảng lặng ) Trang 15 Nhận dạng. .. nhận dạng sử dụng mô hình Markov Ẩn * Sơ đồ tổng quát của hệ thống nhận dạng: Tiếng nói Thu âm Tín hiệu thô Tiền x.lý Tín hiệ u đã xử lý Huấn luyện Vector đặc trưng Trích đặc trưng Kết quả Vector đặc trưng Nhận dạng HMM Hình 8: Sơ đồ tổng quát của hệ thống nhận dạng Trang 13 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Tín hiệu tiếng nói( THTN ) được thu âm thông qua microphone... 28 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội 3 Các công việc chƣa thực hiện Đang mở rộng thêm cơ sở dữ liệu mẫu và lấy mẫu từ nhiều người để kết quả nhận dạng cao Còn đang tìm hiểu việc kết hợp mô hình Markov ẩn với mạng Neural 4 Hƣớng phát triển Tiếp tục phát triển hệ thống hoàn chỉnh hơn để kết quả nhận dạng được chính xác hơn Trang 29 Nhận dạng tiếng nói ( điều khiển ứng dụng ... Mô Hình Markov Ản Và Nghiên Cứu Điều Khiển Vài Ứng Dụng Máy Tính Bằng Lời Nói nhằm nghiên cứu phương pháp nhận dạng tiếng nói, xây dựng thử nghiệm hệ thống nhận dạng cở nhỏ để điều khiển vài ứng. .. tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 20 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn Văn Hội Trang 21 Nhận dạng tiếng nói ( điều khiển ứng dụng máy tính) Nguyễn... đến nhận dạng tiếng nói 5 Những khó khăn nhận dạng tiếng nói 6 Ba nguyên tắc nghiên cứu nhận dạng tiếng nói Chƣơng IV: MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI

Nhận dạng tiếng nói qua mô hình markov ẩn và nghiên cứu điều khiển vài ứng dụng máy tính bằng lời nói

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan