NHẬN DẠNG GIỌNG nói TIẾNG VIỆT để điều KHIỂN XE lăn THÔNG MINH

Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng i Lời cảm ơn Để thực hiện đề tài: “Nhận dạng giọng nói Tiếng Việt để điều khiển xe lăn thông minh”, bản thân tôi đã nhận đƣợc rất nhiều sự chỉ dẫn, giúp đỡ và động viên quý báu từ gia đình, thầy cô và bạn bè. Trƣớc hết, tôi xin bày tỏ lòng cảm ơn sâu sắc đối với Thầy Huỳnh Thái Hoàng, giáo viên hƣớng dẫn đã động viên và tận tình hƣớng dẫn cho tôi về phƣơng pháp nghiên cứu khoa học, đã cung cấp cho tôi rất nhiều kiến thức chuyên sâu để thực hiện đề tài này. Tôi cũng vô cùng cảm ơn các Thầy, Cô trong Khoa Điện – Điện tử, Trƣờng Đại Học Bách Khoa Tp.HCM đã giảng dạy và hƣớng dẫn tôi trong suốt thời gian học đại học. Nhờ các Thầy, Cô mà tôi có đủ kiến thức và tự tin để thực hiện đề tài nghiên cứu này cũng nhƣ các đề tài nghiên cứu khác trong tƣơng lai. Bên cạnh đó, sự hợp tác và giúp đỡ của bạn bè và các thế hệ đàn anh đi trƣớc cũng giúp tôi rất nhiều trong việc thực hiện đề tài này. Tôi cũng xin cảm ơn gia đình đã luôn chăm sóc, quan tâm và động viên trong quá trình học tập. Và cuối cùng, tôi xin gửi lời cảm ơn tới những ngƣời đã giúp đỡ tôi trong quá trình thực hiện Đồ án II mà tôi thiếu sót chƣa nêu tên ở đây, sự giúp đỡ của họ dù ít hay nhiều cũng đóng góp một phần vào kết quả thực hiện đề tài đồ án môn học này để chuẩn bị thật tốt cho đề tài luận văn sắp tới. Tp. Hồ Chí Minh, ngày 17 tháng 06 năm 2014 Nguyễn Vũ Nhật Hoàng Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng ii Giới thiệu đề tài: Tiếng nói là phƣơng tiện giao tiếp cơ bản nhất của con ngƣời, sử dụng lời nói là một cách diễn đạt đơn giản và hiệu quả nhất. Đã từ lâu, con ngƣời luôn mơ ƣớc đến các hệ thống máy điều khiển tự động có thể giao tiếp bằng tiếng nói tự nhiên của con ngƣời. Ngày nay, cùng với sự phát triển của khoa học kỹ thuật và công nghệ, đặc biệt trong lĩnh vực tin học, các hệ thống máy tự động đã dần thay thế con ngƣời trong nhiều công việc. Nhu cầu giao tiếp với thiết bị máy bằng tiếng nói là rất cần thiết, đó là phƣơng thức giao tiếp văn minh và tự nhiên nhất. Nhận dạng tiếng nói là một vấn đề không mới. Trên thế giới đã và đang có có rất nhiều công trình nghiên cứu về vấn đề này với rất nhiều phƣơng pháp nhận dạng tiếng nói khác nhau. Và những nghiên cứu đó cũng có những thành công đáng kể. Nhƣng đối với nƣớc ta, nhận dạng tiếng nói vẫn là một lĩnh vực khá mới mẻ. Chỉ có một số công trình của các nhóm nhƣ: AILab, Vietvoice, Vspeech… nghiên cứu đến vấn đề này. Đến nay tuy đã có nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt và đã đạt đƣợc một số thành tựu, nhƣng nhìn chung vẫn chƣa đạt đƣợc kết quả cần thiết để có thể tạo ra các sản phẩm mang tính ứng dụng cao. Với mong muốn có thể dùng tiếng nói Tiếng Việt để điều khiển xe lăn thông minh, đồ án này nghiên cứu các phƣơng pháp nhận dạng tiếng nói Tiếng Việt, từ đó xây dựng một chƣơng trình demo nhận dạng tiếng nói tiếng Việt để phát triển lên luận văn “ Nhận dạng giọng nói Tiếng Việt để điều khiển xe lăn thông minh”. Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng iii Đồ án gồm 05 chƣơng: Chương 1: Tổng quan về tình hình trong và ngoài nƣớc liên quan đến việc nhận dạng tiếng nói, mục tiêu đề tài và giới hạn của đề tài. Chương 2: Trình bày về hệ nhận dạng tiếng nói. Chương 3: Các khái niệm liên quan đến hệ nhận dạng tiếng nói và hỗ trợ cho công cụ SPHINX. Chương 4: Giới thiệu về công cụ hỗ trợ nhận dạng tiếng nói CMUSphinx Chương 5: Kết quả chƣơng trình demo nhận dạng tiếng nói Tiếng Việt dùng trong điều khiển xe lăn thông minh sử dụng công cụ Sphinx và kết luận. Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng iv MỤC LỤC Lời cảm ơn i Giới thiệu đề tài ii Mục lục iv Chƣơng 1: Tổng quan 1 1.1. Tổng quan về tình hình trong và ngoài nƣớc 2 1.2. Mục tiêu đạt đƣợc 4 1.3. Giới hạn đề tài 5 Chƣơng 2: Trình bày về hệ nhận dạng tiếng nói 6 2.1. Giới thiệu 7 2.2. Phân loại các hệ thống nhận dạng tiếng nói 8 2.3. Một số phƣơng pháp nhận dạng tiếng nói 8 Chƣơng 3: Các khái niệm liên quan đến hệ nhận dạng tiếng nói và hỗ trợ cho công cụ Sphinx 10 3.1. Rút trích đặc trƣng tín hiệu tiếng nói 11 3.1.1. Khái niệm 11 3.1.2. Làm rõ tín hiệu 12 3.1.3. Tách từ 12 3.1.4. Phân đoạn thành các khung 13 3.1.5. Lấy cửa sổ khung tín hiệu 14 3.2. Rút trích đặc trƣng bằng phƣơng pháp MFCC 15 3.2.1. Biến đổi FFT 17 3.2.2. Lọc qua bộ lọc Mel- Scale 18 3.2.3. Logarit giá trị năng lƣợng 21 3.2.4. Biến đổi cosin rời rạc 21 Chƣơng 4: Giới thiệu về công cụ hỗ trợ nhận dạng tiếng nói CMU SPHINX 23 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng v 4.1. Giới thiệu CMU Sphinx 24 4.2. Các đặc điểm của CMU Sphinx 24 4.3. Kiến trúc Sphinx 4 25 4.3.1. Bộ ngoại vi – FrontEnd 27 4.3.2. Bộ ngôn ngữ - Linguist 28 4.3.3. Bộ giải mã – Decoder 31 Chƣơng 5: Xây dựng chƣơng trình demo nhận dạng giọng nói tiếng Việt điều khiển xe lăn 33 5.1. Cài đặt Sphinx 34 5.1.1. Chuẩn bị hệ điều hành 34 5.1.2. Chuẩn bị các gói cài đặt Sphinx 34 5.2. Cài đặt và huấn luyện 35 5.2.1. Xây dựng mô hình ngôn ngữ 36 5.2.2. Xây dựng mô hình ngữ âm 37 5.2.3. Xây dựng từ điển 37 5.3. Kết quả thử nghiệm 38 Chƣơng 5: Kết luận 39 6.1. Kết quả đạt đƣợc 40 6.2. Những hạn chế 40 6.3. Hƣớng nghiên cứu và phát triển 41 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng 1 1 TỔNG QUAN Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng 2 1.1. Tổng quan về tình hình trong và ngoài nước: Vấn đề nghiên cứu các phƣơng pháp nhận dạng tiếng nói đã và đang thu hút rất nhiều sự đầu tƣ và nghiên cứu của các nhà khoa học trên khắp thế giới. Ý tƣởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm 50 của thế kỷ 20 và đến nay đã đạt đƣợc nhiều kết quả đáng kể. Trên thế giới đã có rất nhiều hệ thống nhận dạng tiếng nói tiếng Anh đã và đang đƣợc ứng dụng rất hiệu quả nhƣ: Via Voice của IBM, Spoken Toolkit của CSLU (Central of Spoken Laguage Under-standing), Speech Recognition Engine của Microsoft, Hidden Markov Model toolkit của đại học Cambridge, CMU Sphinx của đại học Carnegie Mellon,… ngoài ra, một số hệ thống nhận dạng tiến nói tiếng Pháp, Đức, Trung Quốc,… cũng khá phát triển. Đối với nƣớc ta, nhận dạng tiếng nói vẫn là một lĩnh vực khá mới mẻ. Đến nay tuy đã có nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt và đã đạt đƣợc một số thành tựu, nhƣng nhìn chung vẫn chƣa đạt đƣợc kết quả cần thiết để có thể tạo ra các sản phẩm mang tính ứng dụng cao. Có thể kể đến các công trình sau: AILab: Đây là công trình đƣợc phòng thí nghiệm Trí tuệ Nhân tạo - AILab thuộc Đại học Khoa học Tự nhiên tạo ra dựa trên các công nghệ tiên tiến nhất về nhận dạng và tổng hợp tiếng nói để đáp ứng nhu cầu của ngƣời dùng. Dựa trên công nghệ xử lí tiếng nói tiếng Việt, AILab đã xây dựng phần mềm iSago chuyên hỗ trợ tìm kiếm thông tin qua tiếng nói. Thông qua ứng dụng phần mềm ngƣời sử dụng có khả năng hỗ trợ giao tiếp với điện thoại di động trực tiếp bằng lời nói. Từ đó ngƣời sử dụng tìm kiếm thông tin nhà hàng, quán Bar, Café trên địa bàn TP. HCM. Khi ngƣời dùng đặt câu hỏi bằng tiếng Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng 3 nói, iSago sẽ truyền nội dung truy vấn này về server để xử lý và gửi lại kết quả tìm kiếm, dạng một danh sách: tên nhà hàng, địa chỉ. Vietvoice: Đây là phần mềm của một ngƣời dân Việt Nam ngụ tại Canada. Phần mềm có khả năng nói tiếng Việt từ các tập tin. Để chạy đƣợc chƣơng trình, cần cài đặt Microsoft Visual C++ 2005 Redistributable Package (x86). Đối với ngƣời khiếm thị, phần mềm này cho phép sử dụng cách gõ tắt (nhấn nút Ctrl và một chữ) để chọn lựa một trong các tính năng hiển thị trên màn hình. Ngƣời dùng có thể cập nhật từ điển các chữ viết tắt và các từ ngữ tiếng nƣớc ngoài. Vspeech: Đây là một phần mềm điều khiển máy tính bằng giọng nói do một nhóm sinh viên Đại học Bách Khoa TP. HCM viết. Phần mềm sử dụng thƣ viện Microsoft Speech SDK để nhận dạng tiếng Anh nhƣng đƣợc chuyển thành tiếng Việt. Nhóm đã khá thành công với ý tƣởng này, do sử dụng lại thƣ viện nhận dạng engine nên thời gian thiết kế rút ngắn lại mà hiệu quả nhận dạng khá tốt. Phần mềm Vspeech có các lệnh gọi hệ thống đơn giản nhƣ gọi thƣ mục My Computer, nút Start,… Phiên bản mới nhất có tƣơng tác với MS Word 2003, lƣớt web với trình duyệt Internet Explorer. Không có các chức năng tùy chỉnh lệnh và gọi tắt các ứng dụng. Phần mềm chạy trên nền Windows XP, microphone và card âm thanh sử dụng tiêu chuẩn thông thƣờng. Tuy nhiên việc ứng dụng nhận dạng giọng nói vào điều khiển máy tính còn nhiều hạn chế. Ở Việt Nam thì hầu nhƣ chỉ mới có bộ phần mềm Vspeech của nhóm sinh viên trƣờng Đại học Bách Khoa TP. HCM, các phần mềm khác chỉ thử nghiệm trong phòng thí nghiệm, chƣa đƣợc sử dụng thực tế vì chƣa đạt trên 100 từ. Phần mềm Vspeech đƣợc phát triển từ mã nguồn mở Microsoft Speech SDK nhận dạng tiếng Anh, thông qua dữ liệu, phƣơng Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng 4 thức trung gian, việc nhận dạng đƣợc chuyển trong Vspeech để nhận biết tiếng Việt. 1.2. Mục tiêu đạt được: Đồ án nghiên cứu những ý tƣởng cơ bản và các phƣơng pháp đƣợc sử dụng trong nhận dạng tiếng nói. Đồng thời đồ án đã tìm hiểu về công cụ nhận dạng tiếng nói SPHINX từ đó xây dựng một chƣơng trình demo nhận dạng từ dùng để điều khiển. Mục đích chi tiết:  Tìm hiểu các khái niệm có liên quan đến hệ nhận dạng tiếng nói để làm rõ hơn một số yếu tố quan trọng trong việc sử dụng công cụ hỗ trợ SPHINX nhƣ: rút trích đặc trƣng bằng MFCC (Mel – Scale Frequency Capstral Coefficient), mô hình Markov ẩn, mô hình âm học, vị học áp dụng cho tiếng Việt.  Tìm hiểu phƣơng pháp cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng nói trên hệ điều hành UBUNTU 12.04.  Tìm hiểu xây dựng mô hình âm học, mô hình ngôn ngữ thích hợp cho tiếng Việt.  Xây dựng chƣơng trình demo mô phỏng, thực nghiệm giữa các mô hình với nhau, nhận dạng khoảng 20 từ, 5 câu lệnh tiếng Việt để điều khiển xe lăn thông minh. Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh” GVHD: TS. Huỳnh Thái Hoàng 5 1.3. Giới hạn đề tài: Đồ án chỉ giới hạn trong việc tìm hiểu về tiếng nói, các phƣơng pháp xử lý tiếng nói, rút trích đặc trƣng tiếng nói; mô hình Markov ẩn, mô hình âm học, âm vị áp dụng cho tiếng Việt; kiến trúc hệ thống nhận dạng tiếng nói qua công cụ Sphinx. Vì thời gian hạn chế nên chƣơng trình demo chỉ dừng ở mức nhận dạng đƣợc khoảng 10 câu lệnh cơ bản điều khiển xe lăn. Khi đọc lệnh điều khiển, máy tính sẽ hiểu và xuất hiện dòng lệnh đó trên màn hình của chƣơng trình. Do thời gian có hạn nên demo chƣơng trình chỉ mới thực hiện nhận dạng thành công với một, hai ngƣời dùng. Xác suất đúng thực tế xấp xỉ lớn hơn 80%. [...]...Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng 2 TRÌNH BÀY VỀ HỆ NHẬN DẠNG TIẾNG NÓI 6 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng 2.1 Giới thiệu: Nhận dạng tiếng nói là một hệ thống tạo khả năng để máy tính nhận biết ngữ nghĩa của lời nói Về bản chất, đây là quá trình biến... ta sẽ sử dụng để huấn luyện và nhận dạng 22 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng 4 GIỚI THIỆU VỀ CÔNG CỤ HỖ TRỢ NHẬN DẠNG TIẾNG NÓI CMUSPHINX 23 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng 4.1 Giới thiệu CMU Sphinx Sphinx là một hệ thống nhận dạng tiếng nói hoàn chỉnh đƣợc viết trên ngôn... quả nhận dạng 7 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng 2.2 Phân loại các hệ thống nhận dạng tiếng nói: Một hệ thống nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên tục và nhận dạng từng từ Nhận dạng liên tục tức là nhận dạng tiếng nói đƣợc phát liên tục trong một chuỗi tín hiệu, chẳng hạn nhƣ một câu nói, một mệnh lệnh hoặc một... thuật nhận dạng mẫu đƣợc áp dụng thành công trong nhận dạng tiếng nói là lƣợng tử hóa vector, so sánh thời gian động(DTW), mô hình Markov ẩn (HMM) và mạng nơron nhân tạo (ANN) 9 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng 3 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN HỆ NHẬN DẠNG TIẾNG NÓI VÀ HỖ TRỢ CHO CÔNG CỤ SPHINX 10 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều. .. pháp nhận dạng mẫu Phƣơng pháp này không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà chỉ sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng Các hệ 8 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng thống nhận dạng tiếng nói theo phƣơng pháp này đƣợc phát triển theo hai bƣớc cụ thể: Bƣớc 1: Sử dụng tập mẫu tiếng nói (cơ... lô, có khả năng nhận dạng tiếng nói rời rạc và liên tục - Là một hệ thống nhận dạng đồ sộ nhƣng có khả năng tháo lắp rất linh động Hỗ trợ sẵn đầy đủ các tính năng đáp ứng nhu cầu nhận dạng nhƣ xây các bộ lọc, các hàm cửa sổ, các phép biến đổi, các công cụ hỗ trợ rút trích đặc trƣng theo nhiều phƣơng pháp khác nhau 24 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh... nhƣ trong các hệ thống điều khiển bằng lời nói với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi với mô hình nói trên 2.3 Một số phương pháp nhận dạng tiếng nói: Có 3 phƣơng pháp nhận dạng tiếng nói đƣợc sử dụng phổ biến:  Phƣơng pháp âm học- ngữ âm học  Phƣơng pháp nhận dạng mẫu  Phƣơng pháp ứng dụng trí tuệ nhân tạo Đồ án này sử dụng công cụ SPHINX để nhận dạng tiếng nói nên phƣơng pháp sử... Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng 3.1 Rút trích đặc trưng tín hiệu tiếng nói: 3.1.1 Khái niệm: Rút trích đặc trƣng của tiếng nói là một trong những khâu quan trọng trong quá trình nhận dạng tiếng nói Dữ liệu tiếng nói thông thƣờng dƣới dạng sóng âm đã lƣu trữ trong máy tính là loại dữ liệu khó xử lý, học mẫu huấn luyện và so sánh Do đó việc trích rút đặc trƣng tiếng nói là cần... Tín hiệu tiếng nói s(n) sau khi đƣợc làm rõ tín hiệu sẽ đƣợc chuyển sang để tách từ Đây là công đoạn chia toàn bộ tín hiệu thu đƣợc thành những đoạn tín hiệu trong đó chỉ chƣa nội dung của một từ 12 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS Huỳnh Thái Hoàng Có nhiều phƣơng pháp để tách điểm đầu và điểm cuối của một từ ra khỏi toàn bộ tín hiệu tiếng nói, trong... và nhận dạng tiếng nói, việc tiền xử lý các tín hiệu thu đƣợc và rút trích đặc trƣng là một kỹ thuật thiết yếu mà bất cứ hệ thống nhận dạng nào cũng bắt buộc phải có Trích rút đặc trƣng có vai trò quan trọng quyết định hiệu suất của quá trình nhận dạng mẫu (cả trong quá trình nhận dạng và trong quá trình huấn luyện) Công việc của bƣớc này là phân 15 Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển . Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD: TS. Huỳnh Thái Hoàng i Lời cảm ơn Để thực hiện đề tài: Nhận dạng giọng nói Tiếng Việt để điều khiển xe lăn thông minh ,. nói tiếng Việt để phát triển lên luận văn “ Nhận dạng giọng nói Tiếng Việt để điều khiển xe lăn thông minh . Đồ án II: “ Nhận dạng giọng nói Tiếng Việt điều khiển xe lăn thông minh GVHD:. dùng tiếng nói Tiếng Việt để điều khiển xe lăn thông minh, đồ án này nghiên cứu các phƣơng pháp nhận dạng tiếng nói Tiếng Việt, từ đó xây dựng một chƣơng trình demo nhận dạng tiếng nói tiếng Việt

NHẬN DẠNG GIỌNG nói TIẾNG VIỆT để điều KHIỂN XE lăn THÔNG MINH

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan