Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển

99 2.2K 2
Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển

Trang | CHƯƠNG 1. TỔNG QUAN 1.1. Giới thiệu đề tài Đề tài mang tên “Nghiên cứu nhận dạng giọng nói tiếng Việt ứng dụng điều khiển”. Để thực việc nhận dạng giọng nói, ta phải xây dựng hệ thống gọi Hệ thống nhân dạng tiếng nói tự động (Automatic Speech Recognition -ASR), hệ thống chuyển đổi chuỗi âm tiếng nói thành chuỗi từ. Việc xây dựng hệ nhận dạng tiếng nói công việc đơn giản, đòi hỏi nhóm phát triển phải am hiểu kỹ thuật, lý thuyết từ nhiều kiến thức khác như: âm học - vật lý, ngữ âm học, ngôn ngữ học, lý thuyết xác suất thống kê, máy học, trí tuệ nhân tạo, … Trên giới, nhiều nhóm nghiên cứu phát triển thành công hệ nhận dạng tiếng nói cho ngôn ngữ lớn như: tiếng Anh, tiếng Trung Quốc, tiếng Nhật, … giải pháp nhận dạng cho tiếng Việt nhiều mặt hạn chế. 1.2. Các nghiên cứu có liên quan đến khóa luận 1.2.1. Trên giới Giao tiếp người-máy lĩnh vực nghiên cứu lớn khó lại có nhiều ứng dụng thực tiễn. Tiếng nói phương tiện giao tiếp tự nhiên người vậy, nghiên cứu để máy tính hiểu tiếng nói người, hay gọi nhận dạng tiếng nói tự động (Automatic Speech Recognition –ASR), trải qua trình 70 năm phát triển. Những nỗ lực nghiên cứu ASR tiến hành thập niên 50 với ý tưởng dựa ngữ âm. Do kĩ thuật xử lí tín hiệu số khả máy tính giới hạn, hệ thống nhận dạng lúc tập trung khai thác đặc trưng phổ cộng hưởng (spectral resonances) nguyên âm tín hiệu, sau qua lọc tương tự. Trong giai đoạn này, có hệ thống đáng ý như: hệ thống nhận dạng ký số rời rạc Bell-lab (1952), nhận dạng 13 âm vị trường đại học College–Anh (1958) [1, p. 8]… Trong thập kỉ 1960, điểm đáng ghi nhận ý tưởng tác giả người Nga, Vintsyuk ông đề xuất phương pháp nhận dạng tiếng nói dựa qui hoạch động theo thời gian (Dynamic Time Warping –DTW) [2, p. 1]. Đáng tiếc đến năm 1980, phương pháp giới biết đến. Cuối năm 1960, Reddy trường đại học CMU (Mỹ) đề xuất ý tưởng nhận GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | dạng tiếng nói liên tục kĩ thuật đánh dấu đường truy vết lùi tìm kết [2, p. 2]. Đến năm 70, nghiên cứu nhận dạng tiếng nói bước đầu thu kết khích lệ, làm tảng cho phát triển sau này. Trước tiên toán nhận dạng từ rời rạc giải dựa ý tưởng nhà khoa học người Nga Nhật. Velichko Zagoruyko (ở Nga) người tiên phong việc áp dụng ý tưởng phân lớp mẫu cho ASR. Sakoe Chiba (Nhật) đề xuất kĩ thuật sử dụng phương pháp qui hoạch động. Và Itakura, thời gian Bell-lab, đưa phương pháp mã hoá dự báo tuyến tính (Linear Predictive Coding –LPC) làm tiền đề cho việc áp dụng tham số phổ LPC vào ASR. Các hệ thống ASR đáng ý giai đoạn gồm: Harpy Hearsay-II trường đại học CMU-Mỹ, hệ thống HWIM BBN… [2, p. 2] Nghiên cứu ASR thập kỉ 80 đánh dấu phép dịch chuyển phương pháp luận: từ cách tiếp cận đối sánh mẫu sang cách tiếp cận sử dụng mô hình thống kê. Ngày nay, hầu hết hệ thống ASR dựa mô hình thống kê phát triển thập kỉ này, với cải tiến thập kỉ 90. Một phát minh quan trọng thập kỉ 80 mô hình Markov ẩn (Hidden Markov Model –HMM). Mặc dù HMM áp dụng thành công số phòng LAB (chủ yếu IBM viện nghiên cứuthuộc Quốc phòng Mỹ) phải đợi đến vài năm sau đó, mô hình xuất phổ biến giới. Ngoài ra, hai đề xuất quan trọng khác giai đoạn tổ hợp Cepstrum mô hình ngôn ngữ:  Furui đề xuất sử dụng tổ hợp hệ số phổ với đạo hàm bậc bậc chúng, đặc trưng sở cho ASR. Phương pháp dù đề xuất cuối năm 70 không áp dụng suốt thời gian dài. Ngày nay, hầu hết hệ thống nhận dạng tiếng nói sử dụng tổ hợp đặc trưng này. [2, p. 4]  Những nhà khoa học thuộc công ty IBM người tiên phong việc phát triển mô hình ngôn ngữ (Language Model –LM). Đây công cụ hiệu việc lựa chọn chuỗi từ nhận dạng áp dụng thành công tất hệ thống ASR ngày nay, đặc biệt hệ thống nhận dạng tiếng nói liên tục với từ vựng lớn. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | Các hệ thống ASR đời thời gian kể đến: hệ thống Sphinx trường đại học CMU, Byblos công ty BBN, Decipher viện SRI, hệ thống khác Lincoln Labs, MIT AT&T Bell Labs. Thập niên 90 ghi nhận số kết nghiên cứu lĩnh vực phân lớp mẫu. Cụ thể, toán phân lớp theo mô hình thống kê (dựa luật định Bayes), đòi hỏi phương pháp ước lượng phân bố cho liệu, chuyển thành toán tối ưu, bao gồm phép cực tiểu lỗi phân lớp thực nghiệm. Sự chuyển đổi mặt chất xuất phát từ ý tưởng sau đây: mục tiêu phân lớp cực tiểu lỗi cung cấp hàm phân bố phù hợp với liệu nhận dạng. Khái niệm cực tiểu lỗi làm nảy sinh số kĩ thuật phương pháp huấn luyện riêng biệt (Discriminative Training). Hai dạng điển hình phép huấn luyện là: CME (Minimum Classification Error) MMI (Maximum Mutual Information). Kết thực nghiệm cho thấy phương pháp huấn luyện đưa kết nhận dạng tốt so với phương pháp huấn luyện cực đại xác suất trước đó. Ngoài ra, nhận dạng tiếng nói môi trường nhiễu quan tâm. Để nâng cao hiệu suất nhận dạng cho liệu nhiễu, số kỹ thuật đề xuất như: MLLR (Maximum Likelihood Linear Regression), PMC (Parallel Model Combination)… [2, p. 3] Cuối cùng, ứng dụng phát triển giai đoạn gồm: hệ thống trả lời thông tin tự động cho chuyến bay (Air Travel Information Service –ATIS), hệ thống ghi lại tin phát (Broadcast News Transcription System)…. Đến năm đầu kỷ 21, nghiên cứu tập trung vào việc nâng cao kết nhận dạng tiếng nói, thông qua chương trình có tên gọi EARS (Effective Affordable Reusable Speech-to-Text) [2, p. 3]. Tới thời điểm này, tiếng nói giả thiết thu âm môi trường bình thường, không bị ràng buộc điều kiện (các điều kiện giả thiết trước thường bao gồm tiếng nói thu phòng cách âm người xứ đọc). Đích hướng tới chương trình khả nhận dạng, tóm tắt chuyển ngữ đoạn audio, giúp cho người đọc hiểu nhanh nội dung chúng thay phải nghe toàn bộ. Hiện nay, với ngôn ngữ phổ biến tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, công trình nghiên cứu nhận dạng tiếng nói thu kết tốt, có nhiều ứng dụng thực tiễn triển khai như: GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang |  Hệ thống giao tiếp hỏi đáp thông tin tự động qua điện thoại.  Hệ thống truy vấn thông tin thoại.  Hệ thống thông dịch tiếng nói xuyên ngữ tự động.  Các trạm kiểm soát, hệ thống điều khiển sử dụng tiếng nói.  Các ứng dụng tiếng nói thiết bị di động. Về mặt kinh tế thương mại, công nghệ nhận dạng tiếng nói thay đổi cách người tương tác với hệ thống thiết bị, không bó buộc cách thức tương tác truyền thống (như thông qua bàn phím máy tính hay điện thoại) mà chuyển sang tương tác trực tiếp giọng nói. Trong môi trường kinh tế cạnh tranh, ứng dụng chuyển sang tích hợp tính tương tác âm thanh. Việc ứng dụng khách hàng tương tác với thông qua âm nghĩa loại bỏ giao diện đồ họa truyền thống mà cung cấp thêm cách truy cập thông tin dịch vụ tiện lợi, tự nhiên hơn. Về mặt nghiên cứu khoa học, hệ thống nhận dạng tiếng nói dựa phương pháp thống kê so khớp mẫu. Phương pháp đòi hỏi tri thức ngữ âm lượng lớn liệu huấn luyện, bao gồm dạng âm dạng văn bản, để huấn luyện nhận dạng. Lượng liệu huấn luyện lớn, dạng dạng có nhiều khả đưa kết xác hơn. 1.2.2. Trong nước Tại Việt Nam, có nhóm nghiên cứu toán nhận dạng tiếng nói liên tục với từ vựng lớn (LVCSR). Nhóm thuộc Viện Công nghệ Thông tin PGS. Lương Chi Mai đứng đầu, với phương pháp ANN công cụ CSLU [3] sử dụng. Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh PGS. Vũ Hải Quân đứng đầu, với phương pháp HMM công cụ HTK sử dụng, nghiên cứu nhóm tập trung vào toán truy vấn thông tin tiếng Việt, nhận dạng tiếng nói, hệ thống giao tiếp người máy, tìm kiếm giọng nói, . Ngoài ra, gần có nghiên cứu LIG (Laboratoire Informatique de Grenoble) hợp tác với phòng thí nghiệm MICA Hà Nội khả chuyển mô hình ngữ âm (acoustic model portability). GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | Ở nước có đề tài liên quan như: “Chương trình đọc tả”, sử dụng lượng hóa vector VQ, hạn chế nhận dạng tiếng nói liên tục. “Phát triển kết tổng hợp, nhận dạng câu lệnh, chuỗi số tiếng Việt liên tục môi trường điện thoại di động” [4], “Tăng cường độ xác hệ thống mạng neuron nhận dạng tiếng Việt” [5], “Chương trình nhận dạng lệnh 10 chữ số liên tục qua điện thoại” Viện công nghệ thông tin sử dụng công cụ CSLU [6], phương pháp mô hình Artificial neural network - ANN, giải mã thuật toán Viterbi, sở liệu mẫu âm học CSLU. 1.3. Mục tiêu khóa luận Mục tiêu chung nhất: tìm hiểu, vận dụng kiến thức nhận dạng tiếng nói đề xây dựng mộ chương trình nhận dạng tiếng nói tiếng Việt ứng dụng điều khiển thiết bị mô thiết bị thật. Mục tiêu chi tiết: a. Tìm hiểu khái niệm có liên quan đến hệ nhận dạng tiếng nói để làm rõ số yếu tố quan trọng việc sử dụng công cụ hỗ trợ. b. Tìm hiểu phương pháp cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng nói. c. Tìm hiểu xây dựng mô hình âm học, mô hình ngôn ngữ thích hợp cho tiếng Việt. d. Xây dựng chương trình mô phỏng, thực nghiệm, thử nghiệm mô hình với từ đưa kết luận nhận xét. 1.4. Phạm vi Giải toán nhận dạng câu lệnh điều khiển qua thực nghiệm (demo) là:  Điều khiển trình duyệt web Google Chrome giọng nói với tổ hợp câu lệnh điều khiển gồm 45 từ.  Điều khiển mô hình xe điều khiển giọng nói với tổ hợp câu lệnh gồm 24 từ. Do thời gian, giới hạn phạm vi khóa luận nên demo thực nhận dạng thành công với một, hai người dùng (sinh viên thực khóa luận), xác suất nhận dạng (thực tế) sấp xỉ 90%. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 1.5. Những điểm nỗi bật khóa luận Khóa luận trình bày với đề mục rõ ràng lượng kiến thức vừa đủ, giúp người phát triển sau dễ dàng tiếp cận phát triển khóa luận. Thực demo không máy tính mà có điều khiển cho vật thể thật. Tuy nguyên lý hoàn toàn giống nhau, em cố gắng thực triển khai nhiều trường ứng dụng để tăng tính thực tiển xác thực đề tài. Khác với đề tài nhận dạng trước chủ yếu mang tính demo nhận dạng. 1.6. Cấu trúc khóa luận Chương 1: Trình bày tổng quan: giới thiệu đề tài, xác định mục tiêu vấn đề mà đề tài cần giải quyết, giới hạn phạm vi đề tài, xác định phương pháp giải sau điểm bật đề tài. Chương 2: Trình bày sở lý thuyết bao gồm: lý thuyết âm học, ngữ âm học, đặc điểm tiếng Việt, kiến thức để xây dựng sử dụng hệ nhận dạng tiếng nói. Cơ sở lý thuyết rút trích đặc trưng, khái niệm quan trọng hệ nhận dạng tiếng nói. Lý thuyết mô hình Hidden Markov Model (HMM). Bao gồm khái niệm, thuật toán liên quan, ý nghĩa HMM hệ nhận dạng tiếng nói. Chương 3: Giới thiêu khái niệm bản, quan trọng hai Framework hổ trợ xây dựng hệ nhận dạng tiếng nói phổ biến HTK, Sphinx 4. Khóa luận sử dụng Sphinx để xây dựng chương trình demo thực nghiệm. Chương 4: Trình bày chi tiết trình cài đặt Sphinx4, thu âm, xây dựng huấn luyện, tiến hành huấn luyện, giải thích kết huấn luyện, thực thử nghiệm so sánh HTK Sphinx cuối xây dựng chương trình demo. Chương 5: Nêu lên kết luận, trình bày kết đạt được, điểm hạn chế, kinh nghiệm rút sau trình thực khóa luận, từ nêu lên hướng cải thiện, nghiên cứu phát triền. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | CHƯƠNG 2. CƠ SỞ LÝ THUYẾT 2.1. Tổng Quan Về Âm Học Và Tiếng Nói 2.1.1. Âm học 2.1.1.1. Khái niệm Khi có nguồn phát âm (như tiếng trống, tiếng nhạc cụ, tiếng nói), ta nghe cảm nhận âm phát ra. Vật tạo âm gọi nguồn phát âm, âm dao động thành phần vật chất môi trường lan truyền đến tai ta ta cảm nhận âm thanh. Trong môi trường vật chất tồn chân không, dao động song âm tồn tại. Trong đời sống xã hội, âm phương tiện giao tiếp, truyền đạt thông tin phổ biến xấu từ lâu đởi người. Khi nghiên cứu âm thanh, người ta thường quan tâm đến đặc điểm: đặc trưng vật lý đặt trưng sinh học. 2.1.1.2. Biểu diễn tín hiệu âm miền thời gian tần số. Thông thường, người ta dùng hàm toán học x(t) để biểu diễn âm miền thời gian. Trong đó: - t: thời gian - x: biên độ biến thiên, hay gọi ly độ. Như vậy, ta biểu diễn x(t) đồ thị theo thời gian.Đặt x(t) = A.sin = A. sin F0t t Hình 2.1 Biểu diễn tín hiệu âm GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | Phổ tính hiệu: cách biểu diễn thành phần cấu tạo nên x(t) theo tần số. với tín hiệu Sin nói trên, đồ thị phổ vạch có cao độ A điển có tần số F0. Ta nói phổ vạch. Trong thực tế, với x(t) bất kỳ, biến thiên, không tuần hoàn, người ta dùng phân tích Fourier để tính toán phổ tín hiệu. Khi đó, ta có phổ liên tục X( ). 2.1.1.3. Các loại âm Những dao động mà người nghe gọi âm (sound). Âm biểu diễn theo thời gian, song biểu diễn theo tần số phân tích tín hiệu âm thành tổ hợp thành phần tần số khác (Chuỗi Fourier, tích phân Fourier). Hoặc nói cách đơn giản thực tiễn hơn, âm tổ hợp từ nhiều đơn âm, từ nhiều nhạc cụ, mà có tần số dao động định. Dải tần số nghe từ 20 Hz - 20000 Hz. Siêu âm âm dao động 20000 Hz. Hạ âm âm dao động 20 Hz. Tai người không nghe siêu âm hạ âm.  Tiếng nói (voice, speech) âm phát từ miệng người, truyền không khí đến tai người nghe . Dải tần số tiếng nói đủ nghe rõ từ 300 Hz đến 3500 Hz, dải tần tiêu chuẩn áp dụng cho điện thoại. Còn dải tần tiếng nói có chất lượng cao từ 200 Hz-7000 Hz, áp dụng cho ampli hội trường.  Âm nhạc (music) âm phát từ nhạc cụ. Dải tần số âm nhạc từ 20 Hz đến 15000 Hz.  Tiếng kêu âm phát từ mồm động vật. Tiếng Cá Heo (dolphins) loại âm dảy tần số 1-164 kHz, Con Dơi (bats) 20 - 115 kHz, Cá Voi (whale) 30-8000 Hz. (Cần xác minh lại số liệu).  Tiếng động âm phát từ va chạm vật. Thí dụ tiếng va chạm cốc, tiếng va chạm cánh cửa, tiếng sách rơi.  Tiếng ồn (noise) âm không mong muốn. Nhìn chung lại, xét phương diện tín hiệu cảm thụ tai người, có hai loại âm:  tuần hoàn bao gồm tiếng nói, âm nhạc .  không tuần hoàn tín hiệu tạp nhiễu, số phụ âm tắc xát sh, s. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 2.1.1.4. Đơn vị đo âm Người ta thấy người cảm nhận độ to âm không tỉ lệ thuận với cường độ âm mà theo hàm số mũ. Bel = 10lg P2/P1. (Phát âm Ben) decibel = 20lg I2/I1 (Phát âm Đề xi ben) 2.1.2. Tiếng nói Tiếng nói âm phát từ miệng (người). Nghiên cứu tiếng nói gồm: Bộ máy phát âm người. Thụ cảm âm tai người. Phân loại tiếng nói. Bộ máy phát âm người gồm:  Phổi đóng vai trò bơm không khí, tạo lượng hình thành âm.  Đôi dây (vocal fold, vocal cord)là hai thịt cuống họng, có hai đầu dính nhau, hai đầu dao động với tần số Fo, tiếng Anh gọi pitch, fundamental frequency. Fo nam giới nằm khoảng 100-200 Hz, nữ giới 300-400 Hz, trẻ em 500-600 Hz.  Thanh quản vòm miệng: đóng vai hốc cộng hưởng, tạo phân biệt tần số tín hiệu dao động từ đôi dây phát ra. Đáp ứng tần số hốc công hưởng có nhiều đỉnh cộng hưởng khác gọi formant.  Miệng đóng vai trò phát tán âm ngoài.  Lưỡi thay đổi để tạo tần số formant khác nhau.  Các âm khác vị trí tương đối formants. Phân loại tiếng nói theo thanh:  Âm hữu (voiced, tiếng Pháp voisé) âm phát có dao động đôi dây thanh, nên tuần hoàn với tần số Fo. Vì phổ nguyên âm phổ vạch, khoảng cách vạch Fo.  Âm vô (unvoiced, tiếng Pháp non voisé) phát đôi dây không dao động. Thí dụ phần cuối phát âm English, chữ sh cho âm xát. Phổ tín hiệu có dạng nhiễu trắng, phổ phân bổ đều. Phân loại tiếng nói: GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 10  Nguyên âm (vowel) âm phát kéo dài. Tất nguyên âm âm hữu thanh, nghĩa tuần hoàn ổn định đoạn thời gian vài chục ms.  Phụ âm (consonant) âm phát nhát, không kéo dài được. Có phụ âm hữu phụ âm vô thanh. Thanh điệu tiếng Việt tương ứng với dấu: không dấu, huyền, hỏi, ngã, sắc, nặng viết. Phân tích máy móc cho thấy điệu thay đổi Fo, tần số pitch, trình phát âm nguyên âm tai người cảm nhận được. Tiếng Việt có thể phong phú độc đáo, tiếng Trung quốc có thanh. Tuy nhiên cư dân số vùng Việt Nam không phân biệt dấu ? dấu ~ nên hay viết sai tả. Giọng bổng (high voiced pitch, hay high pitched) hay giọng trầm (low voiced pitch) Fo cao hay thấp. Như Fo đóng vai trò quan trọng cảm nhận, thụ cảm âm người. Tiếng bổng hay tiếng trầm tương ứng với dải tần số cao hay thấp. Trong thợc tế người ta dùng loa trầm loa loa bass hay loa sub woofer, loa tép hay loa bổng tương ứng với loa thích ứng phát âm vùng tần số cao, treble. 2.2. Hệ Thống Ngữ Âm Tiếng Việt 2.2.1. Đặc điểm tiếng Việt Khác với số ngôn ngữ khác tiếng Anh, Pháp …, tiếng Việt ngôn ngữ đơn âm tiết, tức từ viết đọc lên thành tiếng, từ (thuần Việt) phát âm từ tiếng trở lên. Một từ có cấu tạo gồm phần là: nguyên âm V (vowel) phụ âm C (consonant) kết hợp theo cách để tạo nên từ tiếng Việt: - C+V (phụ âm + nguyên âm). Ví dụ: ba, mẹ, - C+V+C (phụ âm + nguyên âm + phụ âm). Ví dụ: bàn, con, mong - V+C (nguyên âm + phụ âm). Ví dụ: an, ông, én Trong tiếng Việt, thành phần nguyên âm, phụ âm, có thành phần khác giúp cho Việt phân loại âm tiết trở nên rõ ràng nhị hợp âm, tam hợp âm, phụ âm đơn, phụ âm kép. Khi học tiếng Việt, từ đọc phải học thuộc nguyên âm, phụ âm, nhị hợp âm, tam hợp âm, phụ âm đơn, phụ âm kép, quy tác GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 84 HHEd -A -D -T -H hmm9/macros -H hmm9/hmmdefs -M hmm10 ins/mktri.hed ph/monophones1.txt Đầu vào:  H hmm9/macros -H hmm9/hmmdefs: hmm monophones.  Ins/mktri.hed: tập tin chứa lệnh thực “trói buộc” ma trận chuyển triphone tập tin triphones1.  B: lưu trữ hmmdefs dạng nhị phân thay text (giảm không gian chiếm dụng). Đầu ra:  M hmm10: hmm10 huấn luyện thành triphones. 12. Training vong HERest -A -D -T -C cfg/HERest.cfg -I mlf/wintri.mlf -t 250.0 150.0 3000.0 -S train/train.scp -H hmm10/macros -H hmm10/hmmdefs -M hmm11 ph/triphones1 HERest -A -D -T -C cfg/HERest.cfg -I mlf/wintri.mlf -t 250.0 150.0 3000.0 -s stats -S train/train.scp -H hmm11/macros -H hmm11/hmmdefs -M hmm12 ph/triphones1 13. Tao full list + full hmm HDMan -A -D -T -b sp -n fulllist -g global.ded -l flog dict-tri dict.txt Sau tạo file “fulllist1” copy hết nội dung file fulllist file triphones1 vào sau chạy lệnh sau để xóa hết dòng trung file fulllist1 $perl fixfulllist.pl fulllist1 fulllist Tiếp tục tạo file tree.hed perl pl/mkTree.pl TB 350 ph/monophones0.txt ins/tree.hed 14. Tao mo hinh HMM moi HHEd -A -D -T -H hmm12/macros -H hmm12/hmmdefs -M hmm13 ins/tree.hed ph/triphones1 Đầu vào :  H hmm12/macros -H hmm12/hmmdefs: hmm tạo bước trước  tree.hed: tập hợp thị tìm kiếm ngữ cảnh phù hợp cho việc gom nhóm.  ph/triphones1: danh sách triphones GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 85 Đầu ra:  M hmm13: Thư mục chứa mô hình hmm 15. Training vong HERest -A -D -T -C cfg/HERest.cfg -I mlf/wintri.mlf -s stats -t 250.0 150.0 3000.0 -S train/train.scp -H hmm13/macros -H hmm13/hmmdefs -M hmm14 tiedlist HERest -A -D -T -C cfg/HERest.cfg -I mlf/wintri.mlf -s stats -t 250.0 150.0 3000.0 -S train/train.scp -H hmm14/macros -H hmm14/hmmdefs -M hmm15 tiedlist 4.6.5. Kiểm tra liệu huấn luyện 1. Tao file "listwavmfc.scp" : chi duong dan cho cac file wave va cac file mfc tuong ung cho file wave perl pl/listwavmfc.pl test/wav listwavmfc_test.scp 2. Tao danh sach file .mfc tuong ung cho tung file .wav HCopy -T -C cfg/HCopy.cfg -S listwavmfc_test.scp 3. Tao file "test.scp" : chua danh sach duong dan cac file .mfc perl pl/mkTrainFile.pl mfc test/test.scp 4. Testing HVite -T -C cfg/HVite.cfg -H hmm15/macros -H hmm15/hmmdefs -S test/test.scp -i test/recout.mlf -w wdnet txt/mydict.txt tiedlist Giải thích –C cfg/Hvite.cfg: Đầu vào, tập tin cấu hình. -H hmm15/macros -H hmm15/hmmdefs: Đầu vào -S test/test.scp: Đầu vào, tập tin chứa danh sách file .mfc cần nhận dạng. -i test/recout.mlf: Đầu ra, transcription nhận dạng được. -w txt/wdnet.txt: Đầu vào, wordnet tạo từ bước đầu. txt/dict.dct: Đầu vào, từ điển phiên âm. tiedlist: Đầu vào, danh sách phones tạo từ lệnh CO “tiedlist” tree.hed. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 86 Lưu ý Với việc cấu tạo triphones theo kiểu word internal nói phần trước, tập tin cấu hình Hvite.cfg cần có thêm tham số FORCECXTEXP = T ALLOWXWRDEXP=F. Muốn hiểu sao, xem chương 12 HTK Book. Có thêm vài tham số Hvite p, s, tùy người dùng điều chỉnh. 4.6.6. Kết đạt -Với 500 file wave liệu huấn luyện test 100 file wave khả nhận diện chương trình thu sau: ------------------------ Overall Results -------------------------SENT: %Correct=22.80 [H=114, S=386, N=500] WORD: %Corr=99.78, Acc=87.55 [H=3991, D=0, S=9, I=489, N=4000] 4.7. Triển khai ứng dụng demo 4.7.1. Ứng dụng điều khiển Google Chrome a. Giới thiệu Đây ứng dụng demo sử dụng giọng nói để điểu khiển trình duyệt web Google Chrome, người dùng thao tác với trình duyệt thông qua giọng nói, demo hỗ trợ thực khoảng 20 câu lệnh điều khiển, ghép từ 47 từ đơn. ảng Danh sách 47 từ điều khiển Google Chrome chuyển cửa cuối cuộn đầu đồ đóng duyệt khóa kiếm kiểm lại lên lịch lưu mở nghe ngừng nhạc nhỏ phải phóng quép sang sau sổ sử tải táp thu thư tìm to tới tra trái trang trình trở trước từ xóa xuống Từ từ đơn này, ta ghéo lại thành câu lệnh điều khiển có nghĩa, vd: mở táp (tab) mới, mở cửa sổ, mở trang quép (web). Danh mục câu điều khiển tham khảo thêm phần phụ lục. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 87 b. Chương trình Chương trình viết ngôn ngữ C#, kết hợp thư viện Julius.dll mô hình âm học huấn luyện từ công tụ HTK, bao gồm module là: module nhận dạng module điều khiển trình duyệt. Hình 4.2 Mô hình hoạt động chương trình demo Module nhận dạng sử dụng hàm thư viện Julius.dll cung cấp để thực công đoạn nhận dạng, sử dụng mô hình âm học huấn luyện phần (sử dụng từ phần huấn luyện HTK), kết hợp với mô hình ngôn ngữ. Sau nhận dạng kết chuyễn sang dạng text (ký tự) cuối chuyễn nội dung nhận dạng sang module điều khiển. Hình 4.3 Mô hình sơ đồ Module nhận dạng GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 88 Module điều khiểu sau gọi truyền vào tham số kết tiếng nói nhận dạng thực công đoạn điều khiển dựa vào nội dung đó. Module xây dựng thư viện liên kết động (dll) để tiện cho việc nâng cấp điều khiển sau này. Hiện tại, chương trình demo điểu khiển vài chức Hệ điều hành, trình duyệt Google Chrome trình nghe nhạc WMPlayer. Trong Module gồm class CommandReceiver.cs. Class đảm nhận nhiệm vụ nhận lệnh dạng text để thực lệnh điều khiển. Để hổ trợ việc ánh xạ câu lệnh điều khiển thành lệnh điều khiển thực sự, module liên kết với tập tin danh sách lệnh mang tên voiceCommand.txt. Danh sách câu lệnh nạp vào chương trình lúc khởi động, sau nhận nội dung dạng text cho người dùng lệnh, module nhận dạng tiến hành tra khớp lệnh có sở liệu lệnh vừa nạp vào, từ đưa lệnh cần tiến hành thực sự. Nội dung danh sách lệnh bổ sung phần phụ lục. Trong Module bao gồm class thực nhiệm vụ điều khiển cho đối tượng demo window, chrome trình nghe nhạc WMPlayer. Để điều khiển trình duyệt Chrome chương trình khác, chương trình truyền cho hệ điều hành Windows kiện bàn phím, kiện bàn phím tổ hợp phím tắt đề sử dụng Chrome (vd: Ctrl + T: mở tab mới, Ctrl + W: đóng tab,…). Hình 4.4 Mô hình cấu tạo Module điều khiển GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 89 Hình 4.5 Giao diện chương trình điều khiển máy tính c. Nhận xét Kết nhận dạng từ module nhận dạng định độ xác cao chương trình, nhiễu nhận dạng gây câu lệnh bị sai lệnh đôi chút so với câu lệnh thực tế, ví dụ: người dùng nói “mở táp mới”, nhiễu môi trường nên kết nhận dạng trả “hãy mở táp mới”. Biện pháp khác phục đơn giản so sánh độ “giống nhau” câu lệnh nhận dạng câu lệnh mẫu câu thay so khớp xác từ. Nhìn chung kết nhận dạng xác môi trường không ồn (~90%). 4.7.2. Ứng dụng điều khiển mô hình xe tăng a. Giới thiệu Đây ứng dụng demo sử dụng giọng nói để điểu khiển hoạt động mô hình xe tăng điều khiển từ xa. Người dùng nói lệnh điều khiển di chuyển, v.v vào microphone, thông qua chương trình demo, mô hình xe tăng hoạt động tương ứng với lệnh điều khiển giọng nói. Chương trình hỗ trợ thực khoảng 30 hình thái câu lệnh điều khiển,được kết hợp từ 25 từ đơn GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 90 ảng Danh sách 25 từ demo điều khiển mô hình xe tăng ba dừng bắn mươi quay tới lại ngừng sang trái chạy lên nòng sáu trăm lui phải súng vừa độ lui qua tiến xoay d. Chương trình Chương trình viết bao gồm module, module nhận dạng mệnh lệnh tiếng nói (ngôn ngữ Java) module điều khiển mô hình xe tăng (ngôn ngữ C#). Chương trình kể hợp module viết ngôn ngữ khác nhau, kết nối để giao tiếp với socket. Module nhận dạng tiếng nói hoạt hoạt động tương tự phần demo trên. Trong có bổ sung thêm phần tạo kết nối thông qua giao thức socket với module điều khiển. Sau nhận dạng kết tiếng nói, chương trình truyền liệu qua giao thức socket đến với module điều khiển. Module điểu khiển viết ngôn ngữ C#, module làm việc giống driver cho thiết bị USB, thông qua module này, máy tính truyền lệnh trực tiếp xuống Remote điều khiển mô hình xe tăng, thông qua thiết bị Remote điều khiển hoạt động mô hình xe tăng từ xa. Hình 4.6 Mô hình xe tăng sử dụng chương trình GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 91 Thiết bị demo mô hình xe tăng điều khiển từ xa, kèm thiết bị Remtoe, Remote thiết kế gắn thêm mạch điều khiển vào bên trong, mạch có nhiệm vụ nhận tín hiệu đầu vào từ cổng USB dùng tín hiệu để điều khiển thiết bị Remote. Khi thiết kế hoàn thành, Remote có ngõ vào USB (như Hình 4.7). Ta dùng cáp nối USB để kết nối thiết bị Remote với máy tính. Hình 4.7 Trong hình điểu khiển xe tăng với cổng USB kết nối máy tính Hình 4.8 Hình chụp bên Remote lắp thêm mạch điều khiển qua USB GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 92 Hình 4.9 Giao diện chương trình điều khiển xe tăng từ xa giọng nói e. Nhận xét Kết điều khiển chủ yếu phụ thuộc vào module nhận dạng tiếng nói. Nhận dạng từ điều kiện bình thường (không ồn) 89%, độ xác nhận dạng tương đối thấp demo trước bị nhiễu tiếng ồn động (từ mô hình xe phát ra). 4.8. Thực so sánh với HTK 4.8.1. Giới thiệu Như chương giới thiệu, HTK Sphinx số Framework nhận dạng giọng nói mã nguồn sử dụng phổ biến giới nay. Đã có nhiều viết, báo cáo, khóa luận Việt Nam trình bày HTK cho thấy khả HTK ứng dụng nhận dạng giọng nói tiếng Việt. Một phòng thí nghiệm Việt Nam sử dụng mạnh mẽ HTK phòng thí nghiệm AILAB trực thuộc ĐH. Khoa Học Tư Nhiên TS. Vũ Hải Quân quản lý. Trong đó, Sphinx phát triển sau nên mẽ Việt Nam. Phần trình bày so sánh khả áp dụng cho tiếng Việt Framework này. Mục đích phần cho ta thấy điểm khác biệt hiệu tương đối công cụ nhận dạng giọng nói tự động. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 93 Việc so sánh Sphinx HTK Việt Nam thử nghiệm mới, nhóm chúng em hiểu rõ việc so sánh khả Framework lớn cách làm nhóm thiếu sót mặt khoa học, xong việc giải số vấn đề mà nhóm đặt như:  So sánh độ khó khăn cài đặt hệ thống.  So sánh khả nhận dạng Tiếng Việt mức (không thay đổi nhiều thông số tinh chỉnh khác).  So sánh khả áp dụng mô hình vào chương trình thực tế người dùng không chuyên lĩnh vực nghiên cứu nhận dạng tiếng nói. 4.8.2. Thực a. Chuẩn bị Trước thực trình huấn luyện thử nghiệm, nhóm cài đặt HTK Sphinx theo hướng dẫn tham khảo mục [16], [12]. Xây dựng liệu dành cho huấn luyện thử nghiệm giống dành cho framework. Danh sánh từ từ điển phiên âm tham khảo bảng phụ lục, framework sử dụng chung từ điển ngữ âm. Ngữ pháp sử dụng HTK dạng word-net, sinh từ danh sách câu lệnh. Ngữ pháp sử dụng Sphinx dạng tri-gram, tạo từ danh sách câu lệnh trên. Bảng danh sách câu lệnh tham khảo phần phụ lục. Decoder sử dụng HTK hàm HVite [16], Sphinx Sphinx3 Decoder. Các thông số để thực trình huấn luyện Framework giữ mặc định. Ý nghĩa quan trọng việc giữ thông số mặc định: thông số thiết lập sẵn nhà phát triển framework tương thích với đa số liệu huấn luyện ngôn ngữ khác nhau, việc tinh chỉnh thông số nhằm mục đích nghiên cứu làm cho mô hình âm học thích hợp với ngôn ngữ xác định. Giữ nguyên thông số thể tính khách quan trình so sánh. Người dùng có định hướng định Framework thích hợp cho ngôn ngữ GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 94 với thông số mặc định từ nhà phát triển. Trong trường hợp tiếng Việt. Âm thu định dạng chuẩn framwork là: tần số lấy mẫu (sample rate): b. Dữ liệu huấn luyện (training) Dữ liệu huấn luyện tập liệu âm thu âm từ thành viên nhóm, tổng thời lượng thu âm sấp xỉ 15 đồng hồ với số câu huấn luyện 5300 câu gồm câu nói điều khiển máy tính mô hình xe. Tổng số từ huấn luyện 120 từ đơn cấu tạo từ 72 âm vị. c. Dữ liệu thử nghiệm (testing) Dữ liệu thử nghiệm tập liệu âm thu âm từ thành viên nhóm, tổng số câu sử dụng thử nghiệm 1000 câu với thời lượng thu âm khoảng đồng hồ. d. Kết ảng Kết so sánh HTK Sphinx Tỉ lệ câu (%) Tỉ lệ từ (%) Độ xác từ (%) HTK 41.60 99.97 94.38 SPHINX 68 98.2 96.7 ảng Kết chi tiết lỗi sai Insertions Deletions Substitutions HTK 833 28 SPHINX 206 43 227 Tỉ lệ câu tính theo cách sau: câu nhận tất từ câu đúng, có từ sai câu xem câu sai. Tỉ lệ câu số câu chia cho tổng số câu thử nghiệm, trường hợp 1000 câu. Tỉ lệ từ tỉ lệ số từ mà hệ thống nhận dạng so với tổng số từ cần nhận dạng. Độ xác từ tỉ lệ tổng số từ sai, bao gồm lỗi nhận dạng sai từ Insertion (thêm từ), Deletion (xóa từ), Substitutions (thay từ). Khác với số Tỉ GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 95 lệ từ đúng, số thể độ xác nhận dạng từ hệ thống nhận dạng. Tỉ lệ cao, hệ thống nhận dạng từ đơn xác. 4.8.3. Đánh giá kết Sau trình thử nghiệm kết có được, nhóm có số nhận xét tổng quan Framework sau:  Khả nhận dạng từ Framework cao (>98%), HTK thể tốt hơn.  Tuy nhiên so với Sphinx HTK lại mắc nhiều lỗi Insertion-thêm từ giảm độ xác hệ thống nhận dạng xuống đáng kể. Trong bao gồm độ xác nhận dạng câu.  Thời gian thực thí nghiệm decode Sphinx ngắn nhiều so với HTK.  Việc triển khai huấn luyện HTK thường xuyên gặp nhiều khó khăn quy trình thực bao gồm nhiều công đoạn phức tạp Sphix.  Tài liệu tìm hểu HTK phong phú chi tiết nặng kỹ thuật, người bắt đầu gặp nhiều khó khăn. Trong đó, Sphinx cung cấp trang chủ [11] đầy đủ thông tin kèm cộng đồng Forum thường xuyên cập nhật giải đáp thắc mắc. Vì thế, người muốn phát triển nhanh chóng hệ nhận dạng giọng nói cho ngôn ngữ Sphinx lựa chọn ưu tiên.  Về sách quyền Sphinx cung cấp hoàn toàn miễn phí, người dùng sử dụng thư viện mã nguồn cho nhiều mục đích từ nghiên cứu tới xây dựng ứng dụng thương mại. Khác với Sphinx, HTK Framework mã nguồn mở, có điểu khoảng ràng buộc chặt chẽ người dùng yêu cầu người dùng phải đăng ký thành viên download sử dụng HTK. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 96 CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1. Kết đạt Sau trình tìm hiểu, nghiên cứu phương pháp nhận dạng giọng nói tiếng Việt, khóa luận đạt mục tiêu đề sau: a. Tìm hiểu khái niệm có liên quan đến hệ nhận dạng tiếng nói từ hiểu vận dụng số yếu tố quan trọng việc sử dụng công cụ hỗ trợ. b. Tìm hiểu phương pháp cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng nói Sphinx HTK. Trong bao gồm việc chi tiết hóa bước cài đặt thực hiện. Các bước xây dựng mô hình huấn luyện. c. Xây dựng huấn luyện với liệu thu âm ~ 15 đồng hồ. d. Thực nghiệm so sánh khả áp dụng vào tiếng Việt công cụ Sphinx HTK, bao gồm thử nghiệm công cụ decode khác Hvite, Sphinx4 Julius để từ rút kết luận nhận xét. e. Xây dựng chương trình mô nhận dạng tiếng nói tiếng Việt máy tính sử dụng mô hình âm học huấn luyện công cụ Sphinx, chương trình nhận dạng 60 từ đơn, ghép thành khoảng 100 câu lệnh điều khiển. Ngoài ra, nhóm thực demo mô hình thật, vận dụng khả mạch điều khiển vào việc điểu khiển mô hình thật. Kết đạt demo đạt tỉ lệ xác cao. 5.2. Những điểm hạn chế Do đề tài tương đối khó, nhóm chưa trang bị kiến thức xử lý tín hiệu số, xử lý tiếng nói, mô hình toán học, tài liệu âm học, ngữ âm học hạn chế nên khóa luận không tránh khỏi nhiều thiếu sót. Những mặt hạn chế khóa luận: a. Bộ từ vựng ít, so với tất từ đơn tiếng Việt (hơn 7000 từ). Để có tự vựng lớn đòi hỏi phải bỏ nhiều công sức bao gồm thu thập liệu, xây dựng mô hình phiên âm xác, thu âm, phân tích ngữ pháp,… b. Mô hình ngữ âm hạn chế, hệ thống nhận dạng với độ xác cao thành viên nhóm, người chưa GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 97 huấn luyện mô hình nhận dạng tiếng nói họ độ xác không cao. c. Hai demo khóa luận tập trung xây dựng nhằm mục đích thể khả ứng dụng mô hình nhận dạng tiếng nói tiếng Việt tự động xây dựng từ framework. Tính ứng dụng thực tế hạn chế, nhiên, để xây dựng ứng dụng mang tính thực tiễn thật không khó, vấn đề quan trọng đặt mục tiêu thực tiển ứng dụng cụ thể, từ xây dựng mô hình âm học thích hợp. 5.3. Hướng nghiên cứu phát triển Hiện tại, nhóm thành công việc thử nghiệm mô hình từ điển tiếng Việt nhóm tham khảo từ nhiều nguồn (mô hình chưa thật chuẩn xác, khả áp dụng mức chấp nhận được) vào công cụ xây dựng hệ thống nhận dạng tiếng nói tự động, bao gồm HTK Sphinx. Nhóm thực thí nghiệm công cụ decode khác Hvite, Julius, Sphinx4, nhận thấy kết khả quan, đứng mức thành đạt có nhiều hướng nghiên cứu thực cụ thể như: Tìm hiểu, nghiên cứu xây dựng mô hình phát âm tiếng Việt, điều có ý nghĩa to lớn cho việc tổng hợp nhận dạng giọng nói. Mô hình phát triển cách khoa học đắn đưa độ xác nhận dạng mô hình âm học xây dựng công cụ lên nhiều. Công việc đòi hỏi nghiên cứu nhà âm học, ngữ âm học, nghiên cứu tiếng Việt, Tìm hiểu sâu cấu tạo framework nhận dạng giọng nói trên, để từ đó, nắm quy trình hoạt động cách rõ ràng hơn, ta xây dựng mô hình âm học thích hợp cho tiếng Việt. Mở rộng vốn từ vựng tự điển, thực thu âm số với quy mô rộng rãi hơn, đa dạng giọng nói hơn, nhằm mục đích xây dựng hệ nhận dạng tiếng nói đọc lập người nói. Xây dựng ứng dụng cụ thể hóa sử dụng mô hình huấn luyện. Các ứng dụng tương tác người thiết bị giọng nói, hỗ trợ thông minh cho thiết bị hỗ trợ hoạt động người khuyết tật. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 98 TÀI LIỆU THAM KHẢO [1] B.H. Juang, Lawrence R. Rabiner, "Automatic Speech Recognition – A Brief History of the Technology". [2] S. Furui, "50 years of progress in speech and speaker recognition". [3] [Online]. Available: http://www.cslu.ogi.edu/toolkit/. [Accessed 2012]. [4] L. C. Mai, "Phát triển kết tổng hợp, nhận dạng câu lệnh, chuỗi số tiếng Việt liên tục môi trường điện thoại di động," 2006. [5] Đăng Ngọc Đức, Lương Chi Mai, "Tăng cường độ xác hệ thống mạng neuron nhận dạng tiếng Việt," 2003. [6] B. H. Khang, "Báo cáo tổng kết Khoa học Kỹ thuật đề tài Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt," 2004. [7] "Vietnamese alphabet," Wikipedia, [Online]. Available: http://en.wikipedia.org/wiki/Vietnamese_alphabet. [Accessed 2012]. [8] "IPA for Vietnamese," Wikipedia, [Online]. http://en.wikipedia.org/wiki/Wikipedia:IPA_for_Vietnamese. Available: [Accessed 2012]. [9] "Digital audio," [Online]. Available: http://en.wikipedia.org/wiki/Digital_audio. [Accessed 2012]. [10] Red Hat, [Online]. Available: http://www.cygwin.com/. [Accessed 2012]. [11] Carnegie Mellon University, [Online]. Available: http://cmusphinx.sourceforge.net/. [Accessed 2012]. [12] "Training Acoustic Model For CMUSphinx," Carnegie Mellon University, [Online]. Available: http://cmusphinx.sourceforge.net/wiki/tutorialam. [Accessed 2012]. [13] [Online]. Available: http://audacity.sourceforge.net/. [Accessed 2012]. [14] "Recording the Test Data," [Online]. Available: http://www.voxforge.org/home/dev/acousticmodels/windows/test/htk-julius/data-prep/step-3. [Accessed 2012]. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 99 [15] "Sphinx-4 Application Programmer's Guide," Carnegie Mellon University, [Online]. Available: http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4. [Accessed 2012]. [16] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, Phil Woodland, HTK Book, Cambridge University Engineering Department, 2009. [17] L. Rabiner, A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition, 1989. GVHD: TS. Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng [...]... trình nhận dạng 2.3.2 Phân loại các hệ thống nhận dạng tiếng nói 2.3.2.1 Nhận dạng từ liên tục và nhận dạng từ tách biệt Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên tục và nhận dạng từng từ Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục GVHD: TS Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 16 trong một chuỗi tín hiệu, chẳng hạn như một câu nói, ... để áp dụng vào nhận dạng tiếng nói Đặc điểm của các hệ thống nhận dạng theo phương pháp này là: Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm Điều này làm đơn giản hóa hệ thống so với phương pháp nhận dạng ngữ âm.Sử dụng mạng nơron nhân tạo để học mối quan hệ giữa các ngữ âm, sau đó dùng nó để nhận dạng tiếng nói Việc sử dụng hệ chuyên gia nhằm tận dụng kiến thức con người vào hệ nhận dạng: -... Bước 2: Nhận dạng Bước này dựa trên một số điều kiện ràng buộc về từ vựng, ngữ pháp v.v… để xác định một hoặc một chuỗi từ đúng trong các chuỗi nhãn ngữ âm được tạo ra sau bước 1 2.3.3.2 Phương pháp nhận dạng mẫu Phương pháp nhận dạng mẫu không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng Các hệ thống nhận dạng tiếng nói. .. đồng thời cũng có những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, quay số bằng giọng nói , với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi đối với mô hình trên 2.3.2.2 Nhận dạng phụ thuộc người nói và độc lập người nói Đối với nhận dạng phụ thuộc người nói thì mỗi một hệ nhận dạng chỉ phục vụ được cho một người, và nó sẽ không hiểu người khác nói gì nếu như chưa được... thuật nhận dạng mẫu được áp dụng thành công trong nhận dạng tiếng nói là lượng tử hóa vector, so sánh thời gian động (DTW), mô hình Markov ẩn (HMM), mạng nơron nhân tạo (ANN) 2.3.3.3 Phương pháp ứng dụng trí tuệ nhân tạo Phương pháp ứng dụng trí tuệ nhân tạo kết hợp các phương pháp trên nhằm tận dụng tối đa các ưu điểm của chúng, đồng thời bắt chước các khả năng của con người trong phân tích và cảm nhận. .. nhận dạng: - Kiến thức về âm học: Để phân tích phổ và xác định đặc tính âm học của các mẫu tiếng nói - Kiến thức về từ vựng: sử dụng để kết hợp các khối ngữ âm thành các từ cần nhận dạng - Kiến thức về cú pháp: nhằm kết hợp các từ thành các câu cần nhận dạng - Kiến thức về ngữ nghĩa: nhằm xác định tính logic của các câu đã được nhận dạng 2.4 Rút Trích Đặt Trưng Tín Hiệu Tiếng Nói 2.4.1 Giới thiệu Rút... trong bất cứ khung phân tích nào), và mối tương quan giữa các ước đoán phổ LPC của các khung kề nhau sẽ không chứa một thành phần nhiễu mà cường độ của nó tăng như M (nghĩa là, khi có nhiều tiếng nói bị bỏ qua không phân tích) Tình trạng này là không thể chấp nhận trong phân tích LPC cho nhận dạng tiếng nói Nếu ta biểu thị khung tiếng nói thứ  là x (n) và có L khung trong toàn bộ tín hiệu tiếng nói. .. thể được bỏ qua do ngữ cảnh, và do có phần xử lý làm mờ đi của não Nhưng đối với máy tính thì rất khó xây dựng được một mô hình giải quyết cho tất cả các trường hợp khác biệt đó 2.3.3 Một số phương pháp nhận dạng tiếng nói Có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói hiện nay: - phương pháp âm học- ngữ âm học - phương pháp nhận dạng mẫu - phương pháp ứng dụng trí tuệ nhân tạo 2.3.3.1... Trích Đặt Trưng Tín Hiệu Tiếng Nói 2.4.1 Giới thiệu Rút trích đặc trưng của tiếng nói là một trong những khâu quan trọng trong quá trình nhận dạng tiếng nói Dữ liệu tiếng nói thông thường dưới dạng sóng âm đã lưu trữ trong máy tính là loại dữ liệu khó xử lý, học mẫu huấn luyện, và so sánh, vì thế việc rút trích đặc trưng tiếng nói là cần thiết Kết quả của quá trình rút trích đặc trưng là 1 hoặc nhiều... hoặc đưa tới một quá trình xử lý ngôn ngữ ở mức cao hơn Hình 2.2 Sơ đồ nhận dạng tiếng nói tổng quát GVHD: TS Vũ Đức Lung SVTH: Võ Văn Hòa – Tôn Thanh Hùng Trang | 15 Hình 2.3 Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói Hình 2.3 là cấu trúc của một hệ nhận dạng tiếng nói Tính hiệu tiếng nói đầu tiên được tiền xử lý và rút trích đặc trưng Kết quả thu được sau quá trình này là tập các đặc . tên Nghiên cứu về nhận dạng giọng nói tiếng Việt và ứng dụng trong điều khiển . Để thực hiện được việc nhận dạng giọng nói, ta phải xây dựng một hệ thống gọi là Hệ thống nhân dạng tiếng nói. nhất: tìm hiểu, vận dụng các kiến thức về nhận dạng tiếng nói đề xây dựng mộ chương trình nhận dạng tiếng nói tiếng Việt và ứng dụng trong điều khiển thiết bị mô phỏng và thiết bị thật. Mục. dịch tiếng nói xuyên ngữ tự động.  Các trạm kiểm soát, hệ thống điều khiển sử dụng tiếng nói.  Các ứng dụng tiếng nói trên thiết bị di động. Về mặt kinh tế và thương mại, công nghệ nhận dạng

Ngày đăng: 21/09/2015, 11:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan