nghiên cứu các kỹ thuật trong nhận dạng tiếng nói

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đàm Tiến Dũng NGHIÊN CỨU CÁC KỸ THUẬT TRONG NHẬN DẠNG TIẾNG NÓI KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đàm Tiến Dũng NGHIÊN CỨU CÁC KỸ THUẬT TRONG NHẬN DẠNG TIẾNG NÓI) KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2010 LỜI CẢM ƠN Đầu tiên, tôi xin bày tỏ sự biết ơn sâu sắc tới TS. Lê Anh Cường (công tác tại trường ĐH Công Nghệ - ĐH Quốc gia Hà Nội), người đã tận tình theo sát hướng dẫn tôi trong suốt quá trình thực hiện luận văn này. Tiếp theo, tôi xin dành lời cảm ơn chân thành tới TS. Lê Sỹ Vinh (công tác tại trường ĐH Công Nghệ - Đại học Quốc Gia Hà Nội), người đã nhiệt tình giúp đỡ, cho tôi những lời khuyên hữu ích để hoàn thiện luận văn. Tôi xin gửi lời cảm ơn đến cô Lương Chi Mai và anh Vũ Tất Thắng (công tác tại viện Khoa học và Công nghệ Việt Nam), hai người đã sẵn lòng giải đáp khúc mắc và chia sẻ kinh nghiệm cho tôi khi gặp bế tắc trong quá trình nghiên cứu. Tôi cũng xin gửi lời cảm ơn đến người đồng nghiên cứu với tôi, bạn Hà Thanh Tùng, người đã sát cánh cùng tôi vượt qua rất nhiều khó khăn trong thời gian hoàn luận văn này. Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ tôi, các anh chị tôi và cùng với bạn bè đã luôn ở bên cạnh khuyến khích, động viên, giúp đỡ tôi vượt qua những khó khăn trong quá trình thực hiện luận văn. Hà Nội, tháng 05 năm 2010. Sinh viên Đàm Tiến Dũng Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng và có nhiều ứng dụng trong cuộc sống. Cho đến nay, có rất nhiều nghiên cứu về nhận dạng tiếng nói đã được đưa ra, và kỹ thuật đều có điểm mạnh, điểm yếu riêng. Trong luận văn này, tôi sẽ giới thiệu một số kỹ thuật tiêu biểu trong nhận dạng tiếng nói, bao gồm kỹ thuật trích chọn đặc trưng MFCC, các kỹ thuật nhận dạng bằng mô hình Markov ẩn và bằng đối sánh mẫu. Song song với việc nghiên cứu lý thuyết, tôi cũng xây dựng một hệ thống nhận dạng tiếng nói thử nghiệm dựa trên các lý thuyết đó, với mục đích là kiểm tra tính đúng đắn và so sánh các kỹ thuật trong nhận dạng tiếng nói. Cuối cùng, thông qua nghiên cứu này, tôi xin đề xuất ra một số phương hướng phát triển, nghiên cứu tiếp theo, cùng với những ứng dụng của nghiên cứu vào các bài toán trong thực tế. MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH ẢNH BẢNG KÝ HIỆU VIẾT TẮT Viết tắt Tên đầy đủ Ý nghĩa DTW Dynamic Time Warping So sánh thời gian động HMM Hidden Markov Model Mô hình Markov ẩn IPA International Phonetics Alphabet Bảng chữ cái ngữ âm quốc tế MFCC Mel frequency cepstral coefficients Các hệ số phổ tần số Mel NNs Neural Networks Các mạng nơ ron Chương 1. MỞ ĐẦU Trong chương này, tôi sẽ nêu lên tính cần thiết, mục đích cùng với những ý nghĩa khoa học, tính thực tiễn của đề tài nghiên cứu này. 1.1. GIỚI THIỆU BÀI TOÁN NHẬN DẠNG TIẾNG NÓI Trong cuộc sống hàng ngày, tiếng nói tự nhiên chính là phương tiện giao tiếp đơn giản, hiệu quả và thông dụng nhất giữa người với người. Tiếng nói đã trở nên quá quen thuộc đối với con người ngay từ khi mới lọt lòng. Tầm quan trọng của tiếng nói trong cuộc sống thường ngày là không thể phủ nhận. Tuy nhiên, ngày nay khi mà máy móc có ở khắp nơi xung quanh chúng ta thì loại hình giao tiếp cơ bản nhất giữa con người và máy móc lại là các dòng lệnh, các chỉ thị thông qua việc gõ bàn phím. Các dòng lệnh đó thường rất máy móc và khó nhớ đối với con người, đồng thời thao tác bằng tay cũng thường chậm hơn so với việc sử dụng tiếng nói. Hãy thử tưởng tượng, cuộc sống sẽ trở nên dễ dàng thế nào nếu chúng ta có thể giao tiếp với máy móc bằng tiếng nói tự nhiên. Khi đó, chúng ta có thể soạn thảo văn bản bằng tiếng nói, quay số điện thoại bằng tiếng nói, hay tìm kiếm thông tin trên Internet bằng giọng nói chứ không qua thao tác bằng tay. Nhận dạng tiếng nói, đứng trên quan điểm học máy là một bài toán nhận dạng mẫu phức tạp. Mục đích của bài toán này là phân lớp tín hiệu tiếng nói đầu vào thành một dãy liên tiếp các mẫu đã được học sẵn. Trong đó một mẫu có thể là một từ, hoặc một âm vị (đơn vị nhỏ nhất có thể phân biệt được cấu tạo nên từ). Về cơ bản, bài toán nhận dạng tiếng nói được chia ra thành các loại sau[19]: Nhận dạng tiếng nói rời rạc/liên tục Nhận dạng tiếng nói phụ thuộc người nói/không phục thuộc người nói Nhận dạng tiếng nói với bộ từ vựng nhỏ/bộ từ vựng lớn Lĩnh vực nhận dạng tiếng nói đang ngày càng được quan tâm hơn trong những năm gần đây. Nhiều lý thuyết đã được xây dựng, như kỹ thuật trích chọn đặc trưng LPC hay MFCC, các kỹ thuật nhận dạng như mô hình Markov ẩn (HMM), các mạng nơ ron (NNs) hay so sánh thời gian động (DTW). Bàng dưới đây chỉ ra kết quả đạt được của một số hệ thống nhận dạng tiếng nói hiện thời trên thế giới [7]: 9 Bảng 1: Kết quả của một số hệ thống nhận dạng tiếng nói trên thế giới Hệ thống Lượng từ vựng Tỉ lệ lỗi (%) TI Digits 11 (bộ số tiếng Anh) 0.5 Wall street Journal read speech 5.000 3 Wall street Journal read speech 20.000 3 Broadcast News 64.000+ 10 Conversation Telephone Speech (CTS) 64.000+ 20 Mặc dù có rất nhiều lý thuyết đã được đưa ra, tuy nhiên những gì đạt được vẫn là chưa đủ để tiếng nói có thể thay hoàn toàn những dòng lệnh trong giao tiếp giữa người với máy. Tuy nhiên, những thành tựu đạt được đó cũng đã giúp con người giải quyết khá nhiều bài toán trong cuộc sống. Một số mày điện thoại di động đã có thể cho phép quay số tự động khi người dùng đọc tên người cần gọi trong danh bạ vào. Con người đã có thể điều khiển sự hoạt động của rô bốt bằng giọng nói, mặc dù những chỉ thị đó thường ngắn gọn và nằm trong một tập hữu hạn các chỉ thị đã được huấn luyện. 1.2. MỤC ĐÍCH CỦA NGHIÊN CỨU Ngày nay, hướng nghiên cứu chủ đạo trong lĩnh vực nhận dạng tiếng nói là các kỹ thuật để tách biệt hệ thống nhận dạng tiếng nói ra khỏi sự phụ thuộc vào người nói, bộ từ vựng hay môi trường. Ở Việt Nam hiện nay, các nghiên cứu về nhận dạng tiếng nói không nhiều, và thường tập trung vào các tập từ vựng nhỏ nhằm giải quyết một số bài toán thực tế nhất định. Dựa trên những lý thuyết đã được xây dựng, nghiên cứu này được thực hiện nhằm đạt được những mục đích sau đây: Tìm hiểu các kỹ thuật trong nhận dạng tiếng nói, trong đó tập trung vào hai phần chính là kỹ thuật trích chọn đặc trưng MFCC và kỹ thuật nhận dạng sử dụng mô hình Markov ẩn. Tự cài đặt hệ thống nhận dạng tiếng nói trên tập số đếm tiếng Việt từ 0 đến 9 bằng mô hình Markov ẩn và bằng phương pháp đối sánh mẫu, dựa trên phương pháp trích chọn đặc trưng MFCC. Sau đó so sánh các kết quả đạt được để đưa ra kết luận về các phương pháp trên. Đề ra những định hướng phát triển tiếp theo sau nghiên cứu này. 10 [...]... 2 TIẾNG NÓI VÀ SỰ BIỂU DIỄN TIẾNG NÓI Các hệ thống nhận dạng như nhận dạng chữ viết tay hay nhận dạng tiếng nói đều cố gắng mô phỏng tốt nhất quá trình mà vật cần nhận dạng được hình thành trong thực tế Chính vì vậy ,trước khi đi vào tìm hiểu các kỹ thuật trong nhận dạng tiếng nói, chúng ta cần nắm được một số kiến thức về tiếng nói như cách một tiếng nói được tạo thành hay cách biểu diễn tiếng nói. .. xác của hệ thống nhận dạng tiếng nói, thì điều kiện đủ chính là mô hình nhận dạng Trong phần này tôi sẽ giới thiệu chi tiết về kỹ thuật nhận dạng tiếng nói sử dụng mô hình Markov ẩn, một mô hình đã được áp dụng thành công trong một số phần mềm như bộ công cụ nhận dạng tiếng nói HTK4 hay bộ nhận dạng tiếng nói Sphinx [17] 4.1 GIỚI THIỆU MÔ HÌNH MARKOV ẨN Lý thuyết về nhận dạng tiếng nói đang ngày càng... � Cụ thể về thuật toán Baum-Welch trong bài toán nhận dạng tiếng nói sẽ được mô tả trong phần 4.3.3 4.3 MÔ HÌNH MARKOV ẨN CHO NHẬN DẠNG TIẾNG NÓI 4.3.1 Xây dựng mô hình Markov ẩn cho nhận dạng tiếng nói Mô hình miêu tả ở trên là một dạng đặc biệt của HMM, thường được sử dụng trong nhận dạng tiếng nói Mô hình này được gọi là HMM trái-sang-phải (left-to-right HMM hay Bakis Network) bởi vì các trạng thái... 20.000Hz là đủ cho việc nhận dạng với độ chính xác cao Trong lĩnh vực nhận dạng tiếng nói qua điện thoại, tần số lẫy mẫu chỉ cần là 8.000Hz vì chỉ có các tín hiệu có tần số nhỏ hơn 4.000Hz được truyền đi bởi điện thoại Các thiết bị thu âm thì thường có tần số lấy mẫu là 16.000Hz 12 Chương 3 KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG NÓI 2 Trong các bài toán nhận dạng mẫu nói chung, phương pháp... và sự tạo thành tiếng nói IPA là một hệ thống chuẩn các ký hiệu bằng chữ latin được dùng để biểu diễn tiếng nói, trong đó mỗi ký hiệu tương ứng với một âm vị Việc biểu diễn tiếng nói bằng các ký hiệu này được gọi là phiên âm Ví dụ, từ PEN trong tiếng Anh sẽ được phiên âm là /p ε n/ Phiên âm, nói cách khác, chính là sự biểu diễn của tiếng nói dưới dạng văn bản Tuy nhiên, trong máy tính, các ngôn ngữ lập... càng phát triển, tuy nhiên một hệ thống nhận dạng tiếng nói không bị phụ thuộc vào người nói hay các điều kiện môi trường phải rất lâu nữa mới có thể đạt được Có nhiều phương pháp cho nhận dạng tiếng nói đã được đưa ra như: mạng neural (Neural networks), DTW (Dynamic Time Warping), mô hình Markov ẩn (Hidden Markove Model)… Trong đó, kỹ thuật nhận dạng tiếng nói sử dụng mô hình Markov ẩn là một hướng... trong đó đầu ra của bước biến đổi trước sẽ là đầu vào của bước biến đổi sau Đầu vào của quá trình trích chọn đặc trưng này sẽ là một đoạn tín hiệu tiếng nói đã được rời rạc hóa Chi tiết của từng bước xử lý sẽ được giới thiệu trong phần tiếp theo đây.3 2 Một số nội dung trong chương này được nghiên cứu cùng sinh viên Hà Thanh Tùng trong khóa luận Nghiên cứu các đặc trưng trong nhận dạng tiếng nói tiếng. .. hình có thể phù hợp với những dữ liệu tiếng nói đầu vào có thời gian biến thiên Đối với những trường hợp nhận dạng tiếng nói đơn giản, có số lượng từ vựng ít, như nhận dang bộ số đếm từ 0-9 thì một trạng thái ẩn trong HMM biểu diễn một âm vị là hợp lý Tuy nhiên, trong nhận dạng tiếng nói liên tục với bộ từ vựng lớn, cần có một cách biểu diễn mịn hơn Trong tiếng nói tự nhiên, một âm vị có thể kéo dài... từng từ trong bộ từ vựng Chính vì vậy mô hình này chỉ có thể áp dụng để nhận dạng đối với đầu vào là từng từ riêng biệt Chúng ta cần phải có những kỹ thuật bổ sung để hệ thống có thể nhận dạng với dữ liệu tiếng nói liên tiếp Dưới đấy, tôi sẽ giới thiệu hai phương pháp để nhận dạng tiếng nói liên tục: Phương pháp đầu tiên là cắt dữ liệu tiếng nói liên tục đầu vào thành từng từ, sau đó nhận dạng đối... 2.1 ÂM VỊ VÀ SỰ TẠO THÀNH TIẾNG NÓI Trong ngữ âm học, âm vị là một đơn vị phân đoạn nhỏ nhất của tiếng nói được dùng để tạo nên các từ có nghĩa Nói cách khác, âm vị là đơn vị nhỏ nhất có thể phân biệt của tiếng nói Như vậy, một từ được phát âm ra thực chất là sự kết hợp của một tập các âm vị liên tiếp nhau Tiếng nói của con người được hình thành nhờ sự kết hợp của các bộ phận trong bộ máy phát âm như . bài toán nhận dạng tiếng nói được chia ra thành các loại sau[19]: Nhận dạng tiếng nói rời rạc/liên tục Nhận dạng tiếng nói phụ thuộc người nói/ không phục thuộc người nói Nhận dạng tiếng nói với. MỤC ĐÍCH CỦA NGHIÊN CỨU Ngày nay, hướng nghiên cứu chủ đạo trong lĩnh vực nhận dạng tiếng nói là các kỹ thuật để tách biệt hệ thống nhận dạng tiếng nói ra khỏi sự phụ thuộc vào người nói, bộ từ. hiểu các kỹ thuật trong nhận dạng tiếng nói, chúng ta cần nắm được một số kiến thức về tiếng nói như cách một tiếng nói được tạo thành hay cách biểu diễn tiếng nói. 2.1. ÂM VỊ VÀ SỰ TẠO THÀNH TIẾNG

nghiên cứu các kỹ thuật trong nhận dạng tiếng nói

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Đàm Tiến Dũng

HÀ NỘI - 2010

Đàm Tiến Dũng

HÀ NỘI - 2010

Chương 1. MỞ ĐẦU

1.1. GIỚI THIỆU BÀI TOÁN NHẬN DẠNG TIẾNG NÓI

1.2. MỤC ĐÍCH CỦA NGHIÊN CỨU

Chương 2. TIẾNG NÓI VÀ SỰ BIỂU DIỄN TIẾNG NÓI

2.1. ÂM VỊ VÀ SỰ TẠO THÀNH TIẾNG NÓI

2.2. PHIÊN ÂM 1

2.3. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI TRONG MÁY TÍNH

Chương 3. KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG NÓI 2

3.1. ĐỊNH NGHĨA

3.2. TRÍCH CHỌN ĐẶC TRƯNG MFCC

3.2.1. Pre-emphasis

3.2.2. Windowing

3.2.3. DFT (Dicrete fourier transform)

3.2.4. Mel filter-bank and log

3.2.5. DCT (Discrete consinse transform)

3.2.6. Feature extraction

Chương 4. KỸ THUẬT NHẬN DẠNG TIẾNG NÓI SỬ DỤNG MÔ HÌNH MARKOV ẨN

4.1. GIỚI THIỆU MÔ HÌNH MARKOV ẨN

4.2. NHỮNG VẤN ĐỀ CHÍNH CỦA HMM

4.2.1. Ước lượng xác suất mô hình 6

4.2.1.1. Thuật toán Forward

4.2.1.2. Thuật toán Backward

4.2.2. Nhận dạng

4.2.3. Huấn luyện

4.3. MÔ HÌNH MARKOV ẨN CHO NHẬN DẠNG TIẾNG NÓI

4.3.1. Xây dựng mô hình Markov ẩn cho nhận dạng tiếng nói

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan