KỸ THUẬT TRÍCH CHỌN đặc TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG nói

Thông tin tài liệu

Ket-noi.com diễn đàn cơng nghệ, giáo dục Tóm tắt nội dung Tiếng nói cơng cụ giao tiếp vơ hiệu thiếu người Ngày nay, với ý tưởng mở rộng việc giao tiếp người với máy móc qua tiếng nói thay thiết bị đầu vào phức tạp không dễ nhớ, nhiều nhà nghiên cứu khoa học đầu tư công sức vào việc xây dựng hệ thống nhận dạng tiếng nói tự động cho nhiều kiểu giọng nói nhiều ngôn ngữ Đặc điểm chung hệ nhận dạng bắt đầu trình tìm hiểu mơ đặc điểm tiếng nói, hay gọi q trình “trích chọn đặc trưng” Công việc đặt tảng quan trọng cho việc áp dụng phương pháp nhận dạng định tới tính xác tồn hệ thống Tiếp tục nghiên cứu trên, khóa luận tìm hiểu đặc điểm tiếng nói nói chung tiếng nói tiếng Việt nói riêng với mục đích kết xuất đặc trưng tiếng nói tiếng Việt dạng số thực cho trình nhận dạng Đồng thời áp dụng mơ hình thống kê HMM để nhận dạng sử dụng phương pháp phân biệt điệu để có kết kiểm chứng mức độ xác q trình trích chọn đặc trưng hướng tới ứng dụng Ket-noi.com diễn đàn công nghệ, giáo dục Lời cảm ơn Đầu tiên, xin chân thành cảm ơn tiến sĩ Lê Anh Cường, đồng cảm ơn tiến sĩ Lê Sỹ Vinh công tác môn Khoa Học Máy Tính - khoa Cơng nghệ Thơng Tin - trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội, hai thầy hướng dẫn trực tiếp hướng dẫn tơi hồn thành khóa luận Nhờ động viên giúp đỡ nhiệt tình lời khuyên bổ ích, ý tưởng sáng tạo hai thầy q trình hướng dẫn giúp tơi hồn thành khóa luận cách tốt Tiếp theo xin dành lời cảm ơn tới PGS.TS Lương Chi Mai anh Vũ Tất Thắng công tác Viện Khoa Học Công Nghệ Việt Nam, hai người giúp đỡ cho nhiều lời khuyên kinh nghiệm hữu ích gặp khó khăn, bế tắc q trình hồn thành khóa luận Ngồi ra, xin gửi lời cảm ơn tới người bạn nhóm nghiên cứu: Đàm Tiến Dũng, người sát cánh, giúp đỡ động viên nhiều từ bắt đầu tới hoàn thành Đồng cảm ơn tới bạn lớp anh chị học khóa với chia sẻ kinh nghiệm bổ ích Cuối xin gửi lời cảm ơn tới gia đình tơi, ba mẹ người ln ủng hộ chỗ dựa tinh thần vững cho năm học đại học nói chung việc hồn thành khóa luận cuối khóa nói riêng Ket-noi.com diễn đàn công nghệ, giáo dục Mục lục Danh mục hình minh họa Ket-noi.com diễn đàn cơng nghệ, giáo dục Chương MỞ ĐẦU Chương dành để đặt vấn đề đề tài nhận dạng tiếng nói nói chung nhận dạng tiếng nói tiếng Việt nói riêng qua xác định tầm quan trọng việc tìm hiểu đặc trưng tiếng nói hệ thống nhận dạng Đồng thời, chương nghiên cứu hướng nghiên cứu sử dụng mục tiêu khóa luận đề tài 1.1 Đặt vấn đề Một mục đích xu hướng quan trọng khoa học ngày hướng tới việc tự động hóa cơng việc chân tay, thực tế máy móc với hiệu suất tốc độ vượt trội thực thay sức lao động người nhiều lĩnh vực điều khiển máy, chế tạo linh kiện, vật liệu… Một cách tự nhiên, điều nảy sinh nhu cầu giao tiếp người với máy móc, việc giao tiếp bình thường thơng qua thiết bị đầu vào dần trở nên phức tạp cỗ máy Trong nhiều năm qua, việc nghiên cứu xây dựng hệ thống nhận dạng tiếng nói phục vụ giao tiếp người – máy nhiều nhà nghiên cứu khoa học giới đầu tư thời gian công sức đạt nhiều kết khả quan (VD: Framework nhận dạng tiếng nói Sphinx4, xây dựng công ty Sun, nhận dạng câu nằm tập từ điển khoảng 65.000 từ) [8] Đặc điểm chung hệ thống nhận dạng tiếng nói, dù sử dụng phương pháp nào, trước hết phải số hóa tín hiệu tiếng nói để máy tính hiểu được, qua tìm đặc trưng riêng tiếng nói so với đặc trưng âm khác nhạc cụ, tiếng ồn… Chính việc trích chọn đặc trưng nói vấn đề quan trọng hàng đầu cho hệ thống nhận dạng tiếng nói, trích chọn đặc trưng xác, độ xác việc nhận dạng hệ thống cao, điều hồn tồn với tất tiếng nói ngơn ngữ, bao gồm tiếng nói tiếng Việt Ket-noi.com diễn đàn cơng nghệ, giáo dục Hình sau vị trí q trình trích chọn đặc trưng hệ thống nhận dạng tiếng nói bất kì: Tiếng nói Trích chọn đặc trưng frame frame frame Huấn luyện nhận dạng Text Hình : Vị trí việc trích chọn đặc trưng hệ thống nhận dạng tiếng nói 1.2 Hướng nghiên cứu phương pháp sử dụng Có ba phương pháp chính, hiệu để tìm hiểu đặc trưng tiếng nói, thứ mơ lại q trình phát tiếng nói máy phát âm (bao gồm phận bên miệng, mũi), thứ hai mơ q trình thu nhận âm máy cảm nhận âm (các phận bên tai) phương pháp phân tích phổ tổng hợp hai phương pháp Hiện phương pháp chọn đặc trưng mơ q trình phát âm thu nhận âm phương pháp “mã hóa dự đốn tuyến tính” – LPC (Linear predictive coding) [6][9] phương pháp lấy “hàm biên độ trung bình” – AMDF [12] (Average magnitude different function) mô tả cảm nhận cao độ âm tai, Ket-noi.com diễn đàn công nghệ, giáo dục nhiên hạn chế hai phương pháp thể việc kết nhận dạng chưa thật cao [12] Trong khóa luận này, ta đề cập tới kĩ thuật trích chọn đặc trưng MFCC [2] kết hợp phương pháp để trích chọn đặc trưng tiếng nói tiếng Việt, sử dụng lại phương pháp AMDF [9] để trích chọn đặc trưng đặc thù tiếng Việt điệu Trích chọn đặc trưng MFCC xem phương pháp hiệu áp dụng nhiều hệ nhận dạng tiếng Sphinx công ty Sun Sử dụng kết trích chọn đặc trưng, ta áp dụng phương pháp nhận dạng hiệu dùng mơ hình HMM [5] để huấn luyện nhận dạng tiếng nói, sử dụng đặc trưng điệu để phân biệt điệu tiếng Việt cho tín hiệu âm ban đầu 1.3 Giới hạn mục tiêu đề tài Mục tiêu việc tìm hiểu đặc trưng tiếng nói hướng tới việc xây dựng hệ thống nhận dạng tiếng nói tiếng Việt với độ xác cao, nhiên phạm vi thời gian khn khổ khóa luận cử nhân Công Nghệ Thông tin, giới hạn nội dung nghiên cứu vấn đề đây: Thứ nhất, việc trích chọn đặc trưng MFCC AMDF áp dụng cho hệ nhận dạng tiếng nói liên tục (tiếng nói nói theo câu) hệ nhận dạng rời rạc (nói từ riêng biệt), hệ thống mà khóa luận xây dựng hệ nhận dạng rời rạc, với từ điển chữ số đếm tiếng Việt (KHONG, MOT, HAI, BA, BON, NAM, SAU, BAY, TAM, CHIN), phân biệt điệu không phụ thuộc từ điển Thứ hai, hệ nhận dạng chúng tơi (bao gồm người nhóm nghiên cứu) xây dựng “Phụ thuộc người nói”, chưa có điều kiện thu âm để huấn luyện kiểm thử với nhiều kiểu giọng nói nên khơng thể coi hệ thống xây dựng “Khơng phụ thuộc người nói” Hệ thống xây dựng huấn luyện nhận dạng với giọng nói người Từ việc xác định mục tiêu rõ ràng mình, chúng tơi định hướng tương lai nghiên cứu sâu kĩ thuật trích chọn đặc trưng kĩ thuật nhận dạng để Ket-noi.com diễn đàn công nghệ, giáo dục mở rộng từ vựng nhận dạng, hướng vào ứng dụng giao tiếp người máy, điều khiển máy giọng nói ứng dụng khác giao tiếp truyền thơng… Chương KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG NÓI 2.1 XỬ LÝ TÍN HIỆU ÂM THANH VÀ TRÍCH CHỌN ĐẶC TRƯNG Tín hiệu âm ngồi đời thực tín hiệu liên tục, hay tín hiệu tương tự Trước thực bước xử lý nào, tín hiệu âm cần số hóa Việc thực tự động thiết bị thu âm, cách lấy mẫu tín hiệu đầu vào [1] Như vậy, tín hiệu âm đưa vào máy tính, tập mẫu liên tiếp nhau, mẫu giá trị biên độ tín hiệu thời điểm định Một tham số quan trọng việc lấy mẫu tín hiệu âm tần số lấy mẫu, Fs, tức số mẫu lấy giây Để đo lường xác, cần phải lấy mẫu chu kỳ tín hiệu tương tự đầu vào Như vậy, tần số lấy mẫu phải lớn lần tần số cao tín hiệu âm đầu vào Tuy nhiên, thực tế tai người nhận biết âm có tần số nhỏ 10.000Hz [12][3], tần số lấy mẫu 20.000Hz đủ cho việc nhận dạng với độ xác cao Trong lĩnh vực nhận dạng tiếng nói qua điện thoại, tần số lẫy mẫu cần 8.000Hz có tín hiệu có tần số nhỏ 4.000Hz truyền điện thoại [10] Các thiết bị thu âm thường có tần số lấy mẫu 16.000Hz [3] Trích chọn đặc trưng nhận dạng tiếng nói việc tham số hóa chuỗi tín hiệu âm dạng sóng đầu vào, biến đổi tín hiệu âm thành chuỗi vector đặc trưng n chiều, chiều giá trị thực Hiện nay, có nhiều phương pháp trích chọn đặc trưng như: LPC(Linear predictive coding – Dự đốn tuyến tính [6][9]), AMDF(Average magnitude different function – hàm biên độ trung bình), MFCC(Mel- Đồng nghiên cứu có phần nội dung chung với khóa luận “Các kĩ thuật nhận dạng tiếng nói”, 2010 sinh viên Đàm Tiến Dũng – Đại học công nghệ Ket-noi.com diễn đàn công nghệ, giáo dục frequency cepstral coefficients), kết hợp phương pháp [12] Phần giới thiệu cụ thể phương pháp trích chọn đặc trưng MFCC Trong tốn nhận dạng tiếng nói xét, với tần số lấy mẫu mặc định 16.000Hz, đoạn mẫu với số lượng định tạo thành frame, tín hiệu tiếng nói tập frame liên tiếp nhau, trích chọn đặc trưng MFCC cho ta tập đặc trưng cho frame tiếng nói Tại phải chia thành frame frame cụ thể chúng có đặc trưng nào, ta đề cập tới phần sau 2.2 TRÍCH CHỌN ĐẶC TRƯNG MFCC Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC phương pháp phổ biến MFCC viết tắt Mel-frequency cepstral coefficients Kỹ thuật dựa việc thực biến đổi để chuyển liệu âm đầu vào (đã biến đổi Fourier cho phổ) thang đo tần số Mel, thang đo diễn tả tốt nhạy cảm tai người âm Kỹ thuật trích chọn đặc trưng gồm bước biến đổi liên tiếp, đầu bước biến đổi trước đầu vào bước biến đổi sau Đầu vào trình trích chọn đặc trưng đoạn tín hiệu tiếng nói Vì tín hiệu âm sau đưa vào máy tính rời rạc hóa nên đoạn tín hiệu tiếng nói bao gồm mẫu liên tiếp nhau, mẫu giá trị thực, thể giá trị biên độ âm thời điểm Trích chọn đặc trưng MFCC gồm sáu bước hình vẽ sau, kết tập gồm 39 giá trị đặc trưng cho frame tiếng nói Hình (nguồn [2]): Sơ đồ q trình trích chọn đặc trưng MFCC Nội dung tham khảo từ Speech and Language Processing, 2007, chapter Tác giả Daniel Jurafsky & Jame H.Martin Ket-noi.com diễn đàn cơng nghệ, giáo dục 2.2.1 Pre-emphasis Tín hiệu âm thường thu môi trường đời thường, tiếng nói bình thường người khơng to, trừ nói to có chủ định, nhiễu mơi trường (tần số thấp) nhiều có cường độ lớn phần đáng kể (nghe dễ dàng nhận ra) tiếng nói thu âm, bước q trình trích chọn đặc trưng MFCC xử lý vấn đề này, việc thực tăng cường độ tần số cao lên nhằm làm tăng lượng vùng có tần số cao – vùng tần số tiếng nói, cách dễ hiểu làm tiếng nói lớn lên để ảnh hưởng âm môi trường nhiễu trở thành không đáng kể Việc tăng cường độ vùng tần số cao lên đồng thời làm cho thơng tin rõ ràng mẫu tiếng nói Hình sau mơ tả trước sau q trình Preemphasis đoạn tín hiệu âm thanh: Hình (nguồn [2]): Một đoạn tần âm trước sau Pre-Emphasis 2.2.2 Windowing Trong hệ thống nhận dạng tiếng nói trình bày khóa luận này, với mục đích nâng cao độ xác việc nhận dạng tiếng, thay nhận dạng từ riêng biệt, từ đoạn hội thoại phân tích thành âm vị (subphone) [7], hệ thống nhận dạng âm vị Âm vị đơn vị phát âm từ, âm vị cấu thành tiếng nói, tiếng Anh, đơn vị cấu thành phiên âm từ (chẳng hạn ONE: w-ah-n, âm vị w, ah n), cách phát âm tiếng Việt, cách viết từ hình thức văn âm vị (chẳng hạn “MOT” = “m-oo-t”, âm vị m, oo t) Ket-noi.com diễn đàn cơng nghệ, giáo dục Vì lý đó, đặc trưng cần phải trích chọn âm vị, thay từ hay đoạn tiếng nói dài Windowing việc cắt đoạn tín hiệu âm đầu vào thành mẩu tín hiệu có thời lượng nhỏ, gọi frame Mỗi frame sau nhận dạng thuộc âm vị Nói cách khác, frame tập gồm số mẫu tín hiệu ban đầu ta đề cập phần 2.1 Một lý khác cho thấy cần thiết việc windowing tín hiệu âm thay đổi nhanh, thuộc tính biên độ, chu kỳ khơng ổn định Khi tín hiệu âm cắt thành đoạn nhỏ đoạn, coi tín hiệu ổn định, đặc trưng tín hiệu khơng đổi theo thời gian Hình vẽ sau mơ tả q trình Windowing: Hình (nguồn [2]): Minh họa trình Windowing Để thực việc này, sử dụng cửa sổ (window) chạy dọc tín âm cắt đoạn tín hiệu nằm cửa sổ Một cửa sổ định nghĩa thông số: - Frame size: độ rộng cửa sổ, độ lớn frame tín hiệu cắt - Frame shift: bước nhảy cửa sổ, độ dài đoạn mà cửa sổ trượt để cắt frame 10 Ket-noi.com diễn đàn công nghệ, giáo dục cụ thể ot vector 39 chiều thực, bjot tính lại theo cơng thức phân phối vector đa chiều bjot = Ở kì vọng phân phối thành phần thứ d trạng thái thứ j, hai giá trị tính theo cơng thức kì vọng phương sai đối khơng gian chiều: = = Ở Xjd giá trị chiều thứ d tất biến ot toàn mẫu tập huấn luyện xác suất tương ứng với ot mẫu thứ k Bk(j, t) Như vậy, xác suất tính tốn được, ta hồn tồn có ma trận xác suất A, B yêu cầu ban đầu 4.2.1.4 Nhận dạng (Decoding) Thuật toán Viterbi: Phần “Decoding” nhận đầu vào dãy quan sát O = o1 o2 oT (đặc trưng cho tín hiệu tiếng nói) cho dãy gán trạng thái có xác suất lớn tập training Để làm điều này, ta sử dụng giải thuật Viterbi Giả sử A = aij B = bj(ot) tương ứng ma trận chuyển trạng thái tập training phân phối trạng thái dãy quan sát O Gọi F = f(j, t) xác suất lớn để quan sát thứ t có trạng thái j, với giả thiết ok (k

Ngày đăng: 24/03/2018, 18:37

Xem thêm: KỸ THUẬT TRÍCH CHỌN đặc TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG nói , Chương 2. KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG NÓI 1, Chương 3. ĐẶC TRƯNG VỀ THANH ĐIỆU CỦA TIẾNG VIỆT, SỬ DỤNG ĐẶC TRƯNG TIẾNG NÓI NÓI CHUNG VÀ TIẾNG VIỆT NÓI RIÊNG CHO MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT, Ở đây các số thực được làm tròn thành số nguyên gần nhất để tiện quan sát., Chương 5. KẾT QUẢ THỰC NGHIỆM, Chương 6. KẾT LUẬN CHUNG VÀ ĐỊNH HƯỚNG NGHIÊN CỨU PHÁT TRIỂN TRONG TƯƠNG LAI

KỸ THUẬT TRÍCH CHỌN đặc TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG nói

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Chương 1. MỞ ĐẦU

1.1. Đặt vấn đề

1.2. Hướng nghiên cứu và phương pháp sử dụng

1.3. Giới hạn và mục tiêu của đề tài

Chương 2. KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG MFCC TRONG NHẬN DẠNG TIẾNG NÓI 1

2.1. XỬ LÝ TÍN HIỆU ÂM THANH VÀ TRÍCH CHỌN ĐẶC TRƯNG

2.2. TRÍCH CHỌN ĐẶC TRƯNG MFCC 2

2.2.1. Pre-emphasis

2.2.2. Windowing

2.2.3. DFT (Discrete fourier transform)

2.2.4. Mel filter-bank and log

2.2.5. Discrete consinse transform

2.2.6. Feature extraction

2.2.7. Tổng kết

Chương 3. ĐẶC TRƯNG VỀ THANH ĐIỆU CỦA TIẾNG VIỆT

3.1. Khái niệm ngôn điệu, ngữ điệu và thanh điệu 3

3.2. Tìm đường nét F0 và nghiên cứu đặc điểm của từng thanh điệu trong tiếng Việt

3.2.1. Tính đường nét thanh điệu 4

3.2.1.1. Hàm biên độ trung bình (AMDF – Average Magnitude Difference Fucntion)

3.2.1.2. Thực hiện tìm đường nét F0

3.2.2. Đặc điểm của từng thanh điệu dựa vào đường nét 5

3.2.2.1. Thanh ngang

3.2.2.2. Thanh huyền

3.2.2.3. Thanh sắc

3.2.2.4. Thanh ngã

3.2.2.5. Thanh nặng

3.2.2.6. Thanh hỏi

Tài liệu cùng người dùng

Tài liệu liên quan