Nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói

65 319 0
Nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cám ơn TS Phùng Trung Nghĩa, người trực tiếp hướng dẫn em hoàn thành luận văn Với lời dẫn, tài liệu, tận tình hướng dẫn lời động viên thầy giúp em vượt qua nhiều khó khăn trình thực luận văn Em xin cám ơn quý thầy cô giảng dạy chương trình cao học "Khoa hoc máy tính” truyền dạy kiến thức quý báu, kiến thức hữu ích giúp em nhiều thực nghiên cứu Đặc biệt, em xin cám ơn thầy Đỗ Huy Khôi góp ý có ý nghĩa lớn em thực luận văn nghiên cứu Cuối cùng, em xin gửi lời cám ơn tới gia đình bạn bè ủng hộ động viên giúp đỡ em suốt năm học vừa qua Em xin chân thành cám ơn! Thái Nguyên, ngày 09 tháng 07 năm 2015 Học viên Nguyễn Trung Thành ii LỜI CAM ĐOAN Em xin cam đoan: Luận văn công trình nghiên cứu thực cá nhân, thực hướng dẫn khoa học TS Phùng Trung Nghĩa Các số liệu, kết luận nghiên cứu trình bày luận văn trung thực chưa công bố hình thức Em xin chịu trách nhiệm nghiên cứu Học viên Nguyễn Trung Thành iii MỤC LỤC LỜI CẢM ƠN ii LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC BẢNG vii DANH MỤC HÌNH viii DANH MỤC CHỮ VIẾT TẮT x MỞ ĐÂU 1 Lý chọn đề tài Mục tiêu đề tài Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn CHƯƠNG TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 1.1 Thông tin tiếng nói 1.2 Tín hiệu tiếng nói 1.3 Quá trình tạo tiếng nói 1.4 Cơ quan thính giác 1.5 Xử lý tiếng nói 12 1.6 Thông tin người nói tiếng nói 13 1.7 Biến đổi thông tin người nói tiếng nói ứng dụng 14 CHƯƠNG MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 17 2.1 Phương pháp biến đổi tham số trực tiếp 17 2.1.1 Phân khung 17 2.1.2 Đặc trưng biên độ 18 iv 2.1.3 Đặc trưng cao độ 19 2.1.4 Đặc trưng phổ 20 2.1.5 Mô hình nguồn âm / lọc 24 2.1.6 Ưu nhược điểm phương pháp 25 2.2 Phương pháp thay khung tiếng nói 25 2.2.1 Phương pháp tìm kiếm mẫu tiếng nói thay 26 2.2.2 Thuật toán tìm kiếm khung tiếng nói thay 28 2.2.3 Làm trơn điểm ghép nối 28 2.2.4 Ưu nhược điểm phương pháp 29 2.3 Phương pháp sử dụng học máy thống kê GMM 29 2.3.1 Phân bố Gauss 29 2.3.2 Mô hình Gaussian hỗn hợp 30 2.3.3 Mô hình hóa người nói mô hình GMM 31 2.3.4 Huấn luyện 32 2.3.5 Biến đổi 33 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 35 3.1 Ngữ âm tiếng Việt 35 3.2 Cơ sở liệu tiếng nói tiếng Việt 37 3.3 Tổng hợp tiếng nói tiếng Việt 40 3.4 Lựa chọn sở liệu 40 3.5 Cài đặt phương pháp biến đổi thông tin người nói 41 3.5.1 Phương pháp thay đổi tham số trực tiếp 41 3.5.2 Phương pháp thay tiếng nói theo mẫu 44 3.5.3 Phương pháp biến đổi sử dụng học máy thống kê 47 3.6 Đánh giá phương pháp 49 3.6.1 Tiêu chí đánh giá 49 3.6.2 Đánh giá thực nghiệm 50 v 3.6.3 Kết đánh giá 51 3.6.4 Nhận xét chung kết đánh giá 51 KẾT LUẬN 53 TÀI LIỆU THAM KHẢO 54 vi DANH MỤC BẢNG Bảng 3.1Cấu trúc âm tiết tiếng Việt 37 Bảng 3.2: Sáu điệu tiếng Việt 37 Bảng 3.3 Các tham số thực nghiệm 50 Bảng 3.4: Kết đánh giá khách quan 51 Bảng 3.5: Kết đánh giá chủ quan ABX 51 vii DANH MỤC HÌNH Hình 1.1: Dạng sóng tiếng nói câu tiếng Việt Hình 1.2: Tiếng nói hữu Hình 1.3: Bộ phận cung cấp Hình 1.4: Dây âm Hình 1.5: Cấu trúc quan phát âm Hình 1.6: Hình dáng quan phát âm thay đổi trình phát âm Hình 1.7: Mô hình hóa quan phát âm Hình 1.8: Biểu diễn mô hình hóa quan phát âm đầy đủ máy tính Hình 1.9: Mô hình quan thính giác 10 Hình 1.10: Thang tần số Bark 10 Hình 1.11: Ngưỡng nghe 11 Hình 1.12: Mặt nạ thời gian 11 Hình 1.13: Mặt nạ tần số 11 Hình 1.14: Một số ứng dụng xử lý tiếng nói 12 Hình 1.15: Hệ thống nhận dạng người nói 13 Hình 1.16: Người nói khác có quan phát âm cách phát âm khác dẫn tới tiếng nói khác 14 Hình 1.17: Đặc trưng phổ formant đặc trưng cho quan phát âm 14 Hình 1.18: Tính toán vector đặc trưng 15 Hình 1.19: Mô hình học máy thống kê GMM 16 Hình 2.1: Phân đoạn tiếng nói thành khung chồng lấp 18 Hình 2.2:Đặc trưng trường độ 19 Hình 2.3: Đặc trưng phổ đường bao phổ 21 Hình 2.4: Đồ thị biểu diễn mối quan hệ Mel Hz 22 Hình 2.5: Các bước trích đặc trưng MFCC 22 Hình 2.6: Bộ lọc thang Mel 22 Hình 2.7: Bộ lọc tần số thật 23 viii Hình 2.8: Minh họa bước biến đổi MFCC 23 Hình 2.9: Mô hình nguồn âm / lọc 24 Hình 2.10: Đặc trưng F0, Gain LSF 27 Hình 2.11: Quá trình tìm kiếm thay mẫu có khoảng cách ngắn 28 Hình 2.12: Quá trình làm trơn biên ghép nối 29 Hình 2.13: Hàm mật độ xác suất Gauss 30 Hình 2.14: Mô hình GMM Biến đổi người nói theo mô hình GMM 32 Hình 3.1: Đường F0 sáu điệu tiếng Việt 36 Hình 3.2: Phân tích phổ, F0 tái tạo STRAIGHT 41 Hình 3.3: Thuật toán điều chỉnh trực tiếp tham số tiếng nói 43 Hình 3.4: Giao diện chương trình điều chỉnh trực tiếp tham số tiếng nói 44 Hình 3.5: Lưu đồ thuật toán tính khoảng cách khung tiếng nói 45 Hình 3.6: Thuật toán tìm kiếm kết hợp 46 Hình 3.7: Huấn luyện mô hình GMM cho tham số phổ LSF 47 Hình 3.8: Chuyển đổi mô hình GMM cho tham số phổ LSF 48 ix DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU Ký tự Ý nghĩa F0 Tần số dao động AMDF Hàm hiệu biên độ trung bình LP Phương pháp dự đoán tuyến tính PCM Kỹ thuật điều chế xung mã WAV Dữ liệu âm không nén PSTN Mạng điện thoại chuyển mạch công cộng LSF Tham số phổ đường ABX Thang điểm đánh giá theo cặp GMM Mô hình Gaussian hỗn hợp PI Chỉ số hiệu MOS Thang điểm đánh giá chủ quan trung bình x MỞ ĐÂU Lý chọn đề tài Tiếng nói phương tiện giao tiếp người Vì tiếng nói loại hình thông tin phổ biến hệ thống viễn thông Tín hiệu tiếng nói mang nhiều thông tin, thông tin ngôn ngữ, thông tin người nói, thông tin sắc thái tình cảm nói,… Hầu hết hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý hiểu [6] Tuy nhiên để ứng dụng xử lý tiếng nói máy tính áp dụng rộng rãi thực tế, tính tự nhiên tiếng nói xử lý cần quan tâm quan tâm nghiên cứu thời gian gần [4] Để đảm bảo tiếng nói sau xử lý (như tiếng nói tổng hợp) tự nhiên, vấn đề quan trọng cần đảm bảo thông tin người nói, bao gồm thông tin chung người nói giới tính, độ tuổi,… đến thông tin chi tiết thông tin nhận danh xác người nói [7,9,15,17,22,33] Các hệ thống tổng hợp tiếng nói nhân tạo thường tổng hợp tiếng nói số giọng nói thu sẵn huấn luyện trước cho máy tính Trong nhiều ứng dụng truyền thông đa phương tiện đại, việc biến đổi thông tin người nói tín hiệu tiếng nói có vai trò quan trọng Một số ví dụ điển hình như: - Trong phim lịch sử cần diễn viên nói với giọng giống với giọng nhân vật lịch sử [22] - Trong clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát diễn viên theo tiêu chí cụ thể khác cao hơn, trầm hơn, giống với nhân vật thật hơn,… [22] F0, tốc độ nói, độ dài vocal tract điều chỉnh mà suy giảm chất lượng tiếng nói gây trình tái tạo tiếng nói từ tham số điều chỉnh [10] STRAIGHT gồm 03 thành phần chính: Bộ phân tích thông tin nguồn: Tần số F0 ước lượng để làm trơn hài tuần hoàn phổ thời gian ngắn sử dụng lọc thích nghi Bộ phân tích phổ thời gian – tần số làm trơn: Sử dụng kỹ thuật đồng cao độ Pitch-synchronous để ước lượng đường bao phổ làm trơn Đường bao phổ ước lượng độc lập với tần số F0 Bộ tổng hợp: Bao gồm kích thích nguồn âm lọc số biến đổi theo thời gian, thực tái tạo tín hiệu tiếng nói từ thành phần F0 đường bao phổ nhiều bước sử dụng thuật toán biến đổi Fourier nhanh FFT Bộ thư viện hàm STRAIGHT viết MATLAB tham khảo từ website cá nhân tác giả: http://www.wakayama-u.ac.jp/~kawahara/PSSws/ Trong nghiên cứu này, sử dụng STRAIGHT để phân tích tiếng nói đặc trưng cao độ (F0), biên độ dạng sóng miền thời gian phổ tiếng nói Qua với việc điều chỉnh trực tiếp tham số hệ số tuyến tính (Kf0, Kt, Ks), điều chỉnh độc lập F0, tốc độ nói miền thời gian, chiều dài lọc phát âm miền tần số với phương thức giống nhân với hệ số tỷ lệ tuyến tính tương ứng Kf0, Kt, Ks Thuật toán điều chỉnh trực tiếp tham số mô tả hình 3.3 42 Kt Tiếng nói gốc Kf0 Điều chỉnh tham số Tính F0 tần số đường bao phổ STRAIGHT n3sgram (đường bao phổ mô tả tuyến âm) F0 Ks Tái tạo tiếng nói Tiếng nói điều chỉnh để thay đổi giọng Hình 3.3: Thuật toán điều chỉnh trực tiếp tham số tiếng nói 43 Hình 3.4: Giao diện chương trình điều chỉnh trực tiếp tham số tiếng nói 3.5.2 Phương pháp thay tiếng nói theo mẫu Luận văn sử dụng phương pháp tìm kiếm khung tiếng nói thay theo giải pháp kết hợp Lưu đồ thuật toán tính khoảng cách hai khung tiếng nói cho hình 3.5, công thức tính khoảng cách nêu mục 2.2 44 Khung tiếng nói cần thay Khung tiếng nói tìm kiếm Tính F0 tần số đường bao phổ STRAIGHT F01 Tính F0 tần số đường bao phổ STRAIGHT n3sgram1 F02 Tối giản đường bao phổ n3sgram2 Tối giản đường bao phổ Gain1 Gain2 LSF2 LSF1 Tính khoảng cách khung d  N (dF )  N (dG )  N (d ) d Hình 3.5: Lưu đồ thuật toán tính khoảng cách khung tiếng nói Giải pháp tìm kiếm giải pháp kết hợp: tìm kiếm khung đích nhãn tương ứng trước, không thấy tìm kiếm khung đích tất mẫu đích có nhãn khác điệu âm tiết để khắc phục việc mẫu đích với nhãn tương ứng với mẫu nguồn Lưu đồ thuật toán tìm kiếm mô tả hình 3.6 Các thuật toán cài đặt thực thi MATLAB có sử dụng thư viện STRAIGHT [10] 45 Khung tiếng nói nguồn Không Có mẫu đích nhãn Có Tìm khung có khoảng cách nhỏ mẫu đích nhãn Tìm khung có khoảng cách nhỏ mẫu đích âm tiết Khung tiếng nói thay Hình 3.6: Thuật toán tìm kiếm kết hợp 46 3.5.3 Phương pháp biến đổi sử dụng học máy thống kê Cơ sở toán học phương pháp trình bày phần 2.3 Để cài đặt phương pháp sử dụng thư viện STRAIGHT để phân tích tham số, thư viện Voice Conversion Toolbox cho hàm thống kê GMM thực MATLAB [20] Lưu đồ thuật toán trình huấn luyện mô hình GMM cho tham số phổ ứng cặp người nói A-B trình bày hình 3.7 Lưu đồ thuật toán trình chuyển đổi tham số phổ giọng người A thành tham số tương ứng với giọng người B cho hình 3.8 Người nói A Người nói B STRAIGHT Đường bao phổ Rút gọn đường bao phổ Rút gọn đường bao phổ LSF A LSF B Huấn luyện GMM Hình 3.7: Huấn luyện mô hình GMM cho tham số phổ LSF 47 Người nói A STRAIGHT Đường bao phổ Rút gọn đường bao phổ GMM A-B LSF A Chuyển đổi phổ LSF B STRAIGHT Người nói B Hình 3.8: Chuyển đổi mô hình GMM cho tham số phổ LSF 48 3.6 Đánh giá phương pháp 3.6.1 Tiêu chí đánh giá a Đánh giá khách quan Phương pháp đánh giá khách quan áp dụng có người nói nguồn người nói đích xác định sử dụng phổ biến hệ thống chuyển đổi giọng người nói người pháp số hiệu PI (performance index) PI với tham số phổ LSF tính công thức 3.1 PI LSF   ELSF (t (n), tˆ(n)) ELSF (t ( n), s (n)) (3.1) Trong đó, t(n) biểu diễn mẫu tiếng nói giọng đích, s(n) biểu diễn mẫu tiếng nói giọng nguồn, tˆ(n) biểu diễn mẫu tiếng nói chuyển đổi từ nguồn thành đích ELSF sai số LSF trung bình tính công thức 3.2 ELSF ( A, B)  L P ( LSFAl ,i  LSFBl ,i )2   L l 1 P i 1 (3.2) Với L tổng số khung tiếng nói (sau thời gian để tổng số khung trùng khớp), P số hệ số LSF PI LSF = hệ thống chuyển đổi không giống hệ thống đích chút PI LSF = hệ thống chuyển đổi hoàn toàn giống hệ thống đích Phương pháp đánh giá khách quan áp dụng để đánh giá phương pháp biến đổi giọng người nói thay khung phương pháp thống kê GMM không áp dụng với phương pháp thay đổi tham số trực tiếp người nói đích không xác định cụ thể b Đánh giá chủ quan Trong phương pháp đánh giá chủ quan, phương pháp áp dụng rộng rãi hệ thống chuyển đổi giọng nói có người nói nguồn đích xác định phương pháp ABX [8] Trong A người nói nguồn, B người nói đích, X giọng nói chuyển đổi từ A thành B Người nghe 49 nghe thử giọng nói A B trước Sau đánh giá nghe mẫu chuyển đổi đánh giá xem giống A hay giống B theo thang điểm trung bình MOS (Mean Opinion Score) từ đến Điểm tức giọng chuyển đổi giống giọng nguồn A, điểm tức giọng chuyển đổi giống giọng đích B Phương pháp đánh giá áp dụng để đánh giá phương pháp chuyển đổi giọng thay khung thống kê GMM người nói nguồn đích xác định Trong trường hợp người nói đích không xác định, phương pháp ABX áp dụng có thay đổi, theo điểm giống giọng nguồn điểm nghĩa giống giọng đích mà “rất khác” giọng nguồn 3.6.2 Đánh giá thực nghiệm Luận văn sử dụng tập liệu gồm 300 câu tổng số 567 câu sở liệu DEMEN567 để huấn luyện phương pháp GMM tìm kiếm phương pháp thay khung Tập liệu gồm 30 câu không nằm tập liệu sử dụng để đánh giá Các tham số thực nghiệm cho bảng 3.3 Phương pháp đánh giá khách quan PI tính tự động theo công thức (3.1) Phương pháp đánh giá chủ quan thực với 05 người đánh giá người Việt sinh viên trường Đại học Công nghệ thông tin Truyền thông có độ tuổi 18 đến 20, có khả nghe bình thường Điểm MOS đánh giá điểm ABX trung bình tất mẫu đánh giá Bảng 3.3 Các tham số thực nghiệm Tần số lấy mẫu DEMEN VOV-HMM lấy mẫu lại 11025 Hz Chiều dài khung ms Độ dịch khung ms Số chiều LSF 20 Số thành phần GMM 20 50 3.6.3 Kết đánh giá Như trình bày phần trước, phương pháp đánh giá chủ quan ABX đánh giá khách quan bẳng hiệu phổ PILSF đánh giá hiệu chuyển đổi người nói phương pháp thay khung phương pháp thống kê GMM không áp dụng với phương pháp thay đổi tham số trực tiếp (do người nói đích không xác định cụ thể) Bảng 3.4: Kết đánh giá khách quan Phương pháp PILSF Thay khung 0.714 GMM 0.3947 Bảng 3.5: Kết đánh giá chủ quan ABX Phương pháp MOS Thay khung 4.25 GMM 3.15 3.6.4 Nhận xét chung kết đánh giá Kết đánh giá bảng 3.4 3.5 cho thấy phương pháp thay khung có hiệu rõ rệt phương pháp GMM có tác dụng chuyển đổi giọng nói có hiệu vừa phải Tất nhiên phải lưu ý phương pháp thay khung có nhược điểm đòi hỏi sở liệu tìm kiếm phải đủ lớn phương pháp GMM không yêu cầu liệu huấn luyện lớn phân tích phần 2.2 2.3 Riêng phương pháp thay đổi tham số trực tiếp biến đổi thông tin người nói với hiệu từ thấp đến cao tùy thuộc vào mức độ biến đổi tham số Tuy nhiên phương pháp khó biến đổi giọng thành giọng đích xác định trình xác định tham số giọng đích khó 51 khăn (các tham số phụ thuộc vào thân nội dung văn nói) 52 KẾT LUẬN Luận văn nghiên cứu trình bày vấn đề: tổng quan thông tin người nói tiếng nói, biến đổi thông tin người nói tiếng nói, số phương pháp biến đổi thông tin người nói tiếng nói bao gồm phương pháp biến đổi trực tiếp tham số, phương pháp thay khung, phương pháp biến đổi học máy Luận văn nghiên cứu cài đặt đánh giá thực nghiệm phương pháp với sở liệu tiếng Việt DEMEN567 Các kết đánh giá thực nghiệm luận văn cho thấy phương pháp thay khung có hiệu rõ rệt phương pháp GMM có tác dụng chuyển đổi giọng nói có hiệu vừa phải với tập liệu chọn để đánh giá Do vậy, dựa kết nghiên cứu luận văn kết luận phương pháp thay khung tốt phương pháp huấn luyện thống kê GMM yêu cầu có người nói đích cụ thể 53 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Hoàng Đình Chiến (2006), “Nhận dạng tiếng việt dùng mạng Neural kết hợp trích đặc trưng dùng LPC AMDF”, tạp chí bưu viễn thông (chuyên san),Số 16, trang 109-113 [2] Hoàng Phê (2003), Chính tả Tiếng Việt, NXB Đà Nẵng, trang 9-15 [3] Đoàn Thiện Thuật (2003), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia Tài liệu tiếng anh [4] Akagi, Masato (2009), "Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC [5] H Mixdor, D.T Nguyen and T.W Nghia (2005), “Duration Modeling in a Vietnamese Text-to-Speech System," Proc SPECOM [6] Jurafsky, Daniel, and H James (2000), "Speech and language processing an introduction to natural language processing, computational linguistics, and speech" [7] Kain, Alexander, and Michael W Macon (1998) "Spectral voice conversion for text-to-speech synthesis." Acoustics, Speech and Signal Processing, 1998 Proceedings of the 1998 IEEE International Conference on Vol IEEE [8] Kain, Alexander, and Michael W Macon (1998), "Spectral voice conversion for text-to-speech synthesis." Acoustics, Speech and Signal Processing, 1998 Proceedings of the 1998 IEEE International Conference on Vol IEEE 54 [9] Kawahara, Hideki (2006), "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6: 349-353 [10] Kawahara, Hideki, Jo Estill, and Osamu Fujimura (2001), "Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system STRAIGHT."MAVEBA [11] V.B Le, D.D Tran, L Besacier, E Castelli, and J.F Serignat (2005), “First steps in building a large vocabulary continuous speech recognition system for Vietnamese," Proc RIVF05, pp 330-333, pp 21-24 [12] L.C Mai and D.N Duc (2006), “Design of Vietnamese speech corpus and current status," Proc ISCSLP-06, pp 748-758 [13] Moulines, Eric, and Francis Charpentier (1990), "Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones." Speech communication 9.5: 453-467 [14] Lê Hồng Minh (2003), “Some results in Research and Development of Text To Speech conversion system for Vietnamese language based on formant synthesis," Hội thảo ICT.RDA [15] Phung, Trung-Nghia (2013), et al "Improving Naturalness of HMMBased TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11: 2417-2426 [16] Nghia, Phung Trung, et al (2007), "A robust wavelet-based textindependent speaker identification." Conference on Computational Intelligence and Multimedia Applications, 2007 International Conference on Vol IEEE [17] Qian, Yao, Frank K Soong, and Zhi-Jie Yan (2013), "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2: 280-290 55 [18] Qian, Yao, Frank K Soong, and Zhi-Jie Yan (2013), "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2: 280-290 [19] Vũ Hải Quân (2010), “VOS: The Corpus-based Vietnamese Text-tospeech System," Tạp chí CNTT & TT [20] Sündermann, David (2007) “Voice conversion Matlab toolbox” Technical Report, Siemens Corporate Technology, Munich, Germany [21] Tokuda, Keiichi, et al (1998), "A very low bit rate speech coder using HMM-based speech recognition/synthesis techniques." Acoustics, Speech and Signal Processing, 1998 Proceedings of the 1998 IEEE International Conference on Vol IEEE [22] Turk, Oytun, and Levent M Arslan (2002), "Subband based voice conversion."International Conference on Spoken Language Processing [23] Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach (1992), "Voice transformation using PSOLA technique." Speech Communication 11.2: 175187 [24] TT Vu, MC Luong and S Nakamura (2009), “An HMM-based Vietnamese speech synthesis system, Speech Database and Assessments”, Proc COCOSDA-2009, pp 116-121 Tài liệu Online [25] International Research Center MICA, Hoa Sung, [Online], http://www.mica.edu.vn/tts/ [26] Sao Mai Computer Center for the Blind SMCC, Sao Mai Voice, [Online], http://www.saomaicenter.org/ 56 [...]... tin người nói trong tiếng nói Đây là đối tượng nghiên cứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng nói và thông tin người nói trong tiếng nói, một số phương pháp biến đổi thông tin người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương pháp thay thế tiếng nói theo mẫu [15,17], và phương. .. này nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói bao gồm: - Phương pháp biến đổi trực tiếp tham số, - Phương pháp thay thế khung, - Phương pháp biến đổi bằng học máy Sau đó đánh giá thực nghiệm các phương pháp trên với cơ sở dữ liệu tiếng Việt, và đưa ra những khuyến nghị 2 3 Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi thông. .. dụng hiệu quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được bổ sung ở đầu ra Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được biến đổi theo người nói cụ thể Trên thế giới đã có nhiều nghiên cứu về biến đổi thông tin người nói trong tiếng nói [7,9,15,17,22,23] Tại Việt Nam cũng có một số nghiên cứu ban đầu về thông tin người nói trong tiếng nói như xây dựng... vấn đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam Đặc biệt, nghiên cứu tổng hợp về các phương pháp biến đổi thông tin người nói trong tiếng nói tiếng Việt chưa được nghiên cứu ở Việt Nam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn 3 CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 1.1 Thông tin tiếng nói Tiếng nói là... dựng các hệ thống nhận dạng người nói [16] Tuy nhiên vẫn chưa có các nghiên cứu đánh giá một cách tổng hợp vấn đề biến đổi thông tin người nói trong tiếng nói và thử nghiệm trên các cơ sở dữ liệu tiếng nói tiếng Việt Vì vậy, luận văn này nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói, đánh giá thực nghiệm các phương pháp với cơ sở dữ liệu tiếng nói tiếng Việt, và đưa ra những... hiệu quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được bổ sung ở đầu ra Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được biến đổi theo người nói cụ thể Một số phương pháp biến đổi thông tin người nói điển hình được biết đến là phương pháp thay thế khung [18], phương pháp biến đổi tham số (vector) đặc trưng [25], và phương pháp dùng học máy [8] Một số vector... cũng sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi thông tin người nói trong tiếng nói Cơ sở dữ liệu để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng Việt Môi trường để thực nghiệm là MATLAB 7.0 5 Ý nghĩa khoa học và thực tiễn Nghiên cứu về thông tin người nói trong tiếng nói và cá kỹ thuật biến đổi tiếng nói theo mục tiêu có vai trò quan trọng trong các hệ thống truyền thông đa phương. .. tham số của người nói biến đổi theo đơn vị tiếng nói Các tham số này cũng không ổn định để có thể xác định được một bộ tham số chính xác với một người nói cho tất cả các mẫu tiếng nói 2.2 Phương pháp thay thế khung tiếng nói Dựa trên ý tưởng của phương pháp tổng hợp tiếng nói bằng ghép âm, năm 2013 tác giả Yao Qian và cộng sự đã đề xuất phương pháp biến đổi tiếng nói của người A (người nguồn) sang người. .. và phương pháp biến đổi sử dụng học máy thống kê [7] Luận văn cũng nghiên cứu đánh giá thực nghiệm các phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt để đưa ra các khuyến nghị 4 Phương pháp nghiên cứu Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới [4,6,7,15-17,21-23] để phân tích, đánh giá về các phương pháp biến đổi thông tin người nói trong tiếng nói Dựa trên... của tiếng nói được phát âm Đây là mô hình cho phép phân tích tiếng nói ra các tham số cơ bản đặc trưng cho tiếng nói như F0, Gain, phổ tiếng nói cũng như cho phép thay đổi các tham số trên và tái tạo lại tiếng nói ở đầu ra Do vậy, mô hình này được sử dụng phổ biến trong các hệ thống tổng hợp tiếng nói cũng như biến đổi tiếng nói 2.1.6 Ưu nhược điểm của phương pháp Phương pháp thay đổi tham số tiếng nói

Ngày đăng: 04/08/2016, 09:33

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan