Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  VŨ THANH HUẾ NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ii LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iii ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  Vũ Thanh Huế NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iv Ngành : Công nghệ thông tin Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS Phùng Trung Nghĩa Thái Nguyên, năm 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ v LỜI CAM ĐOAN Tên là: Vũ Thanh Huế Sinh ngày: 25/03/1985 Học viên lớp cao học K12I - Trƣờng Đại học Công nghệ thông tin Truyền thông - Thái Nguyên Tôi xin cam đoan, toàn nội dung liên quan tới đề tài đƣợc trình bày luận văn thân tìm hiểu nghiên cứu, dƣới hƣớng dẫn khoa học Thầy giáo Tiến sĩ Phùng Trung Nghĩa Các nội dung luận văn nhƣ nội dung đề cƣơng yêu cầu thầy giáo hƣớng dẫn Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Nếu sai hoàn toàn chịu trách nhiệm trƣớc hội đồng khoa học trƣớc pháp luật Tác giả luận văn Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vi LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, đƣợc động viên, giúp đỡ hƣớng dẫn tận tình Thầy giáo hƣớng dẫn Tiến sĩ Phùng Trung Nghiã , với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc độ bit thấp kỹ thuật phân rã tiếng nói theo thời gian” hoàn thành Em xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hƣớng dẫn Tiến sĩ Phùng Trung Nghĩa tận tình d ẫn, giúp đỡ em hoàn thành luận văn Bộ phận sau Đại học Trƣờng Đại học công nghệ thông tin truyền thông giúp đỡ em trình học tập nhƣ thực luận văn Em xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ em suốt trình học tập, thực hoàn thành luận văn Em xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2015 Học viên Vũ Thanh Huế Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN vi MỤC LỤC vii LỜI MỞ ĐẦU…………………………………………………………………… 1 Lý chọn đề tài Mục tiêu đề tài Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Ý nghĩa khoa học thực tiễn CHƢƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI .4 1.1 Thông tin tín hiệu tiếng nói 1.2 Quá trình tạo tiếng nói 1.3 Khả cảm thụ tiếng nói ngƣời 1.4 Mô hình hóa tiếng nói .13 1.5 Mã hóa tiếng nói 16 1.6 Kỹ thuật phân rã tiếng nói theo thời gian TD ứng dụng mã hóa tiếng nói 20 CHƢƠNG 2: PHƢƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN .23 2.1 Phƣơng pháp Atal .23 2.2 Phƣơng pháp phân rã tiếng nói theo thời gian giới hạn RTD 26 2.3 Phƣơng pháp MRTD 29 2.4 Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT 34 2.4.1 Sơ lƣợc phƣơng pháp mã hóa TD-STRAIGHT 34 2.4.2 Tính tham số phổ đƣờng LSF từ phổ STRAIGHT 36 2.4.3 Lƣợng tử hóa vector LSF .37 2.4.4 Lƣợng tử hóa vector kiện 37 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ viii 2.4.5 Lƣợng tử hóa hàm kiện .37 2.4.6 Lƣợng tử hóa tham số tần số F0 .38 2.4.7 Lƣợng tử hóa tham số độ lợi 38 2.4.8 Lƣợng tử hóa tham số nhiễu 38 CHƢƠNG ĐÁNH GIÁ THỰC NGHIỆM PHƢƠNG PHÁP MÃ HÓA TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT .40 3.1 Ngữ âm tiếng Việt .40 3.2 Cơ sở liệu tiếng nói tiếng Việt .42 3.3 Cài đặt phƣơng pháp mã hóa tiếng nói dùng MRTD MATLAB.44 3.4 Tiêu chí đánh giá khách quan chủ quan 46 3.5 Kết khách quan chủ quan phƣơng pháp …………………….49 3.6 Đánh giá kết 51 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ix DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Viết đầy đủ Ý nghĩa PCM Pulse Code Modulation Mã hóa theo dạng xung LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính Code-Excited Linear Prediction Mã hóa dự đoán tuyến tính coder kích thích mã CELP Kỹ thuật phân rã theo thời TD Temporal Decomposition LSF Line Spectral Frequency Đặc trƣng phổ đƣờng Modiﬁed Restricted Temporal Kỹ thuật phân rã theo thời Decomposition gian giới hạn cải tiến Restricted Temporal Kỹ thuật phân rã theo thời Decomposition gian giới hạn Perceptual evaluation of speech Phƣơng pháp đánh giá chất quality lƣợng tiếng nói cảm thụ MRTD RTD PESQ Số hóa Trung tâm Học liệu - ĐHTN gian http://www.lrc-tnu.edu.vn/ x DANH MỤC CÁC BẢNG Bảng 3.1 Cấu trúc âm tiết tiếng Việt 42 Bảng 3.2 Sáu điệu tiếng Việt 42 Bảng 3.3 Thang điểm Scheffe 47 Bảng 3.4 Thang điểm PESQ 49 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 40 CHƢƠNG ĐÁNH GIÁ THỰC NGHIỆM TRÊN CƠ SỞ DỮ LIỆU TIẾNG VIỆT Các phƣơng pháp mã hóa tiếng nói hƣớng tới mô hình độc lập ngôn ngữ, tức áp dụng cho ngôn ngữ Tuy nhiên nhiều nghiên cứu hiệu phƣơng pháp khác áp dụng vào ngôn ngữ khác [6, 7] Luận văn tập trung vào việc đánh giá phƣơng pháp mã hóa tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian, cụ thể phƣơng pháp phân rã tiếng nói cải tiến MRTD tác giả N.P Chien [6, 7] sở liệu tiếng nói tiếng Việt Qua đó, đánh giá mức độ phù hợp phƣơng pháp với tiếng nói tiếng Việt 3.1 Ngữ âm tiếng Việt Tiếng Việt ngôn ngữ thức Việt Nam Nó đƣợc 90 triệu ngƣời Việt sử dụng hàng ngày Khoảng triệu ngƣời Việt nƣớc thƣờng xuyên sử dụng tiếng Việt Tóm tắt ngữ âm tiếng Việt đƣợc trình bày dƣới đƣợc tham khảo từ nghiên cứu Đoàn Thiện Thuật [13] Hoàng Phê [14] Cấu trúc âm tiết tiếng Việt Tiếng Việt ngôn ngữ đơn âm có điệu điển hình [13] Tổng số âm tiết (syllable) phát âm tiếng Việt khoảng 19.000 nhiên có khoảng 7000 âm tiết đƣợc sử dụng giảm xuống 1200 âm tiết bỏ qua khác biệt điệu (tone) Cấu trúc âm tiết tiếng Việt đƣợc mô tả hình 3.1 Mỗi âm tiết đƣợc xem tổ hợp phần đầu (initial), phần vần (final) điệu Có 22 phần đầu, 155 phần vần điệu tiếng Việt [14] Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 41 Phần đầu thông thƣờng phụ âm (consonant), nhƣng bị khuyết số âm tiết Phần vần phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), đuôi vần (coda) Phần đầu vần đuôi vần không tồn với số âm tiết nhân âm tiết thành phần âm tiết Nhân âm tiết nguyên âm (vowel) nguyên âm đôi (diphthong) Đuôi vần phụ âm bán nguyên âm (semi-vowel) Có tất phần đầu vần, 16 nhân âm tiết, đuôi vần tiếng Việt Thanh điệu tiếng Việt Thanh điệu thành phần siêu phân đoạn (super-segmental) tồn ngôn ngữ có điệu Có sáu điệu phân biệt tiếng Việt nhƣ bảng 3.2 hình 3.1 (dấu ? ngã đƣờng F0 ngã không thống mẫu vùng giữa) Mỗi điệu có đƣờng tần số (F0) xác định Trong tiếng Việt, có hai loại âm tiết đƣợc phân biệt âm đóng âm mở Âm tiết đóng kết thúc với đuôi vần /p/, /t/, /k/ kết hợp với sắc nặng âm tiết mở âm tiết đóng khác kết hợp với tất sáu điệu để cấu thành âm tiết có có nghĩa Hình 3.1 Đƣờng F0 sáu điệu tiếng Việt Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 42 Bảng 3.1 Cấu trúc âm tiết tiếng Việt Thanh điệu Phần vần Phần đầu âm tiết Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2 Sáu điệu tiếng Việt Số thứ tự Tên tiếng Việt Tên tiếng Anh Ngang Level Huyền Falling Ngã Broken Hỏi Curve Sắc Rising Nặng Drop 3.2 Cơ sở liệu tiếng nói tiếng Việt Trong phần này, giới thiệu số sở liệu tiếng nói tiếng Việt trung bình lớn phổ biến Cơ sở liệu tiếng nói phát VOV Bộ sở liệu đƣợc xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [15] Bộ sở liệu gồm câu chuyện, báo cáo, tin,… đƣợc Đài tiếng nói Việt Nam VOV phát Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 43 đƣợc sƣu tập từ 15 ngƣời nói giọng Hà Nội chuẩn Âm dạng RealAudio đƣợc sƣu tập từ website VOV đƣợc chuyển đổi dạng âm PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lƣợng âm tiết phân biệt 4379 số lƣợng âm tiết phân biệt không tính điệu 1646 bao phủ gần nhƣ toàn âm tiết tiếng Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu đƣợc lựa chọn cân ngƣời nói phiên đƣợc gán nhãn tay mức âm tiết Mặc dù sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó khăn chƣa có nhãn gán mức âm vị Cơ sở liệu DEMEN567 Bộ sở liệu đƣợc xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [15] Kịch văn đƣợc trích từ câu chuyện Dế mèn phiêu lƣu ký tiếng Ngƣời nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói đƣợc ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit/mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu đƣợc gán nhãn tay mức âm tiết âm vị bao gồm thông tin điệu Đây sở liệu kích cỡ trung bình với chất lƣợng cao việc thiết kế kịch văn đảm bảo độ cân âm cao nhƣ việc gán nhãn mức âm vị xác Cơ sở liệu MICA VNSpeech Đây sở liệu đƣợc xây dựng Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu đƣợc nói 50 ngƣời Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 44 nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Ngƣời nói hầu hết có trình độ đại học với ba phƣơng ngữ chính: miền Nam, miền Bắc, miền Trung Việt nam Mỗi ngƣời nói khoảng 60 phút Tần số lấy mẫu 16 KHz Mức độ cân ngữ âm âm vị đƣợc đảm bảo tốt [16] Mặc dù sở liệu đƣợc xem sở liệu tiếng nói lớn với chất lƣợng thu âm cao, nhãn mô tả sở liệu đƣợc tạo phƣơng pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng sở liệu nghiên cứu xử lý tiếng nói tiếng Việt Do có chất lƣợng cao đƣợc gán nhãn mức âm vị, lựa chọn sở liệu DEMEN567 để thực nghiệm đánh giá cho luận văn 3.3 Cài đặt phƣơng pháp mã hóa tiếng nói dùng MRTD MATLAB Môi trƣờng để cài đặt MATLAB 7.0 Thƣ viện hàm phân tích, xử lý tiếng nói STRAIGHT đƣợc lấy từ website tác giả Kawahara địa chỉ: http://www.wakayama-u.ac.jp/~kawahara/STRAIGHTadv/index_e.html Thƣ viện hàm tính toán đánh giá khách quan PESQ đƣợc lấy từ thƣ viện tác giả Rix Antony Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 45 Hình 3.2 Thuật toán mã hóa đánh giá chất lƣợng tiếng nói mã hóa MRTD Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 46 Thuật toán cài đặt hệ thống mã hóa tiếng nói dùng MRTD đƣợc mô tả hình 3.2, thực mã hóa MRTD với tham số phổ LSF với tỉ lệ kiện tƣơng ứng với tỉ lệ nén Nói cách khác tỉ lệ nén đƣợc cố định Sau chất lƣợng tiếng nói đƣợc tái tạo đƣợc so sánh với chất lƣợng tiếng nói nguồn Đây chưa phải hệ thống mã hóa hoàn thiện (bao gồm khối mã hóa F0, AP), nhiên đủ để đánh giá chất lƣợng tiếng nói tái tạo mã hóa nén tham số phổ với tỉ lệ nén cho trƣớc 3.4 Tiêu chí đánh giá khách quan chủ quan Trong đánh giá chất lƣợng tiếng nói phƣơng pháp khách quan (máy đánh giá theo công thức) chủ quan (ngƣời nghe đánh giá) đƣợc sử dụng Mỗi phƣơng pháp có ƣu nhƣợc điểm riêng Dƣới xem xét cụ thể tiêu chí phƣơng pháp Tiêu chí chủ quan: Tiêu chí đánh giá chủ quan tiêu chí sử dụng ngƣời nghe để đánh giá chất lƣợng tiếng nói Tiêu chí chủ quan đƣợc xem quan trọng mục tiêu cuối tiếng nói mã hóa phải đảm bảo ngƣời nghe hiểu đƣợc, chấp nhận đƣợc Tuy nhiên để thực đánh giá chủ quan tốn kém, thời gian, cần thiết bị nghe phòng nghe chuyên dụng để tránh nhiễu môi trƣờng Ngoài ra, phƣơng pháp chủ quan khó đảm bảo tin cậy hoàn toàn ngƣời nghe tập trung, không tâm vào việc đánh giá chí cố tình cho điểm sai Các điểm yếu phƣơng pháp chủ quan khắc phục cách tăng số lƣợng ngƣời nghe, số lƣợng phép test để đảm bảo giá trị thống kê có ổn định tin cậy Trong luận văn sử dụng phƣơng pháp Scheffe [16] Trong sinh viên có khả nghe bình thƣờng đƣợc lựa chọn để thực đánh giá nghe chủ quan loại tiếng nói (có nén, không nén) 20 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 47 mẫu Mỗi ngƣời đƣợc hỏi để phân loại chất lƣợng tiếng nói nghe đƣợc theo thang từ -2 đến so sánh hai mẫu tiếng nói nguồn mã hóa cặp Bảng 3.3 Thang điểm Scheffe Chất lƣợng tiếng nói Điểm Rất tốt Tốt Trung bình Kém -1 Rất -2 Tiêu chí khách quan: Nhằm khắc phục yếu điểm tiêu chí đánh giá chủ quan, nhiều phƣơng pháp đánh giá khách quan đƣợc xây dựng Các phƣơng pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn mã hóa để tính toán sai số khác biệt chứng tỏ không hiệu khả nghe ngƣời không tỉ lệ tuyến tính với sai số Nói cách khác hai tín hiệu có sai khác lớn ngƣời nghe thấy giống hai tín hiệu có sai khác nhỏ (nhƣng điểm khác điểm quan trọng với tai ngƣời) Các phƣơng pháp đánh giá khách quan đại đƣợc sử dụng phƣơng pháp mô hình hóa khả nghe ngƣời để “chủ quan hóa” tham số khách quan, từ đƣa phƣơng pháp tính toán khách quan phù hợp với khả nghe ngƣời Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 48 Trong số phƣơng pháp đánh giá chất lƣợng tiếng nói khách quan phƣơng pháp PESQ [17] đƣợc sử dụng phổ biến đƣợc sử dụng luận văn Đây tiêu chí khách quan mô tiêu chí chủ quan mô tả hình 3.3 cách xây dựng mô hình nghe nhân tạo tích hợp phân tích khả cảm thụ âm ngƣời Trong chất lƣợng tiếng nói đƣợc đánh giá theo thang điểm nhƣ bảng 3.4, với tiếng nói chuẩn đƣợc quy chiếu thang điểm cao điểm Hình 3.3 Mô hình hóa ngƣời nghe PESQ Hình 3.4 Tích hợp phân tích khả cảm thụ ngƣời để tính điểm chất lƣợng tiếng nói nhân tạo Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 49 Bảng 3.4 Thang điểm PESQ Chất lƣợng tiếng nói Điểm Rất tốt Tốt Trung bình Kém Rất 3.5 Kết khách quan chủ quan phƣơng pháp Sau thực nghiệm phƣơng pháp mã hóa tiếng nói MRTD, thử nghiệm phƣơng pháp sở liệu tiếng nói tiếng Việt DEMEN567 Tỉ lệ nén đƣợc sử dụng làm để chọn tỉ lệ kiện tiếng nói, tỉ lệ nén đầu vào, so sánh tiếng nói đƣợc mã hóa nén tiếng nói gốc để tính toán tiêu chí đánh giá khách quan nhƣ PESQ nhƣ đánh giá chủ quan Kết đánh giá chủ quan phƣơng pháp Scheffe trung bình với 20 mẫu loại tiếng nói trích từ sở liệu DEMEN567 (có nén với tỉ lệ nén 20, không nén) đƣợc cho hình 3.5, 3.6 Kết đánh giá khách quan phƣơng pháp PESQ với 50 mẫu tiếng nói trích từ DEMEN567 cho thấy PESQ với tiếng nói không nén trung bình 4.5/5 tiếng nói có nén 3.3/5 nhƣ hình 3.7 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 50 Tiếng nói mã hóa STRAIGHT (không nén) Tiếng nói mã hóa MRTD (nén) -2 -1 Chất lƣợng thấp Chất lƣợng cao Hình 3.5 Kết đánh giá chủ quan phƣơng pháp Scheffe với tỉ lệ nén đầu vào 20 Tiếng nói mã hóa STRAIGHT (không nén) Tiếng nói mã hóa MRTD (nén) với tỉ lệ nén 30 -2 -1 Chất lƣợng thấp Chất lƣợng cao Hình 3.6 Kết đánh giá chủ quan phƣơng pháp Scheffe với tỉ lệ nén đầu vào 30 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 51 Hình 3.7 Hình ảnh dạng sóng tiếng nói có nén, không nén với tỉ lệ nén 20 3.6 Đánh giá kết Với phƣơng pháp nén truyền thống nhƣ nén MP3, tỉ lệ nén trung bình khoảng 1/11 cho đầu âm CD có tốc độ bit 128 Kbps Trong luận văn này, thử nghiệm tỉ lệ nén mức cao (20-30 lần) tiếng nói có tốc độ bit thấp chất lƣợng tiếng nói có nén chấp nhận đƣợc với đánh giá chủ quan khách quan Hình 3.5 3.6 cho thấy thay đổi tỉ lệ nén từ 20 đến 30 chất lƣợng tiếng nói suy giảm không nhiều mức chấp nhận đƣợc, đủ để nghe hiểu Các kết cho thấy phƣơng pháp mã hóa nén tiếng nói MRTD phƣơng pháp tốt tiếng Việt Cùng với kết đánh giá hiệu MRTD tiếng Anh, tiếng Nhật [6, 7] kết nghiên cứu cho thấy MRTD phƣơng pháp mã hóa nén hiệu với nhiều ngôn ngữ, có nhiều tiềm ứng dụng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 52 KẾT LUẬN Kỹ thuật phân rã tiếng nói theo thời gian TD kỹ thuật phân tích tiếng nói đƣợc đề xuất Atal năm 1983 Các kết nghiên cứu cho thấy TD thích hợp để phân tích mô hình hóa tiếng nói nhƣ mã hóa nén tiếng nói Tuy nhiên thuật toán TD Atal có độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian thực Vì vậy, số nhà nghiên cứu cải tiến thuật toán TD Atal theo hƣớng giảm độ phức tạp tính toán, ứng dụng mã hóa tiếng nói tốc độ bit thấp thời gian thực nhƣ kỹ thuật TD cải tiến giới hạn (MRTD) Hƣớng nghiên cứu đƣợc tiếp tục phát triển năm gần Luận văn nghiên cứu phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật MRTD, phân tích lý thuyết, cài đặt thực nghiệm đánh giá hiệu phƣơng pháp mã hóa tiếng nói dùng kỹ thuật MRTD với tiếng nói tiếng Việt, từ cho thấy phƣơng pháp mã hóa nén tiếng nói MRTD phƣơng pháp tốt tiếng Việt Cùng với kết đánh giá hiệu MRTD tiếng Anh, tiếng Nhật kết nghiên cứu cho thấy MRTD phƣơng pháp mã hóa nén hiệu với nhiều ngôn ngữ, có nhiều tiềm ứng dụng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 53 TÀI LIỆU THAM KHẢO [1] Atal, Bishnu S., and Manfred R Schroeder "Adaptive predictive coding of speech signals." Bell System Technical Journal, The 49.8 (1970): 1973-1986 [2] Atal, Bishnu S., and J Remde "A new model of LPC excitation for producing natural-sounding speech at low bit rates." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82 Vol IEEE, 1982 [3 Kleijn, W Bastiaan, and Kuldip K Paliwal Speech coding and synthesis Elsevier Science Inc., 1995 [4] Atal, Bishnu S "Efficient coding of LPC parameters by temporal decomposition." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'83 Vol IEEE, 1983 [5] Kim, Sung-Joo, and Yung-Hwan Oh "Efficient quantization method for LSF parameters based on restricted temporal decomposition." Electronics Letters35.12 (1999): 962-964 [6] Nguyen, Phu Chien, Ochi Takao, and Masato Akagi "Modified restricted temporal decomposition and its application to low rate speech coding." IEICE TRANSACTIONS on Information and Systems 86.3 (2003): 397-405 [7] Nguyen, Phu Chien, Masato Akagi, and Binh Phu Nguyen "Limited error based event localizing temporal decomposition and its application to variable-rate speech coding." Speech communication 49.4 (2007): 292-304 [8] Hiroya, Sadao "Non-Negative Temporal Decomposition of Speech Parameters by Multiplicative Update Rules", IEEE Transactions on Audio, Speech, and Language Processing, 21.10 (2013): 2108-2117 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 54 [9] Bimbot, Frederic, et al "Temporal decomposition and acousticphonetic decoding of speech." Acoustics, Speech, and Signal Processing, 1988 ICASSP-88., 1988 International Conference on IEEE, 1988 [10] Phung, Trung-Nghia, et al "Improving naturalness of HMM-based TTS trained with limited data by temporal decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426 [11] Kawahara, Hideki "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds." Acoustical science and technology 27.6 (2006): 349-353 [12] Paliwal, Kuldip K., and Bishnu S Atal "Efficient vector quantization of LPC parameters at 24 bits/frame." Speech and Audio Processing, IEEE Transactions on 1.1 (1993): 3-14 [13] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc Gia, 2003 [14] Hoàng Phê, Chính tả Tiếng Việt, NXB Đà Nẵng, trang 9-15, 2003 [15] L.C Mai and D.N Duc, “Design of Vietnamese speech corpus and current status," Proc ISCSLP-06, pp 748-758 (2006) [16] H Scheffe, “An analysis of variance for paired comparisons,” Journal of the AmericanStatistical Association, vol 47, pp 381-400, 1952 [17] Rix, Antony W., et al "Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs."Acoustics, Speech, and Signal Processing, 2001 Proceedings.(ICASSP'01) 2001 IEEE International Conference on Vol IEEE, 2001 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ [...]... đánh giá hiệu quả của phƣơng pháp mã hóa tiếng nói dùng kỹ thuật TD cải tiến giới hạn MRTD với tiếng nói tiếng Việt, từ đó đƣa ra các khuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD phù hợp cho tiếng Việt 2 Mục tiêu của đề tài Hƣớng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian TD hiện vẫn đƣợc tiếp... việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD cho phù hợp với tiếng nói tiếng Việt 3 Đối tƣợng và phạm vi nghiên cứu Đối tƣợng nghiên cứu của luận văn là các phƣơng pháp mã hóa nén tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD Đây là đối tƣợng nghiên cứu đƣợc nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây Số hóa bởi Trung tâm... là nghiên cứu các lý thuyết đã có trên thế giới [1-8] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng nói tốc độ bit thấp Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật phân rã tiếng nói theo thời gian MRTD Cơ sở dữ liệu để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng. .. tin di động Chính vì vậy, hƣớng nghiên cứu cải tiến các phƣơng pháp mã hóa tiếng nói tốc độ bit thấp vẫn là một hƣớng nghiên cứu có tính thời sự ở Việt Nam và trên thế giới hiện nay, trong đó có hƣớng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian (Temporal Decomposition - TD), là một kỹ thuật mô hình hóa và phân tích tiếng nói đƣợc đề xuất bởi Atal năm 1983... tiễn Nghiên cứu về mã hóa tiếng nói tốc độ bit thấp có vai trò quan trọng trong các hệ thống truyền thông hiện đại Mặc dù mục tiêu của các bộ mã hóa tiếng nói là độc lập ngôn ngữ, hiệu quả của các phƣơng pháp mã hóa tiếng nói là khác nhau với các cơ sở dữ liệu tiếng nói khác nhau Nghiên cứu về các phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD và thử nghiệm đánh giá với tiếng. .. văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng nói [1-3], một số phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực [2-8], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng TD [4-8] Luận văn cũng nghiên cứu cài đặt thực nghiệm các phƣơng pháp mã hóa dùng MRTD và đánh giá với cơ sở dữ liệu tiếng Việt để đƣa ra các khuyến nghị 4 Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu của luận... rã tiếng nói theo thời gian (Temporal Decomposition TD) là một kỹ thuật phân tích tiếng nói đƣợc đề xuất bởi Atal năm 1983 [4] Các kết quả nghiên cứu cho thấy TD rất thích hợp để phân tích mô hình hóa tiếng nói cũng nhƣ mã hóa nén tiếng nói Tuy nhiên thuật toán TD của Atal có độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian thực Vì vậy, một số nhà nghiên cứu đã cải tiến thuật. .. thuật toán TD của Atal theo Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 2 hƣớng giảm độ phức tạp tính toán, ứng dụng trong mã hóa tiếng nói tốc độ bit thấp thời gian thực [5, 6, 7] Hƣớng nghiên cứu này vẫn đƣợc tiếp tục phát triển trong những năm gần đây [8] Luận văn này nghiên cứu về phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD, phân tích lý thuyết,... DÙNG KỸ THUẬT TD 2.1 Phƣơng pháp TD nguyên thủy Kỹ thuật phân rã tiếng nói theo thời gian đƣợc đề xuất bởi Atal [4] và đƣợc coi nhƣ một phƣơng pháp mã hóa tiếng nói tham số hiệu quả Giả sử một chuỗi tiếng nói đƣợc tạo ra bởi K chuyển động thực hiện bởi K điểm sự kiện Chúng ta gọi các tham số tiếng nói tƣơng ứng với điểm sự kiện thứ k là a k , và sự biến đổi theo thời gian của sự kiện này biểu diễn bằng. .. năm gần đây [8] nhƣng ở Việt Nam, hƣớng nghiên cứu này còn khá mới mẻ Luận văn này nghiên cứu về phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD bao gồm: - Thuật toán TD nguyên thủy của Atal, - Thuật toán cải tiến MRTD của N.P Chiến, Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và đánh giá hiệu quả của phƣơng pháp MRTD của N.P Chien, từ đó đƣa ra ... hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật TD phù hợp cho tiếng Việt Mục tiêu đề tài Hƣớng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian. .. hóa tiếng nói tốc độ bit thấp Dựa sở lý thuyết phân tích, đánh giá, luận văn nghiên cứu thực nghiệm phƣơng pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật phân rã tiếng nói theo. .. mã hóa tiếng nói tốc độ bit thấp hƣớng nghiên cứu có tính thời Việt Nam giới nay, có hƣớng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã tiếng nói theo thời gian (Temporal

Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan