Ứng dụng của xử lý số tín hiệu trong phân tích và mã hoá tiếng nói

125 584 0
Ứng dụng của xử lý số tín hiệu trong phân tích và mã hoá tiếng nói

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI WX LUẬN VĂN THẠC SĨ KHOA HỌC ỨNG DỤNG CỦA XỬ SỐ TÍN HIỆU TRONG PHÂN TÍCH HÓA TIẾNG NÓI NGÀNH : ĐIỆN TỬ VIỄN THÔNG TRẦN NGỌC TUẤN Người hướng dẫn khoa học: PGS.TS NGUYỄN QUỐC TRUNG Hà Nội 2008 Luận văn cao học ĐTVT 2006 - 2008 LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ tài liệu ghi rõ luận văn, phần trình bày luận văn thực chưa có phần nội dung luận văn nộp để lấy cấp Hà Nội, ngày 17 tháng 11 năm 2008 Trần Ngọc Tuấn i Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Quốc Trung tận tình bảo hướng dẫn cho kiến quý báu để hoàn thành luận văn Xin chân thành cảm ơn thầy cô giáo khoa Điện Tử - Viễn Thông trường đại học Bách Khoa Hà Nội giúp hoàn thành nhiệm vụ môn học suốt thời gian học trường, cảm ơn anh chị bạn đồng nghiệp môn Kỹ Thuật Thông Tin khoa Điện Tử Viễn Thông ĐHBKHN giúp đỡ trình học tập ii Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii CÁC THUẬT NGỮ VIẾT TẮT ix CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Cơ sở nghiên cứu mục đích luận văn 1.2 Nội dung cấu trúc luận văn CHƯƠNG TỔNG QUAN CÁC KỸ THUẬT HÓA TIẾNG NÓI 2.1 Giới thiệu 2.2 Các kỹ thuật hóa tiếng nói 2.2.1 hóa theo tham số 2.2.2 hóa dạng sóng 2.2.3 hóa lai 2.3 Các mục tiêu yêu cầu thuật toán hóa 2.3.1 Chất lượng dung lượng 2.3.2 Trễ hóa 2.3.3 Độ bền bỉ (Robustness) 2.3.4 Độ phức tạp chi phí 2.3.5 Ghép nối chuyển 10 2.3.6 Xử liệu dải tần tiếng nói 10 2.4 Các chuẩn hóa tiếng nói 11 2.4.1 Chuẩn hóa ITU-T 11 2.4.2 Chuẩn điện thoại số celluar châu Âu 12 2.4.3 Chuẩn điện thoại số Bắc Mỹ 13 2.4.4 Điện thoại bảo mật (Chuẩn quốc phòng Mỹ) 14 iii Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 2.4.5 Điện thoại vệ tinh 15 2.4.6 Đánh giá chất lượng hóa 15 CHƯƠNG PHÂN TÍCH TÍN HIỆU TIẾNG NÓI BẰNG PHƯƠNG PHÁP DỰ ĐOÁN TUYẾN TÍNH 18 3.1 Giới thiệu 18 3.2 Phân tích phổ thời gian ngắn 19 3.2.1 Biến đổi Fourier thời gian ngắn 19 3.2.2 Vai trò cửa sổ 19 3.3 Mô hình dự đoán tuyến tính tín hiệu tiếng nói 25 3.3.1 Mô hình máy phát âm 26 3.3.2 Xác định hệ số mô hình LPC 28 3.3.3 Quá trình phân tích hóa LPC thực tế 37 3.3.4 Dãy sai số phân tích LPC 39 3.4 Dự đoán chu kỳ Pitch 41 3.4.1 Tính chu kỳ tín hiệu tín hiệu tiếng nói 41 3.4.2 Dự đoán chu kỳ Pitch (Dự đoán thời gian dài) 41 3.5 Xác định chu kỳ tín hiệu (tần số bản) 48 3.5.1 Tách chu kỳ miền thời gian 49 3.5.2 Tách chu kỳ miền tần số 54 3.5.3 Các kỹ thuật tiền hậu xử 56 CHƯƠNG LƯỢNG TỬ HÓA CÁC THAM SỐ LPC BẰNG CÁC TẦN SỐ PHỔ VẠCH LSF 67 4.1 Giới thiệu 67 4.2 Các tham số thay tham số LPC 67 4.3 Biến đổi qua lại LPC LSF 70 4.3.1 Tính toán hệ số LSF 72 4.3.2 Biến đổi LSF sang LPC 77 4.4 Các tính chất LSF 81 iv Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 CHƯƠNG CÁC BỘ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN TÍCH NHỜ TỔNG HỢP AbS 84 5.1 Giới thiệu 84 5.2 Tổng quan hóa AbS 85 5.2.1 Bộ lọc biến đổi 88 5.2.2 Thủ tục tối thiểu hóa sai số 88 5.2.3 Tín hiệu kích thích 91 5.3 hóa dự đoán tuyến tính kích thích CELP 94 5.3.1 Dự đoán LPC (Dự đoán thời gian ngắn) 96 5.3.2 Dự đoán pitch (Dự đoán thời gian dài) 97 5.3.2 Bảng kích thích 101 CHƯƠNG THIẾT KẾ CHƯƠNG TRÌNH MÔ PHỎNG QUÁ TRÌNH PHÂN TÍCH LPC 105 6.1 Giới thiệu 105 6.2 Giao diện chương trình 105 6.3 Các chức 107 6.4 Các kết thực nghiệm 107 KẾT LUẬN 112 TÀI LIỆU THAM KHẢO 114 v Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 DANH MỤC CÁC BẢNG Bảng 2.1 Các chuẩn hóa tiếng nói băng hẹp ITU-T 11 Bảng 2.2 Các chuẩn hóa ETSI cho truyền thông di động GSM 13 Bảng 2.3 Các chuẩn hóa TIA/EIA cho CDMA/TDMA Mỹ 14 Bảng 2.4 Các chuẩn hóa DoD (Bộ quốc phòng Mỹ) 14 Bảng 2.5 Các chuẩn hóa tiếng nói INMARSAT 15 Bảng 2.6 Thang điểm đánh giá trung bình MOS 16 Bảng 2.7 So sánh chuẩn hóa tiếng nói 17 Bảng 3.1 So sánh phương pháp tìm tham số LPC 37 Bảng 3.2 Phối hợp hàm cắt khác 59 Bảng 4.1 Ưu nhược điểm hệ số PARCOR LSF 81 Bảng 4.2 Điều kiện thực nghiệm khảo sát tương quan hệ số LSF.82 Bảng 4.3 Tương quan hệ số LSF khung (ma trận Ω) 82 Bảng 4.4 Tương quan hệ số LSF liên khung (ma trận Ψ) 83 Bảng 5.1 Các tham số thiết lập để so sánh loại kích thích 104 Bảng 5.2 Kết so sánh hoạt động loại bảng 104 vi Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 DANH MỤC CÁC HÌNH VẼ Hình 2.1 Chất lượng tốc độ kỹ thuật hóa tiếng nói Hình 2.2 Chất lượng tiếng nói chuẩn hóa 16 Hình 3.1 Dạng sóng tín hiệu tiếng nói hữu vô 18 Hình 3.2 Các loại cửa sổ miền thời gian 21 Hình 3.3 Đáp ứng tần số loại cửa sổ 21 Hình 3.4 Tác động loại cửa sổ lên tín hiệu tiếng nói hữu 22 Hình 3.5 Tác động loại cửa sổ đến tín hiệu tiếng nói 23 Hình 3.6 Tác động cửa sổ (dài 40 mẫu (5ms)) lên tín hiệu hữu 25 Hình 3.7 Mô hình phát âm (tạo tiếng nói) 26 Hình 3.8 Dự đoán tiến dự đoán lùi 33 Hình 3.9 Bộ lọc mắt cáo dùng hệ số PARCOR ki 35 Hình 3.10 Bộ lọc mắt cáo đảo tổng hợp tín hiệu tiếng nói từ tín hiệu sai số 35 Hình 3.11 Quan hệ bậc lọc tăng ích dự đoán 38 Hình 3.12 Đường bao phổ tín hiệu qua lọc LPC bậc khác 39 Hình 3.13 Tín hiệu gốc tín hiệu sai số LPC 40 Hình 3.14 So sánh phổ tín hiệu gốc tín hiệu sai số 40 Hình 3.15 Mô hình tính toán pitch-LPC 42 Hình 3.16 Đồ thị thời gian tín hiệu sai số LPC sai số Pitch 46 Hình 3.17 Biến thiên β đoạn tín hiệu tiếng nói điển hình 47 Hình 3.18 Biến thiên τ đoạn tín hiệu tiếng nói điển hình 47 Hình 3.19 Xác định chu kỳ dùng hàm tự tương quan hàm AMDF 51 Hình 3.20 Hàm tự tương quan trực tiếp chuẩn hóa 53 Hình 3.21 Phát đỉnh sử dụng lọc lược 55 Hình 3.22 Phổ tín hiệu với phương pháp phổ đồng dạng 56 Hình 3.23 Các hàm cắt 58 Hình 3.24 Theo dõi chu kỳ tiến 60 Hình 3.25 Phương pháp theo dõi đường 61 Hình 3.26 Các khoảng tìm kiếm chu kỳ chồng 63 Hình 3.27 Những khoảng tìm kiếm chồng 64 Hình 4.1 Mô hình dạng ống không tổn hao máy phát âm 71 vii Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Hình 4.2 Bộ lọc tổng hợp LPC cấu trúc PARCOR 71 Hình 4.3 Các tham số LSF cho đoạn tiếng nói điển hình 75 Hình 4.4 Phân bố tham số LSF 76 Hình 4.5 đồ cấu trúc lọc tổng hợp LSF thực tế 80 Hình 5.1 đồ khối kỹ thuật phân tích tổng hợp dùng vòng kín 85 Hình 5.2 đồ khối kỹ thuật hóa AbS-LPC 86 Hình 5.3 Đồ thị so sánh phổ tín hiệu gốc tín hiệu sau lọc trọng số 90 Hình 5.4 Bộ hóa AbS-LPC biến đổi 91 Hình 5.5 Bộ hóa AbS-LPC với nhiều loại tín hiệu kích thích khác 92 Hình 5.6 Cấu trúc xung kích thích RPELPC 94 Hình 5.7 đồ khối thuật toán hóa CELP chuẩn 96 Hình 5.8 Phương pháp lặp lại pitch trường hợp Dmin < L 100 Hình 6.1 Giao diện chương trình 106 Hình 6.2 Tín hiệu sai số với lọc LPC bậc 108 Hình 6.3 Tín hiệu sai số với lọc LPC bậc 10 108 Hình 6.4 So sánh kết phổ tín hiệu với lọc LPC bậc khác 109 Hình 6.5 Tín hiệu tổng hợp đoạn tiếng nói nguyên âm "a" 109 Hình 6.6 Các tham số LTP theo thời gian sau phân tích 110 Hình 6.7 Các tham số LTP sau phân tích đoạn tiếng nói tổng hợp 111 viii Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 CÁC THUẬT NGỮ VIẾT TẮT AaS AbS ACELP Analysis-and-Synthesis Analysis-by-Synthesis Algebraic CELP ADPCM Adaptive Differential PCM AMDF Average Magnitude Difference Function Application-Specific Integrate Circuit Adaptive Transform Coding Code Excited Linear Predictive ASIC ATC CELP CVSDM DMR ETSI DSI ETSI FEC ITU ITU-T LAR LPC LSF Continuous Variable Slope Delta Modulation Digital Mobile Radio European Telecommunications Standards Institute Digital Speech Interpolation European Telecommunications Standards Institute Forward Error Correction International Telecommunication Union ITU-Telecommunication Standardization Sector Log Area Ratio Linear Predictive Coding Line Spectral Frequency ix Phân tích tổng hợp Phân tích cách tổng hợp Dự đoán tuyến tính kích thích đại số Điều chế xung vi sai tự thích nghi Hàm vi sai biên độ trung bình Mạch tích hợp chuyên dụng hóa biến đổi tự thích nghi Dự đoán tuyến tính kích thích Điều chế delta độ dốc biến đổi liên tục Di động số vô tuyến Viện tiêu chuẩn viễn thông châu Âu Nội suy tiếng nói kỹ thuật số Viện tiêu chuẩn viễn thông châu Âu sửa lỗi trước Liên minh viễn thông quốc tế Bộ phận tiêu chuẩn hóa viễn thông quốc tế thuộc ITU Tỉ số miền Loga hóa dự đoán tuyến tính Tần số phổ vạch Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Từ ta thấy để tìm nghiệm phương trình ta phải giải phương trình bậc β Điều rõ ràng phức tạp phải tìm kiếm với tất giá trị D nhỏ L Một giải pháp để giải phương trình dùng phương pháp thử dần giá trị lượng tử β Với phương pháp này, tổng số hạng tính trước với giá trị lượng tử β thay vào phương trình Giá trị β cho sai số bình phương nhỏ giá trị cần tìm Tuy nhiên với phương pháp khối lượng tính toán lớn, ví dụ L = 50, Dmin = 20 β = bit số lần thử 23 × ( 50 − 20 ) = 240 D > L Một giải pháp cho trường hợp D < L sử dụng công thức bảng tự thích ứng (adaptive codebook) LTP, lặp lại có chu kỳ đầu LTP trước đó, nghĩa là: ⎧ β rˆ ( n − D ) ⎪ ⎪ β rˆ ( n − D ) rˆ ( n ) = ⎪⎨ ⎪M ⎪ ⎪⎩ β rˆ ( n − aD ) ≤ n ≤ D −1 D ≤ n ≤ 2D −1 (5.25) aD ≤ n ≤ L −1 s% ( n ) sˆ ( n − D ) "0" sˆ ( n ) βi Bộ đệm LTP Dmax a - a - L a - Bộ đệm STP a - Dmin < L Hình 5.8 Lặp lại pitch trường hợp Dmin < L Nói cách khác, phần chưa xác định trước tín hiệu kích thích LTP khung xây dựng cách lặp lại phần xác định với chu kỳ D Sử dụng phương pháp cần xác định giá trị β 100 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Phương pháp không tính đến trường hợp xung pitch khung thay đổi biên độ sang khung khác Hình 5.8 biểu diễn thủ tục tổng hợp CELP sử dụng phương pháp tự thích nghi này, lọc LPC lọc trọng số biểu diễn lọc thời gian ngắn STP 5.3.2 Bảng kích thích Các véctơ bảng kích thích thành phần quan trọng thuật toán hóa CELP Với chức chính: • Cung cấp thông tin khởi tạo cho nhớ lọc LTP, có số đoạn đột ngột thay đổi tín hiệu tiếng nói dự đoán pitch dự đoán không xác • Chúng cung cấp thông tin dự đoán thời gian dài LTP bỏ qua Điều đặc biệt quan tín hiệu vào đoạn vô LTP làm việc không hiệu Bởi vậy, việc tổ chức bảng kích thích cho hóa CELP phương pháp tìm kiếm véctơ tối ưu quan trọng, có nhiều nghiên cứu vấn đề Một hướng nghiên cứu liên quan chi phí tính toán thủ tục tìm kiếm véctơ Quá trình tìm kiếm véctơ tối ưu kỹ thuật CELP chia làm bước: Với véctơ bảng xét, thực tổng hợp để xác định tín hiệu tương ứng sˆk (n) Tính tương quan chéo tín hiệu tham chiếu s% (n) với véctơ tổng hợp sˆk (n) Tính độ tự tương quan tín hiệu tổng hợp sˆk (n) Kiếm tra sai số tối thiểu tương quan chuẩn hóa lớn Để giảm độ phức tạp dung lượng nhớ đồng thời tăng chất lượng có nhiều phiên bảng kích thích phát triển sử dụng Phiên kích thích chuẩn Gauss, sau có nhiều phiên cải tiến khác đại số ACELP, tổng véctơ VSELP, kích thích hỗn hợp tự thích ứng với chu kỳ PAME Sau ta xét loại kích thích chuẩn kích thích Gauss 101 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Kích thích Gauss (kích thích chuẩn) Hầu hết phiên kỹ thuật CELP sử dụng bảng kích thích dãy Gauss tín hiệu tiếng nói sau lọc đảo với lọc LPC mắc sau lọc pitch cho dãy sai số giống với nhiễu trắng (nhiễu Gauss) Vấn đề kích thước nhớ để lưu trữ vectơ bảng Gauss Ví dụ sử dụng bảng 10 bit để tham chiếu L mẫu, số lượng vị trí cần lưu trữ 210 × L Giả sử L = 40 tương ứng với 40960 vị trí cần lưu trữ, số lớn khó khăn để xử với thời gian thực Để khắc phục điều này, véctơ Gauss biểu diễn dạng mảng chiều hầu hết mẫu hai véctơ giống Khi sử dụng bảng chồng thông dụng dùng phép dịch (shift) tạo véctơ Nói cách khác, để sinh véctơ bỏ hai mẫu cuối véctơ trước thêm vào hai mẫu vào đầu nghĩa thực dịch lần Một bảng chồng dịch chuyển đơn bước tương ứng với lọc LTP độ trễ nhỏ lớn L − L+ C − vị trí kích thước bảng C Một số hóa sử dụng phiên bảng kích thích khác, cắt với ngưỡng cắt 1,2 độ lớn vectơ có phương sai Sử dụng cắt cho tín hiệu tiếng nói tổng hợp chói Một nguyên nhân so sánh vectơ bảng với vectơ tham chiếu số vectơ có thành phần modul lớn chiếm ưu sinh sai số thành phần vector modul nhỏ Vì làm cho biên độ véctơ nhỏ giảm thiểu sai số chúng gây ra, việc so khớp véctơ với mẫu có độ lớn cao tốt nhiều Việc huấn luyện bảng Gauss gia tăng chất lượng đáng kể kích thước bảng bit Do cần đơn giản sử dụng sinh dãy số ngẫu nhiên Gauss Một số ứng dụng sử dụng bảng tam phân, số ngẫu nhiên dãy Gauss chiếm giá trị biên độ, dương, −1 số âm Ngoài loại bảng trên, phiên thông dụng khác bảng chuẩn bảng thưa, 102 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 thành phần khác không vectơ theo sau số cố định số Bảng giống với kích thích đa xung LPC Bảng chồng hữu dụng việc giảm độ phức tạp tính toán việc tìm kiếm khối lượng cần lưu trữ giảm Hơn bảng này, vectơ gần kề gần giống nhau, tận dụng tính chất để giảm bước tính toán phép tính tích chập để tạo tín hiệu tổng hợp đầu Nếu đáp ứng xung lọc kết hợp lọc LPC lọc trọng số h(n) véctơ tổng hợp sˆk (n) tương ứng với véctơ kích thích thứ k xk(n) bảng dịch đơn bước sau (phép chập): n sk (n) = ∑ xk ( n − i )h ( i ) (5.26) i =0 Với bảng dịch đơn bước, khác véctơ kề khác mẫu cuối vị trí cuối véctơ kích thích lẫn véctơ tổng hợp sˆk +1 , véctơ biểu diễn qua véctơ sk sau: sˆk +1 ( n ) = xk +1 ( ) h ( n ) + sˆk ( n −1) (5.27) với sˆk (−1) = Từ phương trình ta thấy cách dịch chuyển véctơ đầu trước mẫu sˆk ( n − 1) cộng thêm vào véctơ tỉ lệ với đáp ứng xung, theo tỉ lệ mẫu nghĩa xk +1 ( ) h ( n ) ta thu véctơ tổng hợp mới, công việc tính toán đơn giản nhiều Khi số lượng bước dịch chuyển bảng tăng độ phức tạp tăng lên, số bước dịch chuyển với chiều dài vectơ bảng chồng trở thành bảng chuẩn chứa véctơ độc lập với ⎧ n ⎪ xk +1h ( i ) sˆk +1 ( n ) = ⎪⎨ Ri =−01 ⎪ x h n − i ) + sˆk ( n − R ) ⎪ i =0 k +1 ( ) ( ⎩ ∑ 0≤n< R ∑ n≥ R (5.28) Nếu sử dụng bảng chồng cắt phương trình (5.26) không cần phải thực phép nhân với h(i) giá trị xk(n), độ phức tạp tính toán giảm đáng kể Khi sau tổng hợp 103 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 véctơ với véctơ giảm nhiều tính toán sử dụng (5.27) Trong phương trình (5.27), mẫu thêm vào để tạo thành véctơ kích thích số hạng (5.27) cần đơn giản dịch chuyển véctơ tổng hợp cũ mẫu cho ta nhận véctơ tổng hợp So sánh phiên bảng Gauss trình bày trên, với hóa CELP không lượng tử bảng 5.1 Kết cho bảng 5.2 (bảng chồng với bước dịch R = mẫu) Kết sau kiểm tra cách nghe chủ quan cho thấy chất lượng tiếng nói với bảng cắt tốt so sánh với bảng Gauss chuẩn Sự khác biệt bảng chồng không chồng loại không đáng kể Nhưng với kết bảng 5.4 cho thấy sử dụng bảng chồng thuận lợi cho việc giảm nhớ cho tính toán Tham số Lấy mẫu Phân tích LPC LTP & hệ số Bảng 10 bit Trọng số Tốc độ 8kHz 160 mẫu 40 mẫu 40 mẫu γ = 0,9 Bảng 5.1 Các tham số thiết lập để so sánh loại kích thích Bảng LTP hệ số (dB) LTP hệ số (dB) Kích thước (từ) Gauss 11,11 12,52 1024 × 40 Gauss cắt 11,20 12,53 1024 × 40 Gauss chồng 11,16 12,49 × 1023 + 40 Gauss cắt chồng 11,18 12,55 × 1023 + 40 Bảng 5.2 Kết so sánh hoạt động loại bảng 104 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 CHƯƠNG THIẾT KẾ CHƯƠNG TRÌNH MÔ PHỎNG QUÁ TRÌNH PHÂN TÍCH LPC 6.1 Giới thiệu Chương trình mô viết ngôn ngữ Visual C++ 6.0 môi trường Window Với liệu đầu vào file dạng *.WAV 16 bit Mono (1 kênh PCM) không nén, mẫu hóa 16bit, với độ lớn từ −32767 đến 32768 Với điều kiện thực nghiệm mặc định sau, tần số lấy mẫu 8KHz (8000 mẫu giây) Lựa chọn kích thước khung phân tích 160 mẫu (tương ứng 20ms), kích thước khung 40 mẫu (5ms) tức khung chứa khung Bậc lọc LPC 10, bậc lọc LTP (I = 1) Tuy nhiên thông số đầu vào thay đổi người sử dụng để quan sát thay đổi tín hiệu phân tích Sau đọc file nguồn (chức mở file) thông số thiết lập, chương trình thực phân tích hiển thị kết quả: + Tín hiệu sai số sau phân tích dự đoán thời gian ngắn STP dự đoán thời gian dài + Tín hiệu tổng hợp LPC sử dụng không sử dụng dự đoán thời gian dài LTP + Phát loa tín hiệu gốc, loại tín hiệu tổng hợp + Các tham số LPC αi khung + Vẽ đồ thị phổ tín hiệu gốc tín hiệu tổng hợp khung + Vẽ đồ thị tham số LTP ( β, τ ) theo thời gian + Vẽ đồ thị hàm tự tương quan tín hiệu gốc 6.2 Giao diện chương trình Hình 6.1 giao diện chương trình, gồm cửa sổ tín hiệu Cửa sổ thứ hiển thị toàn tín hiệu tiếng nói gốc đọc vào từ file Ta chọn thị chi tiết đoạn tín hiệu cách click vào phần tín hiệu cửa sổ này, đoạn tín hiệu chi tiết hiển thị cửa sổ thứ Tại cửa 105 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 sổ khung phân tích có dấu phân cách riêng Tại cửa sổ thứ ta chọn cụ thể khung để xem kết phân tích riêng khung Tín hiệu tiếng nói gốc Một đoạn tín hiệu gốc Khung chọn ( khung 64 ) Tín hiệu kết Tín hiệu kết Hình 6.1 Giao diện chương trình Cửa sổ thứ thứ hai cửa sổ hiển thị tín hiệu kết đầu Tùy thuộc vào chọn thị tín hiệu phần "Hiển thị" bên trái Trên hình 6.1 chọn hiển thị tín hiệu sai số ứng với cửa sổ thứ tín hiệu sai số sau phân tích LPC, cửa sổ thứ tín hiệu sai số sau phân tích LTP Bên trái giao diện chương trình thiết lập điều khiển Các tham số bao gồm: + Tham số LPC : Có bậc lọc LPC, chiều dài khung phân tích (theo mẫu) Danh sách tham số a[i] khung phân tích thời chọn 106 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 + Tham số LTP: Bậc lọc LTP cố định (I = 0), chiều dài khung Các tham số thay đổi được, sau thay đổi nhấn nút "Cập nhật" để thay đổi có hiệu lực để hiển thị kết 6.3 Các chức Chương trình hiển thị kết sau phân tích LPC LTP Mỗi chọn khung tham số LPC a[i] hiển thị bên trái phần tham số LPC Các tín hiệu kết đầu hiển thị cửa sổ tín hiệu theo tùy chọn mục "Hiển thị" Gồm tùy chọn sau: + Tín hiệu sai số: Cửa sổ hiển thị tín hiệu sai số sau phân tích LPC LTP + Tín hiệu tổng hợp: Các tín hiệu tổng hợp sau sử dụng phân tích LPC, LTP kết hợp LPC Các tín hiệu tổng hợp tín hiệu gốc phát loa bấm vào nút "Play" + Tham số LTP: Cửa sổ tương ứng hiển thị đồ thị theo khung tham số LTP tăng ích β độ trễ τ (giá trị ứng cử cho chu kỳ pitch tìm được) Ngoài xem hình ảnh phổ tín hiệu gốc phổ tín hiệu sai số sau phân tích LPC cách ấn vào "Phổ tín hiệu", chương trình vẽ phổ tín hiệu tín hiệu gốc (màu xanh) phổ tín hiệu sai số (màu đỏ) khung phân tích chọn 6.4 Các kết thực nghiệm Đối với trường hợp ta thấy tín hiệu sai số LPC có biên độ cao tín hiệu sai số LTP Hơn tín hiệu sai số LPC tính chu kỳ, tín hiệu sai số LTP đoạn tín hiệu hữu gần giống với nhiễu trắng Hơn bậc p lọc LPC thấp tín hiệu sai số lớn, bậc p cao tín hiệu sai số biên độ nhỏ Trên hình 6.2 6.3 biểu diễn đoạn tín hiệu sai số phân tích với p = p = 10, tăng p ta thấy tín hiệu sai số nhỏ Tuy nhiên tăng p lớn lên vài chục tín hiệu sai số nhỏ không đáng kể 107 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Hình 6.2 Tín hiệu sai số với lọc LPC bậc Hình 6.3 Tín hiệu sai số với lọc LPC bậc 10 108 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Về phổ tín hiệu ta thấy rõ p lớn phổ tín hiệu sai số phẳng Trên hình 6.4 kết khung phân tích LPC cho tín hiệu hữu thiết lập p 2, 10 25 Ta thấy rõ tín hiệu sai số (phổ dưới) có cấu trúc formant giống với tín hiệu gốc phổ phẳng hơn, sử dụng tín hiệu sai số để dự đoán thời gian dài LTP p=2 p = 10 p = 25 Hình 6.4 So sánh kết phổ tín hiệu với lọc LPC bậc khác Tín hiệu gốc Tín hiệu tổng hợp sau phân tích LPC Tín hiệu tổng hợp sau phân tích LTP-LPC Hình 6.5 Tín hiệu tổng hợp đoạn tiếng nói nguyên âm "a" Trên hình 6.5 đoạn tín hiệu tiếng nói tổng hợp sau phân tích LPC, phân tích LPC kết hợp LTP Ta thấy rõ tín hiệu tổng hợp sau phân tích LTPLPC giống với tín hiệu gốc tín hiệu tổng hợp sau phân tích LPC Sau 109 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 nhiều mẫu tiếng nói nghe thử tín hiệu tổng hợp không khác tín hiệu gốc Tuy nhiên ta xét trường hợp tưởng, tín hiệu chưa lượng tử hóa tín hiệu nhận xác tuyệt đối nên tín hiệu tổng hợp chất lượng tốt Tín hiệu gốc Các tham số β lọc LTP Các tham sốτ lọc LTP Hình 6.6 Các tham số LTP theo thời gian sau phân tích Hình 6.6 đồ thị tham số LTP theo thời gian đoạn tín hiệu hữu Ta thấy khoảng hữu giá trị β dao động quanh 1, xung nhọn (nơi chuyển tiếp tín hiệu đột ngột) β lớn Trong khoảng hữu giá trị chu kỳ τ biến đổi liên tục, nhờ tính chất làm tiền đề cho kỹ thuật theo dõi chu kỳ trình bày chương Còn khoảng hữu tham số LTP biến đổi mạnh 110 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Hình 6.7 Các tham số LTP sau phân tích đoạn tiếng nói tổng hợp Hình 6.7 ví dụ khác phân tích đoạn tiếng nói hỗn hợp đoạn tín hiệu vô thanh, hữu độ Ta thấy giá trị β lớn đoạn chuyển tiếp tín hiệu, khoảng hữu β dao động quanh 1, τ liên tục Những kết thực nghiệm cho thấy kết với thuyết phần lớn trình bày chương Chương trình hoàn thành thời gian ngắn tránh khỏi nhiều thiếu sót hạn chế, mong nhận bảo thầy cô ý kiến đóng góp bạn để hoàn thiện chương trình 111 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 KẾT LUẬN Kết ứng dụng luận văn Luận văn nghiên cứu hóa tiếng nói lĩnh vực có tính ứng dụng cao phổ biến Luận văn cho nhìn tổng quan kỹ thuật hóa tiếng nói, trình bày đầy đủ sâu sở thuyết làm phương tiện cho việc phân tích tiếng nói sở để thiết kế hóa tiếng nói Khi DSP với công nghệ đại ngày phát triển, ngày thuận lợi thiết kế hóa tiếng nói, để làm ta thiếu kiến thức tàng xử tín hiệu số ứng dụng hóa tiếng nói Vì luận văn tài liệu tham khảo hữu ích cho quan tâm tìm hiểu lĩnh vực hóa tiếng nói Bên cạnh luận văn cung cấp chương trình để kiểm nghiệm thuyết nêu sau tiếp tục phát triển chương trình để mô phỏng, nghiên cứu kỹ thuật hóa Tuy nhiên kiến thức thời gian có hạn nên luận văn không tránh khỏi hạn chế Do lĩnh vực nghiên cứu rộng, nghiên cứu từ sở chưa thể tìm hiểu hết kỹ thuật hóa tiên tiến đại ngày Luận văn dừng lại số kỹ thuật có nhiều phát triển sau hóa dự đoán tuyến tính kích thích CELP, ngày có nhiều phiên tín hiệu kích thích VSELP (kích thích vectơ tổng), ACELP (kích thích đại số), PAME (mã hỗn hợp tự thích ứng với chu kỳ) Ngoài ngày nhiều kỹ thuật hóa tiên tiến phát triển hóa đa chế độ (multi-mode), hóa kích thích đa dải MBE (Multi-Band Excitation) hoạt động với tốc độ thấp chất lượng chấp nhận Các hướng phát triển đề tài + Nghiên cứu biện pháp để cải tiến thuật toán hóa để giảm tốc độ bit đảm bảo chất lượng + Nghiên cứu kết hợp tối ưu nguồn hóa kênh + Nghiên cứu kỹ thuật lượng tử hóa hiệu tham số LSF phương pháp nội suy từ tham số khung trước 112 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 + Nghiên cứu phương pháp khắc phục hiệu ứng biên chuyển tiếp khung phân tích + Nghiên cứu hóa tiếng nói đại hệ thống thông tin số ngày + Thiết kế chương trình hóa tiếng nói cho xử tín hiệu DSP Xử tình thực tế 113 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 TÀI LIỆU THAM KHẢO Nguyễn Quốc Trung (2002), Xử tín hiệu lọc số, NXB KHKT, Hà Nội A M Kondoz (1994), Digital Speech, John Wiley & Son Lawrence R Rabiner, Ronald W.Schafer (1978) , Digital Processing Of Speech Signals, Prentice Hall Peter Vary, Rainer Martin (2006), Digital Speech Transmission, John Wiley & Son Sadaoki Furui (2001), Digital Speech Processing, Synthesis, and Recognition, Marcel Dekker Thomas F.Quatieri, Discrete-Time Speech Signal Processing, Prentice Hall, 2002 Wai C Chu (2003), Speech Coding Algorithms, John Wiley & Son 114 Trần Ngọc Tuấn ... ngày Để nghiên cứu mã hóa tiếng nói trước hết ta phải nghiên cứu tín hiệu tiếng nói, chất tiếng nói loại tín hiệu phải dựa sở lý thuyết tín hiệu Tuy nhiên tiếng nói loại tín hiệu với nhiều đặc... thống số, phải dựa sở lý thuyết xử lý số tín hiệu DSP Dựa sở lý thuyết nêu trên, luận văn nghiên cứu kỹ thuật mã hóa tiếng nói, sở lý thuyết phương tiện để phân tích tiếng nói Tập trung vào kỹ... phần tín hiệu tiếng nói để xử lý cách đưa phần tín hiệu bên miền xử lý Đáp ứng tần số lý tưởng cửa sổ có búp sóng hẹp để tăng độ phân giải búp phụ (búp phụ cao gây tượng rò tần số, phân tích

Ngày đăng: 22/07/2017, 23:19

Từ khóa liên quan

Mục lục

  • Trang bìa

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

  • MỤC LỤC

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ

  • CÁC THUẬT NGỮ VIẾT TẮT

  • CHƯƠNG 1. GIỚI THIỆU ĐỀ

  • CHƯƠNG 2. TỔNG QUAN CÁC KỸ THUẬT MÃ HÓAđiều chế xung mã PCM (Pulse Code Modulation) được phát minh

  • CHƯƠNG 3. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI BẰNGƯƠNG PHÁP DỰ ĐOÁN TUYẾN TÍNH.

  • CHƯƠNG 4. LƯỢNG TỬ HÓA CÁC THAM SỐ LPC

  • CHƯƠNG 5. CÁC BỘ MÃ HÓA TIẾNG NÓI DÙNG KỸ

  • CHƯƠNG 6. THIẾT KẾ CHƯƠNG TRÌNH MÔ PHỎNG

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan