Nén âm thanh tiếng nói dải rộng (audio hifi)

25 890 7
Nén âm thanh tiếng nói dải rộng (audio hifi)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ─────── * ─────── BÁO CÁO BÀI TẬP LỚN MÔN HỌC: XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN ĐỀ TÀI 17 Nén âm tiếng nói dải rộng (audio HiFi) Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Hoàng Lan Nhóm sinh viên thực hiện: Trần Văn Tùng Nguyễn Tú Chi Chu Thế Anh Chu Văn Huy 20122760 20121301 20121177 20121786 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Mục lục Danh mục hình vẽ Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Lời nói đầu Trong học phần Xử Lý Dữ Liệu Đa Phương Tiện chúng em học liệu đa phương tiện phương pháp xử lí liệu dùng nén, giải nén liệu đa phương tiện Dữ liệu đa phương tiện bao gồm văn bản, hình ảnh, đối tượng đồ họa (bao gồm vẽ, phác thảo hình minh họa) chuỗi hình ảnh động, âm video Trong nén âm audio công nghệ vô quan trọng Tại ta phải nén audio? Những file audio gốc với dung lượng lớn khó truyền tải, lưu trữ nén Tùy theo nhu cầu kĩ thuật thực hiện, phát minh nhiều chuẩn nén audio khác nhau, phù hợp với nhiều mục đích sử dụng Chính nhóm em chọn đề tài “Nén âm tiếng nói dải rộng (Audio HiFi) để tìm hiểu, trình bày báo cáo Tuy nhóm cố gắng tìm hiểu, thực đề tài, tránh khỏi sai sót, hạn chế mặt hiểu biết, nên mong cô nhận xét, đánh giá để chúng em rút kinh nghiệm Chúng em xin chân thành cảm ơn! Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Phần Tín hiệu âm dải rộng 1.1 Đặc điểm âm dải rộng Âm có chất tín hiệu, dựa dải tần tín hiệu người ta chia thành loại sau: • Âm dải tần sở (âm tiếng nói thoại) với dải tần số từ 300Hz đến 4KHz • Âm tiếng nói dải rộng (tiếng nói trình diễn, hát, âm nhạc …) với dải tần số từ 100Hz đến 20KHz Tiếng nói thoại Tiếng nói dải rộng Giới hạn dải phổ tín hiệu 4kHz Tần số lấy mẫu Fs = kHz, Ts= 125µs 20kHz Fs = 44.1 kHz Fs chuyên dụng = 48 kHz Lượng tử hóa bit 16, 20 bit Tốc độ cần thiết 8bits x kHz= 64Kbit/s 176Kbyte/s Các chuẩn nén GSM 15,2Kbit/s, ADPCM: 32Kbit/s MPEG-1, MPEG-2, MPEG-3 Hình So sánh tiếng nói thoại tiếng nói dải rộng Âm đầu vào trình nén MP3 âm dải rộng Âm dải rộng công nghệ âm sử dụng phổ biến điện thoại mở rộng phạm vi tần số tín hiệu âm truyền qua đường dây điện thoại với phạm vi tiếng nói người kéo dài từ 80Hz đến 14 kHz Âm tiếng nói dải rộng giới hạn băng thông truyền thông với phạm vi tần số từ 50 Hz đến kHz Âm dải rộng đưa nhằm cải thiện chất lượng độ tự nhiên âm cách mở rộng dải phổ so với tiếng nói thoại bình thường Việc mở rộng tần số âm áp dụng nhiều mạng điện thoại Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 âm nhạc, mạng điện thoại từ dải tần để cải thiện chất lượng người ta mở rộng lên dải tần 200-700Hz, âm nhạc nên tới 20kHz 1.2 Mô hình cảm thụ âm Thính giác người có mô hình giống lọc băng thông với 25 lọc xếp chồng lên với tần số từ 0- 20 kHz Tai người phân biệt âm dải tần xảy lúc Mỗi dải gọi dải tần tới hạn Độ rộng dải tần tới hạn khoảng 100Hz tín hiệu số 500 Hz tăng tuyến tính với tín hiệu có tần số từ 500 Hz đến 5000 Hz Dựa vào đặc điểm tai người nghe mà người ta xây dựng nên mô hình cảm thụ âm Trong đặc điểm sử dụng ngưỡng nghe, cảm nhận người mức độ ồn, tượng che… 1.2.1 Độ ồn ngưỡng nghe tối thiểu Đơn vị thể độ lớn âm theo người cảm nhận thấy gọi độ ồn Giá trị phụ thuộc nhiều vào cảm giác người cường độ âm việc đo lường không dễ dàng Có nhiều yếu tố độ ồn mà ta cần ý đến khi xây dựng mã hóa âm Một yếu tố ngưỡng nghe tối thiểu: - Là mức mà âm nghe Thay đổi theo tần số âm Có tính thích nghi Một yếu tố khác cách mà chế cảm nhận âm người phát thay đổi độ ồn mà thông số khác phổ chu kì không đổi Các công thức liên quan: - Mức độ sức ép âm nguồn âm với cường độ I Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 - Độ lớn âm mà người cảm nhận H cường độ âm I (2.7) Tính chất quan trọng độ ồn phụ thuộc độ ồn vào tần số Để trì độ ồn tần số âm thay đổi ta phải sử dụng cường độ âm khác Chẳng hạn để trì độ ồn tín hiệu tần số thấp với tín hiệu khác có tần số cao tín hiệu tần số thấp cần có cường độ lớn nhiều Mức cường độ tương ứng mà tần số cần có để độ ồn giá trị cho trước gọi mức độ ồn cân Tất mức độ ồn cân cường độ tuyệt đối khác hợp thành đường độ ồn cân Ví dụ: mức 20 phon (1 phon đơn vị cường độ 1dB tần số 1kHz) ta thấy tín hiệu với tần số 50Hz cần phải có cường độ lớn 30dB so với tín hiệu 1kHz để tạo độ ồn Đường cong thấp hình gọi trường nghe tối thiểu tương ứng với ngưỡng nghe trung bình người Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Hình Mức sức ép âm cần thiết tần số 1.2.2 Hiện tượng che Một tính chất khác thính giác người mà phương pháp mã hóa âm hay lợi dụng tượng che Đây tượng âm tồn không gian (vẫn nằm dải tần mà người cảm nhận được) ta nghe thấy số lý định (biên độ nhỏ bị âm khác lấn át mất) Hình Hiện tượng che Theo thử nghiệm Fletcher ảnh hưởng tượng che vai trò thông số phổ, mức độ chu kì tín hiệu che âm với tần số cao dễ bị che âm với tần số thấp Điều nghĩa ta mã hóa tín hiệu âm hợp nhiều nguồn với tần số khác tượng che khiến ta có cảm giác tín hiệu tần số thấp tăng mức cường độ (do tín hiệu tần số cao dễ bị che phủ gây cho Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 người nghe cảm giác có cường độ thấp hơn) Nếu tín hiệu che tiếp nhận tai tín hiệu bị che tiếp nhận độc lập tai lại ta không cảm thấy cường độ âm tần số thấp tăng lên Phân loại tượng che: a) Hiện tượng che theo tần số Hiện tượng che âm phức tạp hợp nhiều âm đơn lẻ không hợp kết âm đơn lẻ mà kết tổng chênh lệch âm Phổ tín hiệu che đóng vai trò quan trọng trình che, tín hiệu đơn (tức phổ bao gồm đường) đóng vai trò tín hiệu che Các tín hiệu tần số thấp che phủ tín hiệu tần số cao tín hiệu tần số cao không thích hợp để đóng vai trò tín hiệu che cho tín hiệu tần số thấp Khi cường độ tín hiệu che tăng lên, tác dụng che phủ tăng phía tín hiệu có tần số cao mà không tăng phía tín hiệu có tần số thấp, tín hiệu che tần số thấp có khoảng che phủ cao nhiều so với tín hiệu có tần số cao ⇒ Các tín hiệu che tần số thấp ảnh hưởng lên vùng tần số rộng nhiều so với khả tín hiệu che có tần số cao Hình Hiện tượng che theo tần số Ngưỡng che phủ giai điệu tỉ lệ thuận với băng thông nhiếu che, nhiên tín hiệu che đạt đến độ rộng định tác dụng che phủ không tăng thêm Điều cho phép đặt giả thuyết lọc nghe có vùng găng xác định Fletcher định nghĩa vùng găng tỉ lệ Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 cường độ tín hiệu cường độ nhiễu, thể độ chênh lệch tính dB tín hiệu âm tín hiệu che b) Hiện tượng che miền thời gian Với tượng che mặt tần số hai âm xuất đồng thời tượng che mặt thời gian hai âm che bị che xuất thời điểm khác Hiện tượng che mặt thời gian chia làm loại: Hình Hiện tượng che miền thời gian Che thuận: Tín hiệu che xuất trước tín hiệu bị che Với tượng che thuận âm che có cường độ lớn xuất sau lúc tai ta nghe âm khác Nếu âm bị che xuất khoảng thời gian ta nghe thấy Đây dạng thường thấy tượng che mặt thời gian Hiện tượng xuất khoảng cách tín hiệu che bị che nhỏ 200 ms Che ngược: Tín hiệu che xuất sau tín hiệu bị che Đây tượng âm che che phần cuối âm trước phát Hiện tượng xảy ngược xảy mức độ tín hiệu che cao tương đối nhiều so với mức độ tín hiệu âm bị che phủ khoảng cách thời gian tín hiệu nhỏ 25ms Mặc dù tín hiệu âm tới tai trước não lại xủa lý tín hiệu che (có độ ồn cao) trước nên tượng che ngược xuất c) Hiện tượng che chênh lệch Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Hiện tượng xuất tín hiệu che đến bên tai tín hiệu lại đến tai lại Khi cường độ tín hiệu che tăng đến ngưỡng đó, che phủ tín hiệu âm bên tai lại Hiện tượng che chênh lệch có hiệu thấp nhiều so với tượng che bên tai Tuy nhiên trường hợp này, tín hiệu tần số cao lại có tác dụng che phủ lớn nhiều so với tín hiệu tần số thấp (tín hiệu che cần phải có biên độ lớn nhiều so với tín hiệu bị che) 10 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Phần Phương pháp nén Audio kết hợp mô hình cảm thụ âm 2.1 Quá trình nén Audio Hình Quá trình nén Audio Trong hình ta thấy bước trình nén.Tín hiệu đầu vào chia thành nhiều dải tần số khác nhau, trải rộng khắp phổ tần số Sau thực xong việc phân chia, ta xử lí dải tần số cách riêng rẽ, dựa vào đặc điểm trình cảm nhận âm quan thính giác người từ ảnh hưởng che dải tần số xung quanh, dải có ngưỡng nghe định Nếu dải có cường độ thấp ngưỡng nghe ta loại bỏ (vì dải bị che dải lân cận tai người cảm nhận nữa) Đối với dải có cường độ cao ngưỡng nghe trình mã hóa thực Tín hiệu có cường độ cao người cảm nhận rõ ràng, mã hóa nhiều bit so với tín hiệu có cường độ thấp Cuối cùng, mã hóa thực việc format dòng liệu, giảm thiểu kích thước liệu tổ chức chúng thành dòng bit liệu để giải mã hiểu Ngoài mã hóa bổ sung thêm số thông tin điều khiển để đảm bảo trình 11 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 nhận dạng liệu thực cách dễ dàng, thông tin bổ sung tần số lấy mẫu hay tần số bit… Ở bước cần thiết ta bổ sung thêm thông tin phát sửa lỗi • Khối Time/Frequency Mapping Khối có đầu vào tín hiệu gốc Được sử dụng để chia tín hiệu đầu vào thành subband Khối thường băng lọc với nhiều lọc với đáp ứng tần số khác • Khối Psychoacoustic Model Khối có đầu vào tín hiệu gốc tín hiệu sau chia thành subbands Khối sử dụng để tính toán hiệu ứng che tín hiệu đưa vào dựa vào mô hình cảm thụ âm người Từ tính masking level cho bang tần đưa tới khối lượng tử hóa để tiến hành lượng tử hóa • Khối lượng tử hóa mã hóa (Quantizer and Coding) Khối có đầu vào subband chia sau tín hiệu gốc qua băng lọc hiệu ứng che tính toán từ khối Psychoacoustic Model Nhiệm vụ khối tiến hành lượng tử hóa tín hiệu subbands cách phù hợp cho số bit sử dụng cho subband (tất nhiên cần đảm bảo chất lượng tín hiệu) sau mã hóa tín hiệu subband với phương pháp mã hóa huffman, mã hóa đại số … Ví dụ: Giả sử ta có tín hiệu mà 16 dải tần số có cường độ bảng đây: Với cường độ 60dB, tín hiệu dải tần thứ gây tượng che làm ngưỡng nghe dải chở thành 12dB ngưỡng nghe dải trở thành 15dB Vì cường độ tín hiệu dải 10dB nên ta không cần mã hóa dải mà bỏ qua Vì cường độ dải 35dB nên ta cần phải mã hóa dải 12 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Ta có sai số lượng tử với trường hợp lượng tử bước lượng tử Q gần xấp xỉ với phân bố khoảng ( với phương sai (Đây nhiễu gây lượng tử) Giả sử tín hiệu gốc có phân phối khoảng B Với R bits/mẫu ta có mức lượng tử sử dụng Mối liên hệ bước lượng tử Q R : Nhiễu lượng tử hóa giảm dB với việc ta sử dụng thêm bit cho việc lượng tử : Như ta biết subband có ngưỡng che riêng (masking threshold – masking level) Khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu subband với đủ số bit để trì khoảng cách nhiễu lượng tử ngưỡng che subband (giữ cho nhiễu lượng tử nhỏ ngưỡng che subband để thành phần nhiễu nghe thấy tai người) Như ta giảm số bit cần để lượng tử hóa mẫu tín hiệu subband tùy thuộc vào ngưỡng che subband tương ứng nhờ ta tăng hiệu nén liệu (việc giảm bit làm tăng nhiễu lượng tử lên dB ta cần giữ cho giá trị nhiễu nhỏ ngưỡng che) Bên cạnh đó, ta thấy giới hạn mã hóa tín hiệu âm nhiễu lượng tử hóa vượt ngưỡng che trở thành phần tín hiệu âm mà tai nghe Ta phải cố gắng giảm số bit sử dụng để lượng tử hóa giá trị mẫu cho giá trị nhiễu lượng tử xấp xỉ với giá trị ngưỡng che phải nhỏ giá trị ngưỡng che Sau tiến hành lượng tử hóa với số bit tương ứng cho subband ta tiến hành encode cho subband phương pháp mã hóa nêu • Khối Frame Packing 13 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Dữ liệu sau ta lượng tử mã hóa đưa vào khối để đóng gói thành frame chuyển hệ thống mạng 2.2 Mã hóa Audio HiFi dựa mô hình cảm thụ âm Nén audio kết hợp với mô hình cảm nhận âm phương pháp giảm lượng liệu cần thiết số hóa tín hiệu âm Điểm khác biệt phương pháp phương pháp nén thông thường khác âm bị cắt bỏ dễ dàng bị nhận ta phát riêng rẽ chúng lại nghe thấy ta phát toàn tín hiệu ban đầu Phương pháp ưu việt phương pháp nén khác ví dụ khác với ADPCM chỗ dựa vào chế cảm nhận âm tai người nhằm làm tăng tỉ số nén Cơ sở phương pháp nén số tín hiệu âm có khả gây kích thích mạnh lên não khiến não bỏ qua không xử lí tín hiệu âm khác.Nghĩa âm che lấp âm khác, ta lợi dụng điểm bỏ qua không mã hóa âm 14 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Phần Phân tách dải tần nén audio theo chuẩn MP3 3.1 Kỹ thuật phân tách tín hiệu nguồn thành tín hiệu dải tần Bao gồm lọc thông dải dùng để phân tích tín hiệu số audio số thành tín hiệu thành phần với tần số lấy mẫu nhỏ 32 lần Hình Sơ đồ phân tách tín hiệu thành dải tần Đầu vào hệ thống băng lọc mẫu tín hiệu âm PCM kí hiệu s(n) Tín hiệu PCM đưa qua băng lọc thông dải với 32 dải tần phụ thuộc vào tần số Nyquist tín hiệu PCM - Nếu lấy tần số lấy mẫu tín hiệu PCM 44,1 kHz tần số Nyquist 22,05 kHz - Mỗi dải tần có độ rộng xấp xỉ 22050 Hz/32=689 Hz subband có dải tần từ - 689 Hz, 689 -1378 Hz Tín hiệu có tần số lấy mẫu 44,1kHz có dải tần - 22,05 kHz băng lọc phân tách thành 32 tín hiệu dải tần Đầu hệ thống 32 tín hiệu dải tần theo sơ đồ có nghĩa tần số lấy mẫu dải tần giảm theo nhân tố 32 hay 15 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 chu kỳ lấy mẫu tăng 32 đầu hệ thống cung cấp 32 tín hiệu mà tín hiệu dải tần tín hiệu gốc Từ sơ đồ ta có: - 32 tín hiệu đưa vào đệm chuỗi gồm 512 phần tử x[n] cho - Tín hiệu đầu xác định theo công thức với - C[i] 512 hệ số lọc thông thấp 3.2 Quá trình MDCT Đối với audio theo chuẩn MP3(MPEG1 layer 3) tín hiệu sau qua băng lọc thông dải để phân tách thành 32 tín hiệu dải tần trình MDCT trước lượng tử hóa Hình Sơ đồ nén audio MP3 16 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Hình Sơ đồ mô băng lọc sử dụng khối Analysis Filterbanks Phương pháp nén audio theo chuẩn MP3 thực việc chia tín hiệu nguồn thành tín hiệu dải tần khác cách sử dụng băng lọc song song cách chứa 32 lọc phân tích (Khối Analysis Filterbanks) Tín hiệu nguồn là: tín hiệu audio PCM, chuỗi 1152 mẫu PCM lọc băng lọc song song cách chứa 32 subband, subband lại chứa 36 mẫu subband hình : Trong nén MP3 sau tín hiệu nguồn chia thành tín hiệu dải tần khác băng lọc ánh xạ vào MDCT, trước trình biến đổi MDCT xảy subband áp dụng loại cửa sổ, cửa sổ dài hay ngắn áp dụng tùy thuộc vào subband định chọn cửa sổ đc áp dụng phụ thuộc vào khối Masking Thresholds Với subband đc áp dụng cửa sổ dài sau qua MDCT sản sinh 18 dòng tần số Và subband 17 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 áp dụng cửa sổ ngắn sinh thêm nhóm tần số Công thức cho đầu khối MDCT xác định N = 36, k = 1…N/2 Trong h(n) hàm cửa sổ truyền đạt chọn loại cửa sổ dựa theo mô hình cảm thụ âm Do có chồng cửa sổ lên 50% nên kích thước cửa sổ 36 mẫu cho khối dài 12 mẫu cho khối ngắn ⇒ Như đầu khối MDCT có 18*32 = 576 tín hiệu Cửa sổ dài áp dụng nhằm tăng cường độ phân giải phổ đưa MDCT Cửa sổ ngắn: chứa cửa sổ ngắn gối lên có tác dụng tăng cường độ phân giải thời gian đưa MDCT Dưới hình ảnh cửa sổ dài cửa sổ ngắn: Hình 10 Cửa sổ dài cửa sổ ngắn 18 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Phần Xây dựng thuật toán thử nghiệm 4.1 Ý tưởng • Analisys subbands filter Lấy thông số tín hiệu PCM từ file (.wav), xử lý tín hiệu dựa theo khối analisys subband filter chia 1152 tín hiệu đầu vào thành 64 đầu ứng với 32 subband x kênh truyền, đầu gồm 18 tín hiệu Đầu vào thuật toán 1152 tín hiệu PCM chia thành kênh, kênh có 576 tín hiệu chia thành 18 phần cho 18 tín hiệu đầu Hình 11 Ý tưởng thuật toán Mỗi phần 32 tín hiệu PCM 32 tín hiệu qua xử lý chia cho 32 subband filter - 32 tín hiệu đưa vào đệm chuỗi gồm 512 phần tử x[n] cho - Tín hiệu đầu xác định theo công thức: 19 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 với C[i] 512 hệ số lọc thông thấp Như từ đầu vào x[2][576] (2 kênh, 576 tín hiệu PCM/kênh) đầu ta có bảng S[2][32][18] (2 kênh, 32 subband, 18 tín hiệu) • Khối MDCT Ở subband sau xử lý khối 1152PCM ta 36 tín hiệu đầu vào cho khối xử lý MDCT, từ 36 tín hiệu ta tạo cửa sổ (1 long window, start window, stop window, short window), sau biến đổi fourier 36 tín hiệu cửa sổ làm giảm số lượng mẫu 18 tín hiệu cho cửa sổ (việc chọn cửa sổ chương trình nén MP3 phụ thuộc vào mô hình cảm thụ âm thanh, thuật toán tính toán liệu cửa sổ có) Công thức cho đầu khối MDCT xác định N = 36, k = 1…N/2 Trong h(n) hàm cửa sổ truyền đạt chọn loại cửa sổ dựa theo mô hình cảm thụ âm Đầu khối MDCT có 18*32 = 576 tín hiệu Các liệu subband, kênh, cửa sổ liệu mẫu lưu vào file txt để đưa vào chương trình matlab 4.2 Kịch thử nghiệm Chương trình phân tách giải tần (viết ngôn ngữ C++): Đọc frame 1000 1001 , 2000 2001 file wav Track01.wav, xử lý theo thuật toán lưu liệu đầu subband cửa sổ khối MDCT • Vẽ đồ thị (Sử dụng công cụ Matlab) - Đồ thị khối chuyển đổi PCM - subband: frame 1000+2000 (kênh 1), subband – 15 – 31 tương ứng - Đồ thị khối chuyển đổi subband-window: subband khối 1000+1001 (kênh1) cửa sổ tương ứng - Đồ thị sau biến đổi fourier cửa sổ • - 20 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Sử dụng liệu tạo từ chương trình C++ để vẽ đồ thị 4.3 Kết Khối chuyển đổi PCM – subband frame 1000 frame 2000 Hình 12 Khối chuyển đổi PCM- subband frame 1000 Hình 13 Thực nghiệm - khối chuyển đổi PCM- subband frame 2000 Hình đồ thị 576 mẫu PCM bên subband – 15 – 31 dạng đồ thị dạng xung tín hiệu 21 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Khối chuyển đổi subband – window: Hình 14 Thực nghiệm – khối chuyển đổi subband - window Hai hình a,b đầu vào khối MDCT, hình (c) tương ứng với loại cửa sổ cửa sổ Xử lý MDCT giảm số mẫu: Hình 15 Thực nghiệm – xử lý MDCT giảm số mẫu 22 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 cửa sổ với 36 mẫu có từ phần sau qua biến đổi fourier thành liệu khác với số mẫu 18 23 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Phần Tổng kết 5.1 Kết tập lớn Ưu điểm: - Hoàn thành đầy đủ yêu cầu đề tài đặt - Thực nghiêm thành công thuật toán mã hóa Matlab • Nhược điểm: - Còn tồn rời rạc yêu cầu đề tài, chưa có liên kết với • 5.2 Phân chia công việc Trần Văn Tùng, Chu Văn Huy: - Tìm hiểu tín hiệu âm dải rộng giải thích mô hình cảm thụ âm - Tìm hiểu phương pháp nén audio kết hợp mô hình cảm thụ âm giải thích mã hóa audio HiFi dựa mô hình cảm thụ âm • Nguyễn Tú Chi, Chu Thế Anh: - Phân tích sơ đồ phân tách dải tần nén audio theo chuẩn MP3 - Xây dựng thuật toán mã xử lý theo sơ đồ phân tích cài đặt thử nghiệm • 5.3 Mức độ đóng góp hoàn thành công việc • • • • Trần Văn Tùng: 25% Nguyễn Tú Chi: 25% Chu Văn Huy: 25% Chu Thế Anh: 25% 24 Xử lý liệu đa phương tiện – IT4621 – Đề tài 17 Tài Liệu Tham Khảo - Audio coding – Yao Wang, Polytechnic University, Brooklyn, NY11201 Subband Coding – 2005 http://wiki.hydrogenaud.io/ - MPEG-1 Audio Layer Xử lý âm thanh, hình ảnh – PTIT Bài giảng Xử Lí Dữ Liệu Đa Phương Tiện - Nguyễn Thị Hoàng Lan 25 [...]... này ưu việt hơn những phương pháp nén khác ví dụ như nó khác với ADPCM ở chỗ nó có thể dựa vào cơ chế cảm nhận âm thanh của tai người nhằm làm tăng tỉ số nén Cơ sở của phương pháp nén này là một số tín hiệu âm thanh có khả năng gây kích thích mạnh lên não bộ và khiến não bộ bỏ qua không xử lí những tín hiệu âm thanh khác.Nghĩa là một âm thanh có thể che lấp những âm thanh khác, vì vậy ta có thể lợi... chia công việc Trần Văn Tùng, Chu Văn Huy: - Tìm hiểu tín hiệu âm thanh dải rộng và giải thích mô hình cảm thụ âm thanh - Tìm hiểu phương pháp nén audio kết hợp mô hình cảm thụ âm thanh và giải thích tại sao mã hóa audio HiFi dựa trên mô hình cảm thụ âm thanh • Nguyễn Tú Chi, Chu Thế Anh: - Phân tích sơ đồ phân tách các dải tần con trong nén audio theo chuẩn MP3 - Xây dựng thuật toán mã xử lý theo sơ... pháp nén Audio kết hợp mô hình cảm thụ âm thanh 2.1 Quá trình nén Audio Hình 6 Quá trình nén Audio Trong hình ở trên ta có thể thấy các bước chính của quá trình nén. Tín hiệu đầu vào được chia ra thành nhiều dải tần số khác nhau, trải rộng trên khắp phổ tần số Sau khi thực hiện xong việc phân chia, ta có thể xử lí từng dải tần số đó một cách riêng rẽ, dựa vào các đặc điểm của quá trình cảm nhận âm thanh. .. frame và chuyển đi trong hệ thống mạng 2.2 Mã hóa Audio HiFi dựa trên mô hình cảm thụ âm thanh Nén audio kết hợp với mô hình cảm nhận âm thanh là phương pháp giảm lượng dữ liệu cần thiết khi số hóa các tín hiệu âm thanh Điểm khác biệt giữa phương pháp này và các phương pháp nén thông thường khác đó là mặc dù những âm thanh bị cắt bỏ có thể dễ dàng bị nhận ra nếu ta phát nó riêng rẽ nhưng chúng lại không... Giả sử ta có một tín hiệu mà 16 dải tần số đầu tiên có cường độ như ở bảng dưới đây: Với cường độ là 60dB, tín hiệu dải tần thứ 8 sẽ gây ra hiện tượng che làm ngưỡng nghe ở dải 7 chở thành 12dB và ngưỡng nghe ở dải 9 trở thành 15dB Vì cường độ tín hiệu ở dải 7 chỉ là 10dB nên ta không cần mã hóa dải này mà bỏ qua nó luôn Vì cường độ dải 9 là 35dB nên ta cần phải mã hóa dải này 12 Xử lý dữ liệu đa phương... vào của hệ thống băng lọc là mẫu tín hiệu âm thanh PCM được kí hiệu là s(n) Tín hiệu PCM này được đưa qua băng lọc thông dải với 32 dải tần con phụ thuộc vào tần số Nyquist của tín hiệu PCM - Nếu lấy tần số lấy mẫu của tín hiệu PCM là 44,1 kHz thì tần số Nyquist sẽ là 22,05 kHz - Mỗi dải tần con sẽ có độ rộng xấp xỉ 22050 Hz/32=689 Hz như vậy subband đầu tiên có dải tần từ 0 - 689 Hz, tiếp theo là 689... không mã hóa những âm thanh đó 14 Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17 Phần 3 Phân tách các dải tần con trong nén audio theo chuẩn MP3 3.1 Kỹ thuật phân tách tín hiệu nguồn thành tín hiệu trên các dải tần con Bao gồm các bộ lọc thông dải dùng để phân tích tín hiệu số audio số thành tín hiệu thành phần với tần số lấy mẫu nhỏ hơn 32 lần Hình 7 Sơ đồ phân tách tín hiệu thành các dải tần con Đầu... nhận âm thanh của cơ quan thính giác của con người và từ ảnh hưởng che của các dải tần số xung quanh, từng dải sẽ có một ngưỡng nghe mới nhất định Nếu như dải nào có cường độ thấp hơn ngưỡng nghe đó thì ta có thể loại bỏ nó đi (vì dải này đã bị che bởi các dải lân cận và tai người không thể cảm nhận được nó nữa) Đối với những dải có cường độ cao hơn ngưỡng nghe mới thì quá trình mã hóa sẽ được thực hiện... số lấy mẫu là 44,1kHz có dải tần 0 - 22,05 kHz sẽ được băng lọc phân tách thành 32 tín hiệu dải tần con Đầu ra của hệ thống là 32 tín hiệu dải tần con theo sơ đồ có nghĩa là tần số lấy mẫu mỗi dải tần giảm theo một nhân tố 32 hay 15 Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17 chu kỳ lấy mẫu tăng 32 như vậy đầu ra của hệ thống cung cấp 32 tín hiệu mà mỗi tín hiệu là một dải tần con của tín hiệu... khi đi qua băng lọc thông dải để phân tách thành 32 tín hiệu dải tần con thì còn 1 quá trình MDCT trước khi lượng tử hóa Hình 8 Sơ đồ nén audio MP3 16 Xử lý dữ liệu đa phương tiện – IT4621 – Đề tài 17 Hình 9 Sơ đồ mô phỏng băng lọc được sử dụng trong khối Analysis Filterbanks Phương pháp nén audio theo chuẩn MP3 thực hiện việc chia tín hiệu nguồn thành các tín hiệu trên các dải tần con khác nhau bằng

Ngày đăng: 08/06/2016, 23:56

Từ khóa liên quan

Mục lục

  • Mục lục

  • Danh mục hình vẽ

  • Lời nói đầu

  • Phần 1. Tín hiệu âm thanh dải rộng

    • 1.1. Đặc điểm âm thanh dải rộng

    • 1.2. Mô hình cảm thụ âm thanh

      • 1.2.1. Độ ồn và ngưỡng nghe tối thiểu

      • 1.2.2. Hiện tượng che

  • Phần 2. Phương pháp nén Audio kết hợp mô hình cảm thụ âm thanh

    • 2.1. Quá trình nén Audio

    • 2.2. Mã hóa Audio HiFi dựa trên mô hình cảm thụ âm thanh.

  • Phần 3. Phân tách các dải tần con trong nén audio theo chuẩn MP3

    • 3.1. Kỹ thuật phân tách tín hiệu nguồn thành tín hiệu trên các dải tần con

    • 3.2. Quá trình MDCT

  • Phần 4. Xây dựng thuật toán và thử nghiệm

    • 4.1. Ý tưởng

    • 4.2. Kịch bản thử nghiệm

    • 4.3. Kết quả

  • Phần 5. Tổng kết

    • 5.1. Kết quả bài tập lớn.

    • 5.2. Phân chia công việc.

    • 5.3. Mức độ đóng góp và hoàn thành công việc.

  • Tài Liệu Tham Khảo

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan