Âm thanh số Chuẩn MPEG 1 Layer III Phân tích và ứng dụng

73 1.1K 3
Âm thanh số Chuẩn MPEG 1 Layer III Phân tích và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân tích và ứng dụng chuẩn MP3 MỤC LỤC Mục lục…… 1 Lời mở đầu 5 Các thuật ngữ thường dùng 6 PHẦN 1 : LÝ THUYẾT 7 CHƯƠNG I: CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH 7 I. Các đặc tính cơ bản của âm thanh 7 1. Tần số sóng âm 7 2. Biên độ sóng âm 8 II. Khái quát về âm thanh số 9 1. Lấy mẫu rời rạc thời gian, tín hiệu audio tương tự 9 2. Lượng tử hoá và các mẫu rời rạc thời gian 9 3. Tỉ số tín hiệu trên sai số (Signal-to-error ratio) 10 CHƯƠNG II: GIỚI THIỆU VỀ MPEG 11 I. GIỚI THIỆU 11 1. MPEG là gì? 11 2. So sánh các chuẩn MPEG: 11 3. Âm thanh MPEG 12 4. Hoạt động: 13 II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG 14 1. Lược đồ mã hóa Perceptual Subband 14 2. Giải thích về hiệu qủa che (masking effect) 14 a. Nén âm thanh MPEG 15 b. Hiệu quả che 16 3. Các lớp âm thanh MPEG 17 a. Lớp I (Layer I) 18 b. Lớp II (Layer II) 18 c. Lớp III (Layer III) 19 III. CÁC THÔNG SỐ DÙNG TRONG MPEG 20 1. Mode 20 2. Sampling Frequency (tốc độ lấy mẫu) 21 3. Bit Rate 21 CHƯƠNG III: MÃ HÓA THỤ CẢM 23 Trang 1 Phân tích và ứng dụng chuẩn MP3 I. CƠ SỞ ÂM TÂM LÝ 23 1. Ngưỡng nghe tuyệt đối (absolute threshold of hearing) 23 2. Các băng tới hạn(critical bands) 23 3. Hiện tượng che (masking) 24 II. MÃ HÓA BĂNG PHỤ 26 III. MÃ HOÁ BIẾN ĐỔI 26 IV. MÃ HOÁ MP3 ( MP3 ENCODING) 27 1. Phân tích phép biến đổi Fourier nhanh (FFT analysis) 27 2. Ngưỡng che(Masking Threshold) 28 3. Băng lọc phân tích (Analysis Filterbank) 28 4. MDCT với cửa sổ động 28 5. Chia tỉ lệ và lượng tử hóa (Scaling và Quantization) 29 6. Mã hóa Huffman và sinh ra dòng bit (Huffman Coding and Bitstream Generation) 30 7. Thông tin (Side Information) 32 CHƯƠNG IV: GIẢI MÃ MPEG1 LỚP 3 33 I. GIẢI MÃ MP3 (MP3 DECODING) 33 1. Đònh dạng khung (Frame Format) 33 a. Tiêu đề 34 b. Thông tin (side infomation) 38 c. Dữ liệu chính (main data) 39 d. Dữ liệu phụ (Ancillary Data) 40 2. Giải mã Huffman 40 3. Lượng tử hoá lại (requantization) 41 4. Sắp xếp lại thứ tự ( reordering) 42 5. Giải mã stereo 42 a.Giải mã Stereo MS 42 b.Giải mã cường độ stereo 43 6. Giảm biệt danh (Alias Redution) 43 7. IMDCT 44 8. Khối lọc đa pha tổng hợp ( Synthesis Polyphase Filterbank) .46 II. NHÌN CHUNG VỀ HIỆU QUẢ CÁC GIẢI THUẬT GIẢI MÃ MP3 46 1 . Giải mã Huffman 46 2 . Bộ lượng tử hóa lại (Requantizer) 48 3. Phép biến đổi cosin rời rạc cải tiến đảo ngược (IMDCT) 51 4. Băng lọc đa pha ( Polyphase Filterbank) 53 Trang 2 Phân tích và ứng dụng chuẩn MP3 PHẦN 2: XÂY DỰNG PHẦN MỀM 57 CHƯƠNG I:GIAO DIỆN VÀ THUYẾT MINH CHƯƠNG TRÌNH 57 1. Thanh SkinProgress 58 2. Nút Minimize 58 3. Nút Colse 58 4. Timer 58 5. Tổng thời gian 58 6 .Nút Open 58 7 .Nút Play 58 8. Nút Pause 59 9. Nút Stop 59 10. Thanh tiến trình 59 11. Nút Volume 59 CHƯƠNG II : LƯU ĐỒ GIẢI THUẬT VÀ CẤU TRÚC DỮ LIỆU 60 I. SƠ ĐỒ KHỐI 60 II. LƯU ĐỒ GIẢI THUẬT 61 III. CẤU TRÚC DỮ LIỆU 63 1. File Agrs.h 63 a. Lớp MPArgs 63 b. Cấu trúc MPInfo 66 c. Cấu trúc frame 66 2. File Common.h 67 a. Cấu trúc ID3TagStruct 67 b. Cấu trúc gr_info_s 67 c. Cấu trúc bandInfoStruct 68 d. Cấu trúc III_sideinfo 68 3. File Elsound.h 69 a. Cấu trúc esInputMode 69 b. Cấu trúc esOutputMode 69 c. Cấu trúc esPlayerMode 69 d. Cấu trúc esPlayerError 69 4. File Huffman.h 70 IV. ĐỊNH NGHĨA 70 1. Các đònh nghóa dùng trong tập tin <Common.h> 70 2. Các đònh nghóa dùng trong Player.h 71 Trang 3 Phân tích và ứng dụng chuẩn MP3 3. Các đònh nghóa dùng trong Resource.h 71 PHẦN 3 : TỔNG KẾT 72 Tài liệu tham khảo 73 Trang 4 Phân tích và ứng dụng chuẩn MP3 LỜI MỞ ĐẦU Trong thời đại bùng nổ của công nghệ thông tin, việc truyền tải dữ liệu là nhu cầu cần thiết. Đặc biệt là việc gởi dữ liệu theo đường Internet, vì chất lượng đường truyền thấp nên cần phải nén dữ liệu nhỏ gọn để thuận lợi cho việc upload hay download. Đối với lónh vực âm nhạc cũng vậy, nhu cầu gởi tặng bài hát cho nhau , nghe nhạc trực tuyến trên mạng rất phổ biến vì vậy việc nén file nhạc vô cùng cần thiết để tiết kiệm đường truyền, thời gian và tiền bạc. Để giải quyết vấn đề này MPEG có rất nhiều chuẩn để nén như MPEG 1, MPEG 2,… dùng để nén file theo nhiều cách khác nhau. Một trong những chuẩn phổ biến là chuẩn MPEG 1, trong khuôn khổ đề tài này chúng em chỉ tìm hiểu về chuẩn MPEG 1 Layer 3 hay còn gọi là mp3 và minh hoạ bằng một chương trình giải mã file mp3, sau đó phát ra loa. Trang 5 Phân tích và ứng dụng chuẩn MP3 CÁC THUẬT NGỮ THƯỜNG DÙNG MDCT Modified Discrete Cosine Transform. IMDCT Inverse Modified Discrete Cosine Transform. Sample rate Tốc độ lấy mẫu. FFT Fast Fourier Transform. DFT Discrete Fourier Transform. Signal-to-noise (S/N) Tỉ số giữa tín hiệu và nhiễu. CRC Cyclic Redundancy Check. ADC Analog to Digital Converter. CODEC CODer/DECoder. CPU Central Processing Unit. DCT Discrete Cosine Transform . DSP Digital Signal Processor. FS Sampling Frequency, e.g. 44100 Hz for CD audio. FIFO First in, first out. FLOP Floating-point operation. FPU Floating point unit. Hardware math acceleration. inside a CPU. ISO International Standards Organisation. MFLOPS Million floating-point operations per second. MPEG Motion Picture Expert Group. Working group within ISO. PCM Pulse Code Modulation. Output from an ADC. Trang 6 Phân tích và ứng dụng chuẩn MP3 PHẦN I : LÝ THUYẾT CHƯƠNG I : CÁC ĐẶC ĐIỂM CƠ BẢN CỦA ÂM THANH Âm thanh được tạo bởi một thực thể dao động. Không có dao động thì không có âm thanh. Thực thể dao động thì được gọi là nguồn âm. Nguồn âm làm cho các phần tử của môi trường bên cạnh nó dao động. Các phần tử này lại làm cho các phần tử kế nó dao động. Bằng cách này các phần tử của môi trường truyền đến tai của người nghe. Khi chúng ta cảm nhận một âm thanh nào đó, các phần tử dao động làm cho màng nhó của chúng ta cũng dao động. Các dao động này được tiếp nhận và phân tích bởi bộ não của chúng ta. Âm thanh có thể truyền qua môi trường không khí, nước hoặc các cấu trúc xây dựng… âm thanh truyền đi dưới dạng sóng âm, sự truyền âm thanh thực chất là sự truyền năng lượng từ nơi này đến nơi khác. I. CÁC ĐẶC TÍNH CƠ BẢN CỦA ÂM THANH Bất kỳ âm thanh đơn giản nào chẳng hạn như một nốt nhạc đều có thể hoàn toàn được mô tả bởi 3 đặc tính cảm nhận sau: cao độ (pitch ), cường độ (intensity), âm sắc (timbre). Những đặc tính này lần lượt tương ứng với các đặc tính vật lý sau của âm thanh: tần số (frequency), biên độ (amplitude), sự cấu thành của các hài (harmonic constitution). 1. Tần số sóng âm Âm thanh được truyền đi dưới dạng sóng âm. Khi sóng âm truyền đi sự truyền dao động của các phần tử dao động theo hướng truyền sóng. Sự dòch chuyển của các phần tử của môi trường tạo ra các vùng có mật độ phần tử cao thấp khác nhau. Các vùng có mật độ phần tử cao được gọi là các vùng đậm đặc (compression). Các vùng có mật độ phần tử thấp được gọi là vùng loãng (rarefaction). Trang 7 Phân tích và ứng dụng chuẩn MP3 Các vùng loãng và vùng đậm đặc lan truyền theo hướng truyền của sóng. Các phần tử dao động không lan truyền theo hứơng truyền sóng, chúng dao động xung quanh vò trí cân bằng của chúng. Mỗi một dao động hoàn chỉnh được gọi là chu kỳ dao động (từ điểm bắt đầu của nó, tới một khoảng cách tối đa theo một hứơng, sau đó trở về vò trí ban đầu, tới một khoảng cách theo hướng ngược lại, và cuối cùng là trở về vò trí ban đầu ). Số chu kỳ dao động được thực hiện trong một giây được gọi là tần số dao động, đây cũng chính là tần số của âm thanh. Một trong những khác biệt chính giữa hai âm thanh là sự khác biệt về cao độ, và cũng chính tần số của âm thanh quyết đònh cao độ của nó . Tần số được tính bằng Hertz (Hz), KiloHertz (kHz,1kHz=1000Hz)…Một người bình thường có thể nghe được các nguồn âm có dải tần số từ 20Hz đến 20kHz. 2. Biên độ sóng âm Biên độ sóng âm chính là khoảng cách dòch chuyển tối đa của các phần tử dao động. Tương quan giữa biên độ sóng âm với các vùng loãng và vùng đậm đặc . Biên độ của sóng âm thể hiện mức độ dao động của các phần tử của môi trường tạo nên sóng âm. Biên độ sóng âm càng lớn thì các phần tử dao động có năng lượng càng lớn và âm thanh sẽ có cường độ càng lớn. Cường độ âm thanh tỉ lệ nghòch với khoảng cách tính từ nguồn âm. Càng xa nguồn âm cường độ âm thanh càng giảm, kết quả là tai ta nghe càng khó . Cường độ âm được biểu diễn bởi mức áp suất âm thanh SPL (Sound Pressure Level). Mức SPL của một nguồn âm nào đó được tính như sau: SPL(dB)= 20 log(P/P 0 ) Trong đó P : áp suất của nguồn âm (N/m 2 ) P 0 : áp suất chuẩn qui chiếu, P o =2* 10 -5 N/m 2 Trang 8 Phân tích và ứng dụng chuẩn MP3 m thanh SPL(dB) Ngưỡng im lặng 0 Tiếng thì thầm 10 Phòng thu âm 20 Nói bình thường 60 Tiếng la hét 80 Tiếng xe tải 90 Nhạc rock 100 Ngưỡng cảm nhận 120 Ngưỡng đau 140 Một số mức SPL của vài dạng âm thanh. II. KHÁI QUÁT VỀ ÂM THANH SỐ 1. Lấy mẫu rời rạc thời gian, tín hiệu Audio tương tự Tín hiệu audio tương tự thay đổi liên tục theo thời gian, nghóa là biên bộ của tín hiệu thay đổi liên tục theo thời gian. Lấy mẫu tín hiệu audio tương tự là xác đònh biên độ của tín hiệu ở những thời điểm theo những khoảng thời gian cách điều nhau vì vậy các mẫu là các xung có biên độ nhất đònh. Khoảng thời gian cách đều này gọi là chu kỳ lấy mẫu T s , tần số lấy mẫu (tốc độ lấy mẫu ) f s = (1 / T s ). 2. Lượng tử hoá và các mẫu rời rạc thời gian Lượng tử hoá là biểu diễn biên độ của các xung tín hiệu thành 1 giá trò số sử dụng hệ thống số nhò phân. Người ta dùng một từ ( word) có độ dài n bit để biểu diễn các giá trò đó. Số bits n được chọn tùy thuộc vào giá trò của các mẫu và n được gọi là độ phân giải lượng tử hoá( quantization resolution). Giá trò của 1 word xác đònh 1 mức lïng tử hoá (quantization level) và độ chênh lệch giữa 2 mức liên tiếp gọi là khoảng lượng tử hoá (quantization interval). Ví dụ: ta sử dụng n=8 bit để biểu diễn các giá trò điện thế liên tục từ 0 -> 25,5 V như sau: V1=0 thì word= 0000 0000 ( mức 0) V2=0,1 thì word= 0000 0001 ( mức 1) Trang 9 Phân tích và ứng dụng chuẩn MP3 V3 = 0,2 thì word= 0000 0010 ( mức 2) ……………………………………………………………………. V255= 25,5 thì word =1111 1111 (mức 255) Giả sử ta có V a =0,15 V thì word ở mức 1 (0000 0001 ) hoặc mức 2 (0000 0010) tuỳ thuộc vào sự lựa chọn của chúng ta. Nhưng nếu V a =0.12 thì nó thuộc mức 1 vì gần giá trò ở mức 1 hơn. Các giá trò lượng tử hoá chỉ là xấp xỉ gần bằng giá trò thực tế của các mẫu. Độ sai biệt giữa giá trò lượng tử hoá và giá trò thực được gọi là sai số lượng tử hoá ( quantization error). 3. Tỉ số tín hiệu trên sai số (Signal-to-error ratio) Để đánh giá chất lượng của hệ thống lượng tử hóa, một thông số quan trọng được đònh nghóa là tỉ số của biên độ tín hiệu cực đại trên sai số lượng tử hóa cực đại, tỉ số này được gọi là tỉ số tỉ hiệu trên sai số (S/E). Trang 10 [...]... header) 1 - không kiểm tra (15 ,12 ) Chỉ số tốc độ bit bits V1,L1 V1,L2 V1,L3 V2,L1 V2, L2 & L3 0000 free Free Free free Free 00 01 32 32 32 32 8 0 010 64 48 40 48 16 0 011 96 56 48 56 24 010 0 12 8 64 56 64 32 010 1 16 0 80 64 80 40 011 0 19 2 96 80 96 48 011 1 224 11 2 96 11 2 56 10 00 256 12 8 11 2 12 8 64 10 01 288 16 0 12 8 14 4 80 10 10 320 19 2 16 0 16 0 96 10 11 352 224 19 2 17 6 11 2 11 00 384 256 224 19 2 12 8 11 01 416 320... (bits) A 11 ( 31- 21) Đồng bộ khung( tất cả các bit đều được đặt ở B 2 trạng thái 1) (20 ,19 ) MPEG Audio version ID 00 - MPEG Version 2.5 01 – Bit dự trữ Trang 35 Phân tích và ứng dụng chuẩn MP3 10 - MPEG Version 2 (ISO/IEC 13 818 -3) 11 - MPEG Version 1 (ISO/IEC 11 172-3) C 2 D 1 E 4 (18 ,17 ) Phần mô tả Layer 00 – dự trữ 01 - Layer III 10 - Layer II 11 - Layer I (16 ) Bit bảo vệ 0 – kiểm tra lỗi CRC (16 bit CRC... 3400 4000 4800 5800 7000 8500 10 500 13 500 18 755 10 0 10 0 10 0 11 0 12 0 14 0 15 0 16 0 19 0 210 240 280 320 380 450 550 700 900 11 00 13 00 18 00 2500 3500 6550 10 0 200 300 400 510 630 770 920 10 80 12 70 14 70 17 20 2000 2320 2700 315 0 3700 4400 5300 6400 7700 9500 12 000 15 500 10 0 200 300 400 510 630 770 920 10 80 12 70 14 70 17 20 2000 2320 2700 315 0 3700 4400 5300 6400 7700 9500 12 000 15 500 22050 Bảng các băng tới... che đồng thời và không đồng thời Các hiện tượng này được sử Trang 23 Phân tích và ứng dụng chuẩn MP3 dụng bởi các bộ mã hóa để xác đònh các thành phần dư thừa nhằm loại bỏ, không mã hóa chúng Băng tới hạn Tần số trung tâm Độ rộng (Hz) Tần số dưới (Hz) Tần số trên (Hz) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 50 15 0 250 350 450 570 700 840 10 00 11 70 13 70 16 00 18 50 215 0 2500 2900.. .Phân tích và ứng dụng chuẩn MP3 CHƯƠNG II: GIỚI THIỆU VỀ MPEG I GIỚI THIỆU 1 MPEG là gì? MPEG, viết tắt của cụm từ ‘ Moving Picture Experts Group’, là 1 nhóm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG- 1, MPEG- 2 và MPEG- 4 Chuẩn MPEG- 3 được kết hợp vào MPEG- 2 và không... VHS, Karaoke Trang 11 Phân tích và ứng dụng chuẩn MP3 MPEG- 2 đònh nghóa cho một tiêu chuẩn kỹ thuật truyền hình số Chuẩn MPEG- 2 khắc phục một vài nhược điểm của chuẩn MPEG- 1 Ví dụ, MPEG- 2 có thể tạo hình ảnh lớn gấp 4 lần MPEG- 1 với độ nét cao hơn và rõ hơn (720 x 480 và 12 80 x 720) Các đặc tính của MPEG- 2 bao gồm hình ảnh chất lượng cao và âm thanh nổi MPEG- 3 đònh nghóa một tiêu chuẩn cho High Difinition... ta ghi âm một giọng nói b Hiệu quả che Giả sử có một âm mạnh với tần số 10 00Hz, và một âm kèm theo có tần số 11 00Hz nhưng với cường độ âm nhỏ hơn 18 dB Ta sẽ không thể nghe thấy âm này vì nó đã bò che hoàn toàn bởi âm chủ 10 00Hz Nói một cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bò che Nếu có một âm thanh khác tần số 2000Hz cũng có mức to thấp hơn âm 10 00Hz là 18 dB thì ta sẽ nghe được âm này... cung cấp bởi chuẩn âm thanh MPEG : • MPEG 1: 32 kHz, 44 .1 kHz and 48 kHz - Layer I : 32, 64, 96, 12 8, 16 0, 19 2, 224, 256, 288, 320, 352, 384, 416 , 448 kbps Những tốc độ này là có thể ở chế độ Mono hay stereo - Layer II : 32, 48, 56, 64, 80, 96, 11 2, 12 8, 16 0, 19 2, 224, 256, 320, 384 kbps 32, 48, 56, 80 kbps chỉ có thể ở chế độ Mono; •64, 96, 11 2, 12 8, 16 0, 19 2 kbps có thể ở cả hai chế độ Mono và Stereo;•224,... II CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG 1 Lược đồ mã hóa Perceptual Subband Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và xác đònh ra đường cong che (masking curve), đó là mức ngưỡng mà những âm thanh ở dưới nó không thể nghe được bởi hệ thống nghe của con người Trang 14 Phân tích và ứng dụng chuẩn MP3 Tín hiệu vào được chia thành 1 số dãi tần số, gọi là “subband” Mỗi tín... WG 11: Work Group 11 (moving picture with audio) (Nhóm làm việc 11 ) 2 So sánh các chuẩn MPEG MPEG -1 đònh nghóa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình ảnh động và âm thanh trên các thiết bò lưu trữ Tiêu chuẩn này đònh nghóa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là 352 x 240 Chuẩn MPEG- 1 được dùng điển . hiệu trên sai số (Signal-to-error ratio) 10 CHƯƠNG II: GIỚI THIỆU VỀ MPEG 11 I. GIỚI THIỆU 11 1. MPEG là gì? 11 2. So sánh các chuẩn MPEG: 11 3. Âm thanh MPEG 12 4. Hoạt động: 13 II. CÁC KHÁI. VỀ MPEG 14 1. Lược đồ mã hóa Perceptual Subband 14 2. Giải thích về hiệu qủa che (masking effect) 14 a. Nén âm thanh MPEG 15 b. Hiệu quả che 16 3. Các lớp âm thanh MPEG 17 a. Lớp I (Layer I) 18 b (Layer II) 18 c. Lớp III (Layer III) 19 III. CÁC THÔNG SỐ DÙNG TRONG MPEG 20 1. Mode 20 2. Sampling Frequency (tốc độ lấy mẫu) 21 3. Bit Rate 21 CHƯƠNG III: MÃ HÓA THỤ CẢM 23 Trang 1 Phân tích

Ngày đăng: 19/07/2014, 21:25

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan