Bài giảng xử lý âm thanh và hình ảnh-p4 pdf

25 698 3
Bài giảng xử lý âm thanh và hình ảnh-p4 pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 121 Chương 4: Các chuẩn mã hóa âm thanh và nén ảnh trong truyền thông đa phương tiện 4.1. Các chuẩn mã hóa tín hiệu thoại Phần này tập trung chủ yếu vào giới thiệu vắn tắt sự hình thành và phát triển các tiêu chuẩn của mã hoá. Một kỹ thuật được xem như là phổ biến khi và chỉ khi nó là một phần của tiêu chuẩn. Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông tin liên lạc và cho phép những người quan tâm có thể sử dụng và phát triển sản phẩm và các dịch vụ dựa trên các cùng một tham chiếu. Một tiêu chuẩn được phát triển bởi một đội ngũ các chuyên gia thông qua một quãng thời gian dài, với việc thử nghiệm rộng rãi và đánh giá lặp đi lăp lại nhiều lần để đảm bảo rằng một tập hợp các yêu cầu được đáp ứng. Chỉ có các tổ chức với nguồn lực lớn mới có thể tổ chức và thực hiện được những công việc khó khăn, phức tạp này. Thời gian cần thiết để hoàn thành một tiêu chuẩn kể từ khi bắt đầu cho đến kết thúc khoảng 4.5 năm. Điều này không có nghĩa một tiêu chuẩn không có lỗi hoặc không thể cải tiến thêm được nữa. Trên thực tế một tiêu chuẩn mới thường xuất hiện như là sự cải tiến của các chuẩn đã có trước đó và phù hợp với các ứng dụng trong tương lai. Một số các tổ chức chuẩn hóa liên quan đến mã hóa tín hiệu thoại được giới thiệu sau đây: • Liên minh viễn thông quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU (ITU-T) chịu trách nhiệm xây dựng các chuẩn liên quan đến mã hóa thoại cho các ứng dụng trong mạng điện thoại bao gồm cả mạng không dây và cố định. • Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa thoại cho các ứng dụng đặc biệt. TIA là thành phần của Viện tiêu chuẩn quốc gia Hoa Kỳ (ANSI). TIA thành công trong việc phát triển các tiêu chuẩn cho điện thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia theo thời gian – TDMA và đa truy nhập phân chia theo mã - CDMA. • Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước Châu Âu và các công ty và là một tổ chức chính của các nhà sản xuất thiết bị viễn thông. ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới. Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 122 • Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa thoại, và được biết đến như là những tiêu chuẩn của Liên hợp chủng quốc Hoa Kỳ, được ứng dụng chủ yếu trong quân sự. • Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR): Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR. Bảng 4.1 dưới đây mô tả vắn tắt các chuẩn mã hóa thoại: Các chuẩn Năm Thuật toán Tốc độ Ứng dụng MOS Delay G.711 1972 µ&A-law, PCM 64 kbps Mạng truyền dẫn 4.3 0.125 ms G.721 1984, 87 ADPCM 32 kbps Cáp biển 4.0 0.125 ms G.722 1988 Subband ADPCM 48-64 kbps ISDN, Thoại hội nghị 4.0 0. 2 ms G.726,727 1988 VBR-ADPCM 16-24-32-40 kbps PCS/cordless 2,3.2,4, 4.2 0.125 ms G.728 1992 LD-CELP 16 kbps Mạng truyền dẫn 4.2 0.625 ms G.729 1995 CS-ACELP 8 kbps Mạng di động 2G 4.0 15 ms G.723.1 1995 MP_MLQ ACELP 5.27/6.3 kbps Thoại thấy hình (Videophone) H.323, H.324 3.5-3.7 37.5 ms GSM-FR 1989 LTP_RPE 13 kbps Mạng di động Châu Âu 3.7 20 ms GSM-EFR 1995 ACELP 13 kbps Mạng di động Châu Âu 4.0 20 ms IS-54 1989 VSELP 8 kbps Mạng di động Bắc Mỹ- TDMA 3.5 20 ms IS-96 1993 QCELP 1.2,2.4,4.8,9.6 kbps Mạng di động Bắc Mỹ- CDMA 3.3 20 ms GSM_HR 1994 VSELP 5.6 kbps Mạng di động Châu Âu 3.5 24.5 ms DoD_FS1015 1996 LPC-10 2.4 kbps Quân sự ≤3.0 25 ms DoD_FS1016 1990 CELP 4.8 kbps Quân sự 3.0 45ms G.722.2 2001 AMR_WB ACELP 6.6-23.85kbps VoIP, Thoại hội nghị, Mạng di động 3G 3.7-4.4 15-25 ms Bảng 4.1: Các chuẩn mã hoá thoại Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 123 4.2. Các chuẩn mã hóa âm thanh 4.2.1. Các chuẩn mã hóa âm thanh ISO/MPEG Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén âm thanh và hình ảnh. Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanh và hình ảnh cho các phương tiện lưu trữ số bao gồm CD-ROM, DAT, đĩa quang từ MO và ổ cứng máy tính. MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC. Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4…MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC JTC1 SC29 WG11 ISO : International Organization for Standardization IEC : International Electro-technical Commission JTC1 : Joint Technical Committee 1 SC29 : Sub-committee 29 WG11: Work Group 11 (moving picture with audio). MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo mức độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít) của bộ mã hóa. Ba bộ mã hóa này tương thích với nhau theo cách có thứ tự, có nghĩa là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tất cả các Layer thấp hơn N. Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã. Tất cả các Layer sử dụng cùng cấu trúc. Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận thức hay chuyển đổi mã hóa băng phụ theo nhận thức. Bộ mã hóa phân tích thành phần phổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận để xác định mức nhiễu có thể nghe thấy. Trong giai đoạn lượng tử hóa và mã hóa, bộ mã hóa sẽ cố gắng để chỉ rõ số bít dữ liệu cần để đáp ứng cả yêu cầu dòng bít và hiện tượng che lấp. Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ các thành phần phổ được mã hóa. Tất cả các Layer: • Dùng chung cấu trúc bộ lọc dải- filerband. • Dùng chung thông tin của phần đầu- header information trong dòng dữ liệu • Đều có khả năng nhạy đối với lỗi bít tương tự nhau, sử dụng cùng cấu trúc dòng bít với các phần nhạy với lỗi bite (“header”, “bit location”, “scale factor”, “side information”) và các phần ít nhạy hơn (dữ liệu về các thành phần phổ “data of spectral components”). Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 124 • Hỗ trợ khả năng chèn các thông tin về chương trình vào dòng dữ liệu âm thanh. • Có thể sử dụng tần số lấy mẫu là 32,44.1 hoặc 48 kHz. • Cho phép hoạt động với các dòng bít giống nhau Danh sách các chuẩn MPEG: - MPEG-1(IS 11172,10,92): Mã hóa các ảnh chuyển động và âm thanh kèm theo các phương tiện lưu trữ số với tốc độ đến khoảng 1.5 Mbit/s. • Ba phần đầu được chuẩn hóa từ năm 1992. • IS-11172-1 (“Hệ thống”) mô tả đồng bộ và ghép kênh của các tín hiệu video và âm thanh • IS-11172-2 (“Video”) mô tả nén các tín hiệu video, chú trọng vào các tín hiệu progressive scan video, chủ yếu cho các ứng dụng “Video on CD” • IS-11172-3 (“Âm thanh”) mô tả hệ mã hóa âm thanh chung, với các thành viên tương thích theo kiểu cấu trúc thứ tự (Layer I, II, III) • IS-11172-4 mô tả các quá trình xác định các thông số của dòng dữ liệu được mã hóa và quá trình dải mã và cho sự thích ứng với yêu cầu thử nghiệm theo yêu cầu đặt ra trong các phần khác • DTR-11172-5 báo cáo kỹ thuật về phần mềm ứng dụng của ba phần MPEG -1. -MPEG-2 (IS 13818, 11-97): đặc điểm chung của mã hóa hình ảnh chuyển động và âm thanh theo, chú trọng đến chuẩn video chung, các phần âm thanh mở rộng. -MPEG-2 AAC: nén một tín hiệu âm thanh kênh 5.1 vào trong một tốc độ tối thiểu là 320 Kbps. Định dạng 5.1 đề cập đến năm kênh tín hiệu âm thanh cùng với tác dụng của một kênh tăng cường tần số thấp có băng thông giảm. -MPEG-4 (CD – 14496, 11-97): mã hóa các đối tượng nghe nhìn, chú trọng đến các nội dung linh hoạt và mở rộng- là cơ sở cho các chương trình nghe nhìn tương hỗ. 4.2.2. Doby AC-3 Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng trong nhiều bộ phim ở rạp hát, ở nhà, và trong truyền hình chất lượng cao HDTV ở nước Mỹ. AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luồng bit 384 Kbps. Giai đoạn đầu tiên của bộ giải mã hoá AC-3 là lấy 512 mẫu đầu vào và áp dụng biến đổi MDCT. Để tiết kiệm dải động, thì sau đó nó chia các thành phần tần số đầu ra thành các hàm loga và hàm mũ. Các giá trị này sau đó được lượng tử hoá được kết hợp với các kênh khác và được đóng thành các khung để truyền đi. 4.2.3. AES-3 (Audio Engineering Society-3) Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 125 Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số. Tiêu đề đầy đủ của nó là định dạng truyền nối tiếp cho hai kênh âm thanh số tuyến tính tương ứng. Theo thuật ngữ đơn giản mà có nghĩa nó là âm thanh nổi và không nén. AES-3 là một sự phát triển chung của Hiệp hội kỹ sư âm thanh - AES (Audio Engineering Society) và Liên minh phát sóng quảng bá châu Âu - EBU (European Broadcasting Union). Tiêu chuẩn này dựa trên cân bằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đến 100 mét. Ba tốc độ lấy mẫu được hỗ trợ là 32, 44.1 và 48 KHz. 4.3. Các chuẩn nén ảnh JPEG 4.3.1. Chuẩn JPEG JPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU. Đến năm 1994, JPEG được khẳng định với tiêu chuẩn ISO 10918-1. JPEG là định dạng nén ảnh có tổn thất. Tiêu chuẩn này có có thể được ứng dụng trong nhiều lĩnh vực: lưu trữ ảnh, Fax màu, truyền ảnh báo chí, ảnh cho y học, camera số Nó còn có các định dạng mở rộng khác như .jpg, .jpeg, .jpe, .jfif và .jif. Kỹ thuật này có thể đạt được hệ số nén hơn tám mươi lần so với ảnh gốc. Tuy nhiên, hệ số nén càng cao thì hình ảnh sau khi giải nén sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban đầu chứ không đạt hoàn toàn như hình ảnh gốc. Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuy nhiên nó cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng khôi phục khá tốt và ít tính toán hơn so với nén MPEG. Nén JPEG có thể thực hiện bởi bốn mode mã hóa: mã hóa tuần tự, mã hóa lũy tiến, mã hóa không tổn thất và mã hóa phân cấp. Mã hóa không tổn thất không sử dụng cho video động bởi vì tỉ lệ nén của nó không đủ cao. Khai triển DCT được chọn là kĩ thuật then chốt trong JPEG vì nó cho ảnh nén chất lượng tốt nhất tại số bit thấp nhất và giải thuật chuyển đổi nhanh, dễ dàng thực hiện bằng phần cứng. Định dạng nén JPEG được sử dụng trong tất cả máy ảnh kỹ thuật số có kích thước rất nhỏ nên thường chụp được nhiều ảnh trên một thẻ nhớ, JPEG dễ hiển thị trên màn hình, ảnh có thể chuyển nhanh qua thư điện tử (dung lượng từ 300KB đến 700KB), ảnh JPEG chất lượng cao có dung lượng khoảng vài MB hay lớn hơn. Nén theo chuẩn JPEG là một tiến trình nhiều bước. Trước hết là bước qui tắc hóa (regularizing stage) để làm cho ảnh có nhiều đoạn giống nhau hơn thực tế. Ảnh màu được chuyển sang dạng YUV hoặc CIELAB, trong đó thông tin về độ chói (luminance) được tách rời với thông tin về độ màu (chrominance). Một yếu tố được tính tới là mắt người ta nhạy cảm với những thay đổi nhỏ về độ sáng hơn là những thay đổi về màu sắc, đặc biệt ở đầu xanh của phổ. Ngoài ra cách làm này còn khai thác thực tế là ảnh thường có nhiều vùng lớn tại đó các điểm kế nhau rất giống nhau về kênh màu. Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 126 Bước tiếp theo là lấy mẫu cho các kênh màu (gọi là “downsampling” hoặc “chroma subsampling”). Đây là 1 trong 2 công đoạn làm mất thông tin và chỉ thực hiện khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp (high compression/low quality) của JPEG. Lấy mẫu (subsampling) nghĩa là loại bỏ có hệ thống các thông tin màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước. Nếu bạn thực hiện cứ hai hàng loại bỏ một hàng và hai cột loại bỏ một cột, bạn giảm được dữ liệu màu đi 75%. Khi tời ảnh, trị của các điểm loại bỏ trước đó được ngoại suy từ những gì còn lại. Bước tiếp theo, ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8 không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi khỗi khối ảnh sẽ được trừ đi 128. Lý do là do giá trị các điểm ảnh có giá trị từ 0 đến 255 (được mã hoá bởi 8 bít không dấu), áp dụng biến đổi DCT sẽ tạo ra các hệ số AC có dải giá trị từ -1023 đến +1023 (có thể được mã hoá bởi 11 bít có dấu). Nhưng hệ số DC lại có giải giá trị từ 0 đến 2040 (được mã hoá bởi 11 bít không dấu) và cần cách xử lý khác ở phần cứng hoặc phần mềm so với các hệ số AC. Chính vì thế việc trừ giá trị mỗi điểm ảnh đi 128 là để sau khi biến đổi DCT cả các hệ số DC và AC có cùng dải giá trị thuận lợi cho việc xử lý và biểu diễn. Với mỗi khối ảnh hai chiều kích thước 8x8, áp dụng biến đổi DCT để tạo ra mảng hai chiều các hệ số biến đổi. Hệ số có tương ứng với tần số không gian thấp nhất nhưng lại có giá trị lớn nhất được gọi là hệ số DC (một chiều), nó tỉ lệ với độ chói trung bình của cả khối ảnh 8x8. Các hệ số còn lại gọi là các hệ số AC (xoay chiều). Theo lý thuyết, biến đổi DCT không đem lại sự mất mát thông tin ảnh, mà đơn giản nó chỉ chuyển thông tin ảnh sang miền không gian mới thuật lợi hơn cho mã hoá ở bước tiếp theo. Mảng hai chiều các hệ số biến đổi được lượng tử hoá sử dụng bộ lượng tử hóa tỉ lệ đồng nhất. Nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc lập. Quá trình lượng tử hoá là dựa trên sinh lý của hệ thống mắt người: cảm nhận hình ảnh có độ nhậy kém hơn ở các hệ số tần số cao và có độ nhậy tốt hơn ở các hệ số có tần số thấp. Vì thế các hệ số được chọn sao cho thực hiện lượng tử hoá thô đối với các hệ số tần số cao và lượng tử hoá tinh đối với các hệ số có tần số thấp. Bảng lượng tử hoá được lấy tỉ lệ để tạo ra các mức nén thay đổi tuỳ theo tốc độ bít và chất lượng ảnh. Việc lượng tử hoá sẽ tạo ra rất nhiều giá trị 0, đặc biệt là ở tần số cao. Quá trình làm tròn trong khi lượng tử hoá chính là nguyên nhân chính gây ra sự tổn hao nhưng lại là nhân tố chính đem lại hiệu suất nén. Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng 0, mảng hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình Zigzag tạo thành mảng một chiều. Cách sắp xếp này cho phép giảm thiểu năng lượng tổn hao trung bình và tạo ra dãy các giá trị bằng 0 liên tiếp. Kiểu quét Zigzag này cũng nhằm đặt các hệ số có tần số thấp lên trước các hệ số có tần số cao. Các hệ số này sẽ được mã hóa dựa trên bảng mã Huffman sao cho chiều dài trung bình của từ mã là nhỏ nhất. Đến đây các hệ số được nén trung thực bằng mã hóa độ dài chạy – RLC. Tiếp đến, các hệ số DC được tách khỏi các hệ số AC và sử dụng kỹ thuật mã hoá điều xung mã vi Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 127 sai – DPCM. Bước cuối cùng của quá trình nén là sử dụng mã hoá entropy chẳng hạn mã hoá Huffman cho các AC và DC (sau khi đã mã hoá DPCM) để tăng thêm hiệu quả nén cũng như giảm thiểu lỗi. Ở phía giải nén, luồng bít mã hoá được giải mã entropy, sau đó mảng hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tử. Mảng hai chiều các hệ số DCT kết quả sẽ được biến đổi IDCT rồi cộng mỗi giá trị với 128 để xấp xỉ tạo thành các khối ảnh con kích thước 8x8. Chú ý là bảng lượng tử hoá và mã hoá entropy ở cả phía nén và giải nén là đồng nhất. Hai thành phần hiệu màu cũng được mã hoá tương tự như thành phần chói ngoại trừ khác biệt là chúng được lấy mẫu xuống hệ số 2 hoặc 4 ở cả chiều ngang và dọc trước khi biến đổi DCT. Ở phía giải nén , thành phần màu sẽ được nội suy độ chói (Y) và hiệu mầu (U, V) thành R, G và B. Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây: Hình 4.1: Sơ đồ quá trình nén ảnh theo chuẩn JPEG Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 128 Hình 4.2: Sơ đồ quá trình giải nén theo chuẩn JPEG 4.3.2. Chuẩn JPEG-2000 Chuẩn JPEG ban đầu đã thu được sự đón nhận rộng rãi và hiện tại có mặt ở khắp nơi thông qua các ứng dụng của máy tính: nó là khuôn dạng chính cho các ảnh chụp trong web toàn cầu và được sử dụng rộng rãi trong lưu trữ hình ảnh. Hơn nữa, ảnh số hóa ngày càng phổ biến với người dùng và yêu cầu chất lượng ngày càng tăng lên, vì vậy các vấn đề xử lý ảnh cũng tăng theo. Nén hình ảnh không chỉ là làm giảm dung lượng lưu trữ và các yêu cầu băng thông, mà còn cho để nguyên phép tách, ghép để sắp xếp xử lý và đáp ứng các mục tiêu trên các ứng dụng và thiết bị cụ thể. Ngoài ra, yêu cầu về hiệu suất nén tốt hơn với tỷ số nén cao đã dẫn tới sự phát triển chuẩn JPEG-2000. Hệ thống nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn hẳn các chuẩn công nghệ JPEG truyền thống, cho dù JPEG-2000 không phải là một chuẩn mới hoàn toàn mà được phát triển từ các tiêu chuẩn đã có. Điều quan trọng hơn, nó cho phép tách các phân giải khác nhau, các điểm ảnh, các miền quan tâm, các thành phần và hơn nữa, tất cả chúng được đưa vào một dòng bit nén đơn. Nó cho phép một ứng dụng xử lý hoặc truyền các thông tin cần thiết cho bất kỳ một thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuẩn JPEG-2000. Tính tương thích này là một trong những ưu điểm nổi trội mà các kỹ thuật xử lý JPEG truyền thống gặp rất nhiều khó khăn. Không giống như tiêu chuẩn JPEG truyền thống, kỹ thuật mã hóa dựa trên biến đổi cosin rời rạc (DCT – Discrete Cosin Tranform) dùng mã hóa Huffman, JPEG-2000 sử dụng kỹ thuật mã hóa dạng sóng rời rạc (DWT – Descrete Wavelet Transform) dùng mã số học. Sử dụng DWT cho phép nâng cao độ phân giải tần số mang tính không gian Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 129 trong thể hiện biến đổi hình ảnh. Sơ đồ khối của quá trình nén và giải nén theo chuẩn JPEG-2000 mô tả ở hình 4.3 dưới đây: Hình 4.3: Sơ đồ quá trình nén và giải nén theo chuẩn JPEG-2000 Bước 1: Xử lý trước biến đổi Do sử dụng biến đổi Wavelet, JPEG2000 cần có dữ liệu ảnh đầu vào ở dạng đối xứng qua 0. Xử lý trước biến đổi chính là giai đoạn đảm bảo dữ liệu đưa vào nén ảnh có dạng trên. Ở phía giải mã, giai đoạn xử lý sau biến đổi sẽ trả lại giá trị gốc ban đầu cho dữ liệu ảnh. Bước 2: Biến đổi liên thành phần Giai đoạn này sẽ loại bỏ tính tương quan giữa các thành phần của ảnh. JPEG-2000 sử dụng hai loại biến đổi liên thành phần là biến đổi màu thuận nghịch (Reversible Color Transform - RCT) và biến đổi màu không thuận nghịch (Irreversible Color Transform - ICT) trong đó biến đổi thuận nghịch làm việc với các giá trị nguyên, còn biến đổi không thuận nghịch làm việc với các giá trị thực. ICT và RCT chuyển dữ liệu ảnh từ không gian màu RGB sang YCrCb. RCT được áp dụng trong cả hai dạng thức nén có tổn thất và không tổn thất, còn ICT chỉ áp dụng cho nén có tổn thất. Việc áp dụng các biến đổi này trước khi nén ảnh không nằm ngoài mục đích làm tăng hiệu quả nén. Các thành phần Cr, Cb có ảnh hưởng rất ít tới sự cảm nhận hình ảnh của mắt trong khi thành phần độ chói Y có ảnh hưởng rất lớn tới ảnh. Bước 3: Biến đổi riêng thành phần Biến đổi riêng thành phần được áp dụng trong JPEG-2000 chính là biến đổi Wavelet. Bước 4: Lượng tử hoá - Giải lượng tử hoá Các hệ số của phép biến đổi sẽ được tiến hành lượng tử hoá. Quá trình lượng tử hoá cho phép đạt tỷ lệ nén cao hơn bằng cách thể hiện các giá trị biến đổi với độ chính xác tương ứng cần thiết với mức chi tiết của ảnh cần nén. Các hệ số biến đổi sẽ được Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh… 130 lượng tử hoá theo phép lượng tử hoá vô hướng. Các hàm lượng tử hoá khác nhau sẽ được áp dụng cho các băng con khác nhau và được thực theo biểu thức: (4.1) với ∆ là bước lượng tử, U(x, y) là giá trị băng con đầu vào; V(x, y) là giá trị sau lượng tử hoá. Trong dạng biến đổi nguyên, đặt bước lượng tử bằng 1.Với dạng biến đổi thực thì bước lượng tử sẽ được chọn tương ứng cho từng băng con riêng rẽ. Bước lượng tử của mỗi băng do đó phải có ở trong dòng bít truyền đi để phía thu có thể giải lượng tử cho ảnh. Công thức giải lượng tử hoá là: (4.2) r là một tham số xác định dấu và làm tròn, các giá trị U(x, y); V(x, y) tương ứng là các giá trị khôi phục và giá trị lượng tử hoá nhận được. JPEG-2000 không cho trước r tuy nhiên thường chọn r = 1/2 . Bước 5: Mã hoá JPEG-2000 theo khuyến nghị của uỷ ban JPEG quốc tế có thể sử dụng nhiều phương pháp mã hoá khác nhau cũng như nhiều cách biến đổi Wavelet khác nhau để có thể thu được chất lượng ảnh tương ứng với ứng dụng cần xử lý. Điều này giúp cho JPEG- 2000 mềm dẻo hơn nhiều so với JPEG. Việc áp dụng các phương pháp mã hoá khác nhau cũng được mở rộng sang lĩnh vực nén ảnh động bằng biến đổi Wavelet. Trong thực tế các phương pháp mã hoá ảnh được áp dụng khi nén ảnh bằng biến đổi Wavelet cũng như JPEG-2000 thì có hai phương pháp được coi là cơ sở và được áp dụng nhiều nhất: phương pháp SPIHT và phương pháp EZW (Embedded Zerotree Wavelet Encoder). JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kể so với JPEG. Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất là 2 lần so với JPEG. Với tỷ số nén cao, chất lượng của hình ảnh giảm ít hơn. Tuy nhiên điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu cầu lưu trữ trong quá trình mã hóa và giải mã. Một tác động khác của điều này là những hình ảnh có thể tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị. 4.4. Các chuẩn nén Video MPEG-1, 2, 4, 7 và MPEG-21 4.4.1. Tổng quan về MPEG MPEG (Moving Picture Expert Group) được ra đời vào năm 1988 nhằm mục đích chuẩn hoá cho nén tín hiệu âm thanh và video. Nén tín hiệu video theo chuẩn MPEG là phương pháp nén ảnh động không những làm giảm dư thừa không gian (như JPEG) mà còn làm giảm dư thừa thời gian giữa các khung ảnh, đây là khác biệt so với JPEG. [...]... cho truy n thông a phương ti n trên m ng vi n thông, m ng truy n hình và Internet… 143 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh Hư ng d n ôn t p chương 4 1 Các chu n mã hóa tho i và âm thanh 2 Các chu n nén nh JPEG và JPEG2000 3 Các chu n nén video MPEG và H26x 144 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh TÀI LI U THAM KH O [1] Stephen J Solari, Digital Video... i là dòng cơ b n (Elementary Stream) Hình 4.4: C u trúc dòng bit MPEG 134 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh Hình 4.5: Ki n trúc dòng d li u MPEG 4.4.3 Nguyên lý ho t ng Ho t ng c a b mã hóa, ph thu c vào lo i hình nh, là mã hóa t i th i i m ang xét Quá trình nén theo chu n MPEG là s k t h p gi a nén trong nh và nén liên nh Tín h eu u vào có d ng 4:2:2 ho c 4:2:0 ư c nén... b nh m ch a s li u quá ít, thì vi c lư ng t hóa các h s s tăng lên Hình 4.6: B mã hóa MPEG tiêu bi u 136 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh Quá trình gi i mã: Theo lý thuy t, quá trình gi i mã là ngư c l i v i quá trình mã hóa và ư c minh h a trên hình 4.7 Hình 4.7: B gi i mã MPEG tiêu bi u Chu i tín hi u vào ư c gi i mã entropy t i VLD (Variable-Length Decoder) Sau ó tách... Quá trình t o ra dòng bit MPEG là ghép kênh: k t h p các dòng d li u vào, dòng d li u ra, i u ch nh ng b và qu n lý b m Cú pháp dòng MPEG bao g m: l p dòng bit (stream), l p gói (pack) và l p gói tin (packet) như trong hình 4.5 132 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh 1 Kh i: Kh i 8x8 các i m nh tín hi u chói và tín hi u màu dùng cho phương pháp nén DCT 2 T h p c u trúc kh i... n s (danh m c hình nh, t dư c, phim, video và radio thu ư c) i n âm nh c, danh m c hình nh sinh Thương m i i n t (ví d qu ng cáo cá nhân, các danh m c tr c tuy n, danh m c các c a hàng i n t ) Giáo d c (nơi ch a các khóa h c a phương ti n, tìm ki m a phương ti n d li u h tr ) 141 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh Gi i trí t i nhà (ví d các h th ng cho qu n lý các b sưu t... ph i và s d ng n i dung a phương ti n – ang t n t i ho c ang ư c phát tri n – có th làm vi c cùng nhau MPEG-21 bao g m m t phát bi u chung v n i dung a phương ti n, m t ngôn ng làm ơn gi n hóa s tương thích ng c a n i dung vào m ng phân ph i và các thi t b s d ng, và nhi u công c khác nhau làm cho s qu n lý các quy n s có kh năng liên k t 142 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh ... t , cú pháp và ch c năng ư c mô t b i chu n có ý nghĩa r ng m t b mã hóa ph i ch a nh ng ch c năng nh t nh 4.4.4.2 MPEG-2 ng d ng gi i trí quan tr ng ti p theo c a video mã hóa (sau lưu tr CD-ROM) là truy n hình s cung c p m t s l a ch n c i ti n cho truy n hình tương t , m t vài 138 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh c tính ch y u ã ư c yêu c u i v i nguyên lý mã hóa video... nhanh và có hi u qu c a ngư i dùng Các m c mô t 140 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh M t s ki n nghe nhìn xác nh có th ư c mô t v i nhi u t p h p c tính khác nhau n u nh ng ng d ng c a chúng là khác nhau mô t nh ng s ki n v th giác, u tiên chúng ư c mô t b i tr u tư ng th p như hình d ng, kích thư c, b c c, màu s c, s chuy n ng và các v trí c a chúng trong khung hình nh... k t h p profile/level p v i truy n hình nét cao X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh 4.4.4.3 MPEG-4 Các chu n MPEG-1 và MPEG-2 x lý các khung video hoàn ch nh, m i khung ư c mã hóa như m t ơn v riêng l Chu n MPEG-4 ư c phát tri n v i m c ích m r ng kh năng c a nh ng chu n trư c ó theo m t s hư ng H tr các ng d ng có t c bit th p: MPEG-1 và MPEG-2 có hi u qu ch p nh n ư c trong... kh o phía trư c và phía sau c a nó i u này s t o ra tr do ph i s p x p l i thông tin, tr này l n hay nh là tuỳ thu c vào s các b c nh B-pictures liên ti p nhau ư c truy n 5 Nhóm nh (GOP): Các nh I, P, B-pictures thư ng xu t hi n theo m t th t l p i l p l i m t cách tu n hoàn, do ó ta có khái ni m v nhóm các b c nh GOP (Group of 133 X lý âm thanh và hình nh Chương 4: Các chu n mã hóa âm thanh Pictures) . Các chuẩn mã hoá thoại Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh 123 4.2. Các chuẩn mã hóa âm thanh 4.2.1. Các chuẩn mã hóa âm thanh ISO/MPEG Từ năm 1988,. bộ và quản lý bộ đệm. Cú pháp dòng MPEG bao gồm: lớp dòng bit (stream), lớp gói (pack) và lớp gói tin (packet) như trong hình 4.5. Xử lý âm thanh và hình ảnh Chương 4: Các chuẩn mã hóa âm thanh . chói (Y) và hiệu mầu (U, V) thành R, G và B. Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây: Hình 4.1: Sơ đồ quá trình nén ảnh theo chuẩn JPEG Xử lý âm thanh và hình ảnh

Ngày đăng: 11/08/2014, 00:23

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan