luận văn thạc sĩ cao học ngành điện tử viên thông đề tài nén ảnh động dùng WAVELET

124 890 0
luận văn thạc sĩ cao học ngành điện tử viên thông đề tài nén ảnh động dùng WAVELET

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

0 Bộ giáo dục và đào tạo TRờNG ĐạI Học BáCH KHOA Hà Nội Luận văn thạc khoa học nén ảnh động dùng wavelet Ngành: Điện tử viễn thông Nguyễn Hữu phát Ngời hớng dẫn khoa học : PGS TS. Hồ Anh Tuý Hà nội 2005 1 Mục lục Trang Lời nói đầu 4 Chơng 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG 6 1.1. Khái niệm về Video và phơng pháp nén Video 5 1.1.1. Khái niệm Video 5 1.1.1.1. Không gian mầu (Color Space) 5 1.1.1.2. Các cơ cấu số hoá tín hiệu Video 6 1.1.2. Các phơng pháp nén Video 8 1.1.2.1. Giảm tốc độ dòng bit 9 1.1.2.2. Nén dòng tín hiệu Video số theo không gian 10 1.1.2.3. Nén dòng tín hiệu theo thời gian. 11 1.1.2.4. Nén hỗn hợp sử dụng tổ hợp các phơng pháp trên 11 1.1.3. Tham số nén Video. 11 1.2. Giới thiệu chung về chuẩn MPEG 12 1.3. Các khái niệm cơ bản trong nén Video theo chuẩn MPEG. 14 1.3.1. Cấu trúc phân cấp Video theo chuẩn MPEG. 14 1.3.2. Phân loại frame Video. 17 1.3.3. Nhóm ảnh (GOP: Group Of Picture). 19 1.4. Phơng pháp nén ảnh Video theo chuẩn MPEG. 21 1.4.1. Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG 21 1.4.2. Lấy mẫu thông tin về màu 22 1.4.3. Lợng tử hoá. 23 1.4.4. Nội suy ảnh. 23 1.4.5. Dự đoán bù chuyển động. 24 1.4.5.1. Đánh giá chuyển động (motion estimation) 24 1.4.5.2. Bù chuyển động (Motion Compensation). 24 1.4.6. Biến đổi Cosine rời rạc. 26 1.4.7. Mã VLC 27 1.5. Quá trình nén Video theo chuẩn MPEG-1. 27 1.5.1. Tham số đặc trng. 27 1.5.2. Quá trình mã hoá 28 1.5.3.Quá trình giải mã 32 1.6. Quá trình nén Video theo chuẩn MPEG-2. 33 2 1.6.1. Tham số đặc trng. 36 1.6.2. Mô hình mã hoá Non-scalable theo MPEG-2. 37 1.6.3. Mô hình mã hoá scalable theo MPEG-2. 38 Chơng 2 M hoá SCALABLE VIDEO 42 2.1. Băng lọc 1/2 pixel biến đổi ngợc theo thời gian - tính toán bù chuyển động 42 2.1.1. Giới thiệu 44 2.1.2. Thuật toán 46 2.1.2.1 Mô hình Video phổ biến 46 2.1.2.2. Quét luỹ tiến Video với véctơ chuyển động chính xác 1/2 điểm ảnh .49 2.1.2.3. Di chuyển cục bộ mở rộng 51 2.1.3. Ba tham số mã hoá băng con sử dụng IMCTF 54 2.1.4. Kết quả thực nghiệm 55 2.1.5. Tóm tắt và kết luận 59 2.2. Mã hoá scalable video 61 2.2.1. Khái quát 62 2.2.1.1. Mã hoá lai truyền thống 63 2.2.1.1.1.Mã hoá Scalable SNR 63 2.2.1.1.2 Phân giải mã Scalable 66 2.2.1.2. Embedded Coding and Fine Granularity Scalability 66 2.2.1.3. Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet 69 2.2.2. Hệ thống tổng quan 70 2.2.3. Băng con mã hoá 3 chiều 71 2.2.4. Tỷ lệ dòng bít mã hoá 74 2.2.4.1.Hệ thống dòng bít 74 2.2.4.2. Lựa chọn dòng bít mã hoá và truyền dẫn 78 2.2.5. Kết quả thực nghiệm 81 2.2.5.1. So sánh với mã hoá Nonscalable 81 2.2.5.2. So sánh mã hoá LZC và 3D-SPIHT 83 2.2.5.3. Mã hoá tốc độ đa phân giải 86 2.2.6. Tóm tắt và kết luận 91 Chơng 3 Đối tợng-cơ sở m hoá SCALABLE 95 3.1. Đối tợng cơ bản - Cơ sở mã hoá 97 3.1.1 Mặt phẳng đối tợng Video 97 3.1.2. Công cụ mã hoá cho đối tợng Video 98 3.1.2.1. Định dạng mã hoá 98 3.1.2.2. Cấu trúc mã hoá 99 3.2. Đối tợng-Cơ sở mã hoá sử dụng EZBC 100 3 3.2.1. Tổng quan 101 3.2.2. Miền Cơ sở biến đổi Wavelet rời rạc 102 3.2.3. Đối tợng-Cơ sở mã hoá mặt phẳng bít EZBC 103 3.3. Kết quả thực nghiệm 104 3.4. Tóm tắt và kết luận 106 Chơng 4: Chơng trình thử nghiệm và đánh giá kết quả 111 4.1. Xây dựng chơng trình 111 4.1.1. Khái quát chung 111 4.1.2. Cấu trúc chơng trình 111 4.2. Đánh giá kết quả thử nghiệm 112 4.2.1 Dữ liệu thử nghiệm 112 4.2.2. Kết quả thử nghiệm 112 4.2.3. Nhận xét về tỷ số nén,chất lợng nén 115 Kết luận 118 1. ứ ng dụng luận văn 118 2. Hớng phát triển cho tơng lai 119 TàI LIệU THAM KHảO 120 PHụ LụC 122 THUậT NGữ tiếng anh 122 4 Lời nói đầu Trong những năm gần đây do sự phát triển mạnh mẽ của Internet nên vấn đề truyền dữ liệu trên mạng đặc biệt là truyền ảnh và âm thanh đợc quan tâm. Do đó việc nén dữ liệu đặc biệt dữ liệu phim ảnh là cần thiết hơn bao giờ hết. Trong phạm vi luận văn này tôi tập trung vào việc nén dữ liệu video. Đối với nén ảnh động, chuẩn MPEG(Moving Photographic Experts Group) đã đợc xác lập bởi ISO và IEC. Đây là một kỹ thuật nén ảnh động đã mang lại nhiều thành công. Nó có thể đạt tỷ lệ nén khá cao 10:1 mà mắt thờng khó phân biệt đợc. Tuy nhiên đây vẫn cha phải là tỷ lệ cao tối u. Sự ra đời của Wavelet đã mở ra một công nghệ mới. Đó là chuẩn MJPEG2000. Sự ra đời của MJPEG2000 mở ra một tơng lai mới cho kỹ thuật nén ảnh với những tính năng cao. Kỹ thuật Wavelet cũng đợc nghiên cứu trong nhiều phần mềm nh Matlap Mục đích của luận văn này nhằm nghiên cứu một số phơng pháp nén ảnh động đang đợc quan tâm. Luận văn này đợc trình bày thành bốn chơng và một phụ lục. Chơng Một là tổng quan về nén ảnh động. Chơng này giới thiệu một số chuẩn nén ảnh động là MPEG1,MPEG2,MPEG4 và MPEG7. Đồng thời cũng trình bày cấu trúc của video. Chơng Hai trình bày phơng pháp nén Scalable video. Chơng này đề cập đến thuật toán LZC và 3D-SPIHT. Chơng Ba đi sâu vào nghiên cứu đối tợng mã hoá của video dựa trên biến đổi Wavelet. Chơng Bốn nêu khái quát cách thiết kế và cài đặt chơng trình. Chơng này mang tính chất minh hoạ cho những gì đã đợc trình bày ở các chơng trớc. Phần phụ lục nêu một số chơng trình nguồn thông dụng viết trên Visual C + + 6. 0. Do thời gian có hạn nên tôi chỉ mới nghiên cứu đợc phần nào trong kỹ thuật nén ảnh động do vậy chắc chắn không tránh khỏi thiếu sót. Cuối cùng tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình và hiệu quả của PGS TS Hồ Anh Tuý đã giúp đỡ tôi hoàn thành luận văn này. Hà nội ngày 20/10/2005 Đồ án cao học ĐTVT 2003 Nguyễn Hữu Phát 5 Chơng 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG 1.1. Khái niệm về Video và phơng pháp nén Video 1.1.1. Khái niệm Video Video là sự biểu diễn điện tử của một chuỗi các ảnh liên tiếp. Những ảnh này là những ảnh tĩnh và đợc gọi là các frame. Chuỗi các frame xuất hiện với tốc độ rất nhanh sẽ cho ta cảm giác chuyển động liên tục (tối thiểu là 25frame/giây). Mặc dù mỗi frame có sự khác nhau, cần thiết phải có tốc độ frame cao để đạt đợc cảm giác chuyển động thực sự. Tốc độ frame và độ phân giải của mỗi frame là các nhân tố quan trọng ảnh hởng trực tiếp đến chất lợng Video. Trong truyền hình, độ phân giải của truyền hình là 720x576 và tốc độ frame là 25 hoặc 30 Hz. 1.1.1.1. Không gian mầu (Color Space) Dựa theo lý thuyết về ảnh màu, cảm thụ về màu của mắt trên cơ sở 3 màu cơ bản: màu đỏ (Red), màu lục (Green) và màu lam (Blue). Trong hệ màu RGB, các màu có thể đợc mô tả là các điểm bên trong hình lập phơng đơn vị, với gốc toạ độ (0, 0, 0) là màu đen; 3 thành phần R (đỏ), G (lục), B (lam) biểu diễn cho 3 trục. Một hệ thống biểu diễn màu khác đợc sử dụng chính trong lĩnh vực truyền hình nhằm giúp việc số hóa đợc thuận lợi hơn là hệ màu YUV, miêu tả mỗi ảnh trong Video gồm các thành phần độ chói (Y) và sắc màu (UV). Hệ màu này nhằm đạt đợc hiệu suất truyền cao hơn, và giữ nguyên tính tơng thích với hệ số truyền hình màu đen trắng. Thành phần chói ( luminance) cung cấp giá trị mức xám của ảnh, hai thành phần còn lại mang thông tin về màu sắc (chrominance) để chuyển đổi từ ảnh xám sang ảnh màu. Đồ án cao học ĐTVT 2003 Nguyễn Hữu Phát 6 Chuyển đổi RGB sang YUV đợc thực hiện theo chuẩn CCIR 601 nh sau: Y = 0.299R + 0.587G + 0.114B U = 0.493 (B - Y) V = 0.877 (R - Y) trong đó: Y là thành phần chói và U, V là hai thành phần màu. Đặc biệt: khi R = G = B thì Y = R = G = B và U = V = 0. Một định dạng màu khác là, tơng tự YUV là Y, C B , C R với Y tơng tự nh trên và hai thành phần nh sau: C B = U/2 + 0.5 C R = V/1.6 + 0.5 Do đó, màu C B , C R luôn nằm trong khoảng [0, 1]. Với u điểm trên hệ YC B C R đợc áp dụng rộng rãi trong việc số hoá Video. 1.1.1.2. Các cơ cấu số hoá tín hiệu Video Hình 1.1. Cấu trúc lấy mẫu Đồ án cao học ĐTVT 2003 Nguyễn Hữu Phát 7 Trong truyền hình, các frame trong chuỗi Video có độ phân giải là 720 x 576 điểm và có tốc độ frame là 25 hoặc 30Hz. Mỗi ảnh trong chuỗi Video đợc lấy số hoá nh hình 1.1. Cấu trúc 4: 2: 2 Giả sử một dòng ngang của TV gồm 720 điểm ảnh. Hình 1.2. Cấu trúc lấy mẫu 4: 2: 2 Việc lấy mẫu sẽ tuần tự diễn ra nh sau: - Điểm đầu lấy mẫu tín hiệu chói (Y) và lấy mẫu 2 màu (C B , C R ). - Điểm tiếp theo chỉ lấy mẫu tín hiệu chói (Y) và không lấy mẫu 2 tín hiệu. Khi giải mã, màu suy ra từ điểm ảnh trớc. Tuần tự nh vậy, cứ 4 lần lấy mẫu Y, có 2 lần lấy mẫu C R , 2 lần lấy mẫu C B . Cấu trúc 4: 1: 1 Hình 1.3. Cấu trúc lấy mẫu 4: 1: 1 Điểm ảnh đầu tiên lấy mẫu đủ Y, C R , C B , 3 điểm kế tiếp chỉ lấy mẫu Y, không lấy mẫu tín hiệu màu. Khi giải mã, mầu của 3 điểm ảnh phải suy ra từ điểm ảnh đầu. Tuần tự nh vậy, cứ 4 lần lấy mẫu Y, có 1 lần lấy mẫu C R , 1 lần lấy mẫu C B . Cấu trúc lấy mẫu 4: 2: 0 Đồ án cao học ĐTVT 2003 Nguyễn Hữu Phát 8 Lấy mẫu tín hiệu Y tại tất cả các điểm ảnh của dòng, còn tín hiệu màu thì cứ 4 Y, có 2 màu C R và C B cách nhau theo từng hàng. Hình 1.4. Cấu trúc lấy mẫu 4: 2: 0 Cấu trúc lấy mẫu 4: 4: 4 Lấy mẫu tín hiệu Y, C R , C B tại tất cả các điểm ảnh của dòng. Hình 1.5. Cấu trúc lấy mẫu 4: 4: 4 1.1.2. Các phơng pháp nén Video Mục tiêu chính của việc nén tín hiệu Video là biểu diễn một nguồn tín hiệu Video bằng một số bit ít nhất có thể đợc mà vẫn đảm bảo yêu cầu chất lợng cảm thụ. Với tín hiệu Video, giới hạn dải thông của tín hiệu tơng tự khoảng 6MHz, trong khi tín hiệu Video số hoá theo tiểu chuẩn CCIR 601 với tốc độ bit là 270Mbit/s chiếm dải thông không dới 189MHz, tức là lớn hơn 31,5 lần so với dải thông của tín hiệu tơng tự. Chính vì vậy, giảm dải thôngvấn đề quan trọng với công nghệ Video số. Về cơ bản giảm dải thông đợc thực hiện bằng 4 cách: - Giảm tốc độ dòng bit (bit Rate Reduction - BRR). Đồ án cao học ĐTVT 2003 Nguyễn Hữu Phát 9 - Nén dòng tín hiệu Video số theo không gian, tức giảm độ d thừa trong một số frame (spatial redundancy). - Nén dòng tín hiệu theo thời gian, tức giảm độ d thừa theo thời gian (temporal redundancy). - Nén hỗn hợp sử dụng tổ hợp các phơng pháp trên. 1.1.2.1. Giảm tốc độ dòng bit. Có hai phơng pháp giảm tốc độ dòng bit. Cách thứ nhất dựa trên đặc điểm sinh lý của mắt ngời. Mắt ngời không nhạy cảm với các tín hiệu màu nên trong phơng pháp này, ngời ta giảm bớt độ phân giải các tín hiệu màu. Cách thứ hai dựa trên ý nghĩa của các bit lợng tử hoá các điểm ảnh. Với 8 bit lợng tử hoá, các bit của byte này đợc chia làm hai nhóm: nhóm có ý nghĩa hơn (MMB-More Meaning Bit) và nhóm ít ý nghĩa hơn (LMB-Less Meaning Bit). Việc ta cắt giảm các bit của nhóm LMB sẽ không ảnh hởng nhiều tới chất lợng của ảnh. Tuy nhiên, phơng pháp này không đợc chấp nhận trong các giải pháp giảm dải thông hiện tại, nên cũng sẽ không đợc đề cập đến. Phần lớn các định dạng số thành phần hiện nay đều sử dụng tần số lấy mẫu 13.5MHz đối với tín hiệu chói. Theo chuẩn CCIR 601, nếu 2 tín hiệu màu đợc lấy màu đợc lấy mẫu với tần số nh tín hiệu chói, chúng ta sẽ có định dạng 4: 4: 4.Định dạng này đợc sử dụng trong các thiết bị dựng phim phi tuyến và trong đồ hoạ vi tính liên quan đến phim nhựa. Tốc độ bit của định dạng này cho hệ PAL là: Với lợng tử hoá 8 bit: (720 + 720 +720) x 576 x 8 x 25 = 249 Mbit/s Với lợng tử hóa 10 bit: (720 + 720 +720) x 576 x 10 x 25 = 311 Mbit/s. Trong đó: 720 x 576 là độ phân giải màn hình (576 là số dòng /frame). 25 là tốc độ chuyển ảnh (25 frames/s). [...]... đợc gọi là thuận nếu ảnh tham chiếu (ảnh I hoặc ảnh P) là ảnh trớc ảnh đang xét; và đợc gọi là ngợc nếu ảnh tham chiếu là ảnh sau đang xét (theo thứ tự hiển thị) Ví dụ trong hình 1.11 ảnh B2 dùng bù chuyển động thuận từ ảnh I1 và bù chuyển động ngợc từ ảnh P4 .Do đó, ảnh B2 dùng bù chuyển động hai chiều và kết quả lấy trung bình, nên đợc gọi là bù chuyển động nội suy Bù chuyển động đợc thực hiện tại... Compensation) Trong nhóm ảnh trên (hình 1.11), ảnh I1 đợc giải mã mà không cần xét đến véctơ chuyển động, nhng ảnh P4 đợc giải mã phải sử dụng véctơ chuyển động từ ảnh I1 Bù chuyển động này gọi là bù chuyển động thuận vì xuôi theo trình tự thời gian Các ảnh P luôn dùng bù chuyển động thuận từ ảnh I hoặc P đợc truyền trớc đó Các ảnh B đợc giải mã sử dụng bù chuyển động từ ảnh I hoặc ảnh P trớc hoặc sau đó... của các phơng pháp trên 1.1.3 Tham số nén Video Tham số nén Video đợc đề cập đến ở đây là định dạng ảnh và tỉ số nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén Khi so sánh tỉ số nén của các hệ thống nén khác nhau, thì định dạng ảnh của các hệ thống nén trên phải giống nhau Định dạng bao gồm: Số dòng /ảnh và số pixel/dòng Nguyễn Hữu Phát 11 Đồ án cao học ĐTVT 2003 Số frame/s Và cấu trúc... véctơ chuyển độngảnh sai số dự đoán ảnh sai số dự đoán có kích cỡ nhỏ hơn rất nhiều so với toàn bộ ảnh vì phần ảnh giống nhau sẽ bị triệt tiêu (có giá trị bằng 0) khi xác định ảnh sai số dự đoán, do đó việc mã hoá sẽ đòi hỏi ít byte hơn Quá trình khôi phục một ảnh bằng cách dùng các phần ảnh từ ảnh trớc cùng với thông tin về chuyển động (véctơ chuyển động) nh ở trên gọi là bù chuyển động (Motion... pháp nén ảnh có thể chia làm 2 loại: Nén không tổn hao (lossless compression): là phơng pháp nén mà tín hiệu gốc đối chiếu với tín hiệu đợc nén (mã hoá), sau đó giải nén (giải mã) thì không có sự phân biệt Nén có tổn hao (lossy compression): là phơng pháp nén mà tín hiệu gốc có sự khác biệt với tín hiệu đợc khôi phục sau khi nén và giải nén Chất lợng hình ảnh của các thiết bị dùng phơng pháp nén. .. đó Việc mã hoá ảnh P có sử dụng bù chuyển động Thông tin ớc lợng chuyển động của các khối nằm trong véctơ chuyển động véctơ này xác định một Macroblock (MB) nào đó đợc sử dụng từ ảnh gốc Frame P cho hệ số nén cao hơn, và có thể sử dụng làm một frame so sánh, tham chiếu cho việc bù chuyển động cho các frame P và B khác Nguyễn Hữu Phát 17 Đồ án cao học ĐTVT 2003 Hình 1.9 Nội suy bù chuyển động Frame B... bắt đầu bằng một ảnh I và kết thúc bằng một ảnh I, việc dự đoán ảnh phụ thuộc cả vào thông tin của các GOP khác Nhóm đóng có cấu trúc khép kín, việc dự đoán ảnh không phụ thuộc vào thông tin của nhóm khác và ảnh cuối cùng của một nhóm bao giờ cũng là một ảnh P Nguyễn Hữu Phát 19 Đồ án cao học ĐTVT 2003 Chuỗi ảnh MPEG thờng có cấu trúc IBBPBBPBBI nhng thứ tự truyền dẫn và thứ tự hiển thị ảnh là khác nhau... ta đa vào khái niệm ảnh lỗi dự đoán ảnh sai số dự đoán là phần khác nhau nhỏ nhất giữa ảnh hiện tại đợc truyền và ảnh dự đoán tốt nhất có thể đạt đợc ảnh đó đợc xác định bằng cách lấy ảnh hiện tại trừ đi đi ảnh sau khi dự đoán Quá trình xây dựng lại ảnh đợc thực hiện bằng cách lấy ảnh dự đoán thông qua véctơ chuyển động cộng với sai số dự đoán Khi mã hoá thay vì phải mã hoá toàn bộ ảnh ngời ta chỉ cần... chất lợng ảnh không nén Tuy nhiên, tỉ số nén của phơng pháp này rất thấp Chính vì vậy, các u điểm của việc Nguyễn Hữu Phát 10 Đồ án cao học ĐTVT 2003 nén tín hiệu không đợc phát huy một cách tối đa, giá thành thiết bị vẫn còn rất cao Để nâng tỉ số nén, phát huy tối đa u điểm của việc nén tín hiệu, phơng pháp nén có tổn hao đợc sử dụng trong hầu hết các thiết bị hiện nay Có hai định dạng nén đợc áp... liên tiếp trong nhóm ảnh, nên số lợng frame B liên tiếp phụ thuộc vào từng ứng dụng Thông thờng, số lợng này là 2 (I, B, B, P, B, B, P) để đảm bảo hiệu quả nén và chất lợng Video Một cấu trúc nhóm ảnh thông thờng đợc mô tả bởi hai tham số: n - số ảnh trong một nhóm và m - số khoảng cách cho ảnh B Nh ví dụ trên n=9 và m=3 Nguyễn Hữu Phát 20 Đồ án cao học ĐTVT 2003 1.4 Phơng pháp nén ảnh Video theo chuẩn . tạo TRờNG ĐạI Học BáCH KHOA Hà Nội Luận văn thạc sĩ khoa học nén ảnh động dùng wavelet Ngành: Điện tử viễn thông Nguyễn Hữu phát Ngời hớng dẫn khoa học : PGS TS. Hồ. kỹ thuật nén ảnh với những tính năng cao. Kỹ thuật Wavelet cũng đợc nghiên cứu trong nhiều phần mềm nh Matlap Mục đích của luận văn này nhằm nghiên cứu một số phơng pháp nén ảnh động đang. Tham số nén Video. Tham số nén Video đợc đề cập đến ở đây là định dạng ảnh và tỉ số nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén. Khi so sánh tỉ số nén của các hệ thống nén khác

Ngày đăng: 20/06/2014, 08:48

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan