So khớp chuỗi ảnh mặt người trên dữ liệu video lớn

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VŨ THANH HƯNG SO KHỚP CHUỖI ẢNH MẶT NGƯỜI TRÊN DỮ LIỆU VIDEO LỚN Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ (Ngành Tin học) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. LÊ HOÀI BẮC TS. LÊ ĐÌNH DUY Thành phố Hồ Chí Minh - 2011 2 LỜI CẢM ƠN Tôi xin gửi lời biết ơn tới PGS. TS. Lê Hoài Bắc, Thầy đã tận tính hướng dẫn, định hướng, đồng thời chính Thầy là người đã tạo điều kiện thuận lợi cho tôi có thể hoàn thành luận văn này. Tôi xin chân thành biết ơn TS. Lê Đình Duy và GS. Shin’ichi Satoh ở viện tin học quốc gia Nhật Bản đã giúp đỡ, chỉ bảo, hướng dẫn tôi không chỉ về kiến thức chuyên môn mà còn về kĩ năng n ghiên cứu trong suốt quá trình thực hiện luận văn tại viện tin học quốc gia Nhật Bản. Tôi cũng xin gửi lời cảm ơn tới các anh Ngô Đức Thành, Cáp Phạm Đình Thăng, Hoàng Văn Hiệp đã đóng góp, thảo luận, góp ý cho luận văn này. Những đóng góp nhiệt tình của mọi người đã hỗ trợ rất nhiều cho tôi trong quá trình thực hiện luận văn. Con xin cảm ơn ba mẹ, đấng sinh thành, nuôi dưỡng, dạy dỗ con để con có được ngày hôm nay. Mặc dù không tham gia trực tiếp vào quá trình làm luận văn nhưng sự động viên, cảm thông, giúp đỡ về tinh thần của ba mẹ đã giúp con có thể vượt qua khó khăn, vững tin để hoàn thành luận văn này. Xin cảm ơn tất cả! Người thực hiện Vũ Thanh Hưng 3 MỤC LỤC MỤC LỤC 3 Danh mục các kí hiệu và chữ viết tắt 5 Danh mục các bảng 6 Danh mục hình vẽ, đồ thị 7 Tóm tắt luận văn 8 Chương 1 Tổng quan 10 1.1 Giới thiệu 10 1.1.1 Định nghĩa face track (chuỗi ảnh) 11 1.1.2 Định nghĩa bài toán 11 1.1.3 Các bước xử lý chính 13 1.1.4 Những thách thức 14 1.2 Đóng góp của luận văn 17 1.3 Cấu trúc luận văn 17 Chương 2 Các công trình nghiên cứu liên quan 19 2.1 Hướng tiếp cận rút trích face track 19 2.2 Hướng tiếp cận biểu diễn ảnh mặt người 20 2.2.1 Local Binary Pattern (LBP) 21 2.2.2 Scale Invariant Feature Transform (SIFT) 23 2.2.3 Bộ lọc Gabor 25 2.2.4 Eigenfaces 27 2.2.5 Linear Discriminant Analysis (LDA) 28 2.3 Hướng tiếp cận so khớp face track 30 4 2.3.1  Phương pháp dựa trên tập điểm 30 2.3.2 Phương pháp dựa trên phân bố xác suất 32 2.3.3 Phương pháp dựa trên bao 33 2.3.4 Phương pháp không gian con 35 2.4 Các công trình liên quan trong Khoa 38 Chương 3 Hệ thống tìm kiếm nhân vật dựa trên face track 40 3.1 Rút trích face track 40 3.2 Biểu diễn ảnh mặt người 41 3.3 Biểu diễn face track và so khớp 42 Chương 4 Kết quả thực nghiệm và phân tích 47 4.1 Cơ sở dữ liệu face track 47 4.2 Đánh giá 47 4.2.1 Đánh giá độ chính xác 47 4.2.2 Đánh giá tốc độ 51 4.3 Thực nghiệm 51 4.3.1 Lựa chọn tham số cho các thuật toán 51 4.3.2 Kết quả độ chính xác 53 4.3.3 Kết quả tốc độ 58 Chương 5 Kết luận và hướng phát triển 60 5.1 Kết luận 60 5.2 Hướng phát triển 61 Tài liệu tham khảo 62 Phụ lục A: Chi tiết danh mục các công trình 66 5 Danh mục các kí hiệu và chữ viết tắt AP Average Precision CMSM Constrained Mutual Subspace Method HIK Histogram Intersection Kernel KLT Kanade-Lucas-Tomasi LBP Local Binary Pattern LDA Linear Discriminant Analysis MAP Mean Average Precision MSM Mutual Subspace Method PCA Principle Component Analysis SIFT Scale Invariant Feature Transform 6 Danh mục các bảng Bảng 4-1: Tính toán giá trị Precision(r) × rel(r) trong ví dụ Hình 4.1. 49 Bảng 4-2: Thực nghiệm chọn ngưỡng T cho phương pháp MSM 52 Bảng 4-3: Thực nghiệm chọn số chiều không gian con ràng buộc cho CMSM. 52 Bảng 4-4: Độ chính xác (MAP) của các thuật toán 53 Bảng 4-5: Tác dụng của bước chuẩn hóa. 55 Bảng 4-6: Thời gian thực thi và độ phức tạp tính toán của các phương pháp 59 7 Danh mục hình vẽ, đồ thị Hình 1-1: Ví dụ về face track. Mỗi face track ứng với một người 11 Hình 1-2: Bài toán so khớp face track 13 Hình 1-3: Hệ thống tìm kiếm nhân vật trong video dựa trên face track 14 Hình 1-4: Các yếu tố chính ảnh hưởng tới bài toán so khớp face track 15 Hình 2-1: Gom nhóm face track dựa trên theo theo vết vùng đồng biến affine 20 Hình 2-2: Rút trích đặc trưng cho mỗi ảnh trong face track. 21 Hình 2-3: Toán tử LBP được áp tại một điểm trong ảnh 22 Hình 2-4: Rút trích LBP cho ảnh mặt người. 23 Hình 2-5: Tính toán bộ mô tả (descriptor) cho SIFT với lưới 2 x 2 24 Hình 2-6: Bộ lọc Gabor có tính chất của một bộ lọc cạnh 26 Hình 2-7: Tập 40 bộ lọc Gabor ứng với 5 scale và 8 hướng 26 Hình 2-8: Mặt riêng 28 Hình 2-9: Ví dụ về chọn mặt phẳng chiếu trong LDA 29 Hình 2-10: Khoảng cách giữa hai face track trong thuật toán min-min 31 Hình 2-11: Phương pháp k-Faces với k = 3. 32 Hình 2-12: Mô hình face track bằng GMM 33 Hình 2-13: Phương pháp MSM 36 Hình 2-14: Phương pháp CMSM. 38 Hình 3-1: Liên kết các vùng mặt được dò với face track 41 Hình 3-2: Vector trung bình xấp xỉ cho vector riêng thứ nhất 44 Hình 3-3: Tính toán khoảng cách cosin trước (a) và sau (b) khi chuẩn hóa 46 Hình 4-1: Tính toán giá trị AP cho mỗi truy vấn. 50 Hình 4-2: Đồ thị thực nghiệm chọn ngưỡng T cho phương pháp MSM 52 Hình 4-3: Đồ thị chọn số chiều không gian con ràng buộc cho CMSM 53 Hình 4-4: mean-cos xấp xỉ phương pháp không gian con 55 Hình 4-5: Một trường hợp không tốt của mean-cos 56 8 Hình 4-6: k-Faces có độ chính xác thấp hơn các phương pháp khác 57  Tóm tắt luận văn Hiện nay, có rất nhiều video được quay hàng ngày khiến cho dữ liệu video trên thế giới càng ngày càng đồ sộ. Với khối lượng video lớn và hỗn tạp như trên, việc đánh chỉ mục video (video indexing) là một bước quan trọng giúp cho quản lý, tìm kiếm, thống kê dữ liệu trên video một cách hiệu quả, nhanh chóng và dễ dàng hơn. Một trong những đối tượng xuất hiện thường xuyên nhất trong các đoạn video là mặt người nên việc đánh chỉ mục cho mặt người luôn được các nhóm trên thế giới ưu tiên nghiên cứu. Một khi việc đánh chỉ mục video cho đối tượng mặt người được giải quyết sẽ dẫn tới hàng loạt những ứng dụng lớn trong thực tế như: tìm kiếm nhân vật trong các đoạn video, thống kế những sự kiện những nhân vật có ảnh hưởng trong giai đoạn nhất định, v.v…Luận văn này tập trung vào ứng dụng tìm kiếm nhân vật trong video vì đây là ứng dụng phổ biến hiện nay. Đối với ứng dụng này có hai hướng tiếp cận chính là hướng tiếp cận sử dụng một ảnh khuôn mặt (single face) để đại diện cho mỗi nhân vật và hướng tiếp cận sử dụng chuỗi ảnh (face track). Cả hai hướng tiếp cận này đều phải đương đầu với nhữn g thách thức chung của bài toán tìm kiếm nhân vật trong video như: sự thay đổi liên tục của tư thế đầu, biến đổi nét mặt, ảnh hưởng của các điều kiện chiếu sáng, sự che khuất do các đối tượng khác và nhiễu từ môi trường. Tuy nhiên, hướng tiếp cận sử dụng face track có lợi thế hơn hướng tiếp cận dùng ảnh đơn vì dùng nhiều ảnh để biểu diễn nên c ó khả năng bao phủ được vùng rộng hơn những biến đổi của mặt người. Chính vì lợi thế trên mà luận văn đã chọn hướng tiếp cận dùng face track cho bài toán tìm kiếm nhân vật trong video. Một vấn đề đối với hướng tiếp cận này là do dùng nhiều ảnh để biểu diễn, khiến cho các thuật toán so khớp dùng face track phải xử lý với khối lượng dữ liệu lớn. Trong khi đó, những thuật toán hiện tại vẫn chưa có khả năng cân bằng giữa độ chính xác và tốc độ: một số thuật toán có khả năng cho kết quả tốt cần nhiều thao tác tính toán phức tạp dẫn tới tốc độ xử lý chậm, không thích hợp khi xử lý với khối lượng dữ liệu lớn; một số thuật toán khác có thể đạt tốc độ 9 nhanh nhờ những tính toán đơn giản lại phải đánh đổi độ chính xác. Chính vì sự thiếu đi những thuật toán có khả năng đảm bảo cả độ chính xác và tốc độ xứ lý nên luận văn đã tiến hành đánh giá một số thuật toán tiên tiến hiện nay (k-Faces, min- min, MSM, CMSM v.v…), tìm hiểu nguyên nhân và đề ra một thuật toán mới (gọi là mean-cos) có thể đạt được độ chính xác tương đương với các thuật toán trên nhưng vẫn đảm bảo tốc độ tính to án. Thuật toán đề xuất sử dụng vector trung bình để biểu diễn cho mỗi face track và sử dụng khoảng cách cosine để tính toán độ khác biệt giữa các face track. Luận văn đã chỉ ra rằng vector trung bình có thể xấp xỉ thành phần chính thứ nhất của dữ liệu, do đó chỉ cần sử dụng một vector biểu diễn vẫn có đạt được kết quả tương đư ơng với các thuật toán khác, trong khi đó sử dụng khoảng cách cosine – được sử dụng thành công trong các phương pháp không gian con như MSM, CMSM – giúp cho đạt kết quả tốt trong giai đoạn so khớp. Việc chỉ cần sử dụng một vector để biểu diễn face track đã giúp thuật toán được đề xuất có lợi thế lớn về tốc độ tính toán so với các hướng tiếp cận khác. Đánh giá đã được thực hiện t rên cơ sở dữ liệu 1510 face track rút trích từ 370 giờ video TRECVID. Độ chính xác của các thuật toán được so sánh dựa trên độ đo MAP (Mean Average Precision), trong khi đó tốc độ của các thuật toán được đánh giá dựa trên cả thời gian thực thi và trên lý thuyết dùng độ phức tạp thuật toán O. Kết quả cho thấy thuật toán mean-cos có độ chính xác vượt qua k-Faces, min-min, MSM và có thể so sánh với CMSM trong khi đó tốc độ của mean-cos chỉ thua k-Faces. Kết quả này chứng tỏ rằng thuật toán m à luận văn đề xuất có khả năng đạt tốc độ truy vấn nhanh trên cơ sở dữ liệu lớn trong khi vẫn đảm bảo được độ chính xác, điều mà các thuật toán hiện tại chỉ có thể đảm bảo được một trong hai yếu tố trên. 10 Chương 1 Tổng quan 1.1 Giới thiệu Trong những thông tin video thường tìm kiếm, mặt người là một trong những đối tượng được quan tâm nhiều nhất. Đó là vì phần lớn những đoạn video do con người thu thập có mục đích là ghi lại những hoạt động, những sự kiện trong đời sống hàng ngày của con người nên tần xuất xuất hiện của con người trong những đoạn video này là rất cao. Điều này cũng ngầm định rằng trong video, mặt n gười là đối tượng xuất hiện thường xuyên nhất. Việc tìm kiếm đối tượng mặt người trong video cho ta nhiều ứng dụng quan trọng, chẳng hạn như chúng ta có thể tìm kiếm những đoạn video liên quan đến George Bush thông qua việc tìm kiếm những đoạn video có chứa mặt của Bush hoặc chúng ta có thể tìm kiếm sự những sự kiện nổi bật nhất thường được nhắc tới trong năm 2011 dựa trên nhận xét rằng: thông thường mỗi sự kiện thường gắn với một nhân vật cụ thể, từ đó việc tìm kiếm có thể thực hiện dựa trên tần suất xuất hiện của nhân vật đó. Trong các ứng dụng trên thì tìm kiếm nhân vật trong video là ứng dụng rất phổ biến trong thực tế và là một bài toán đáng để quan tâm nghiên cứu. Những nghiên cứu về bài toán tìm kiếm n hân vật trong video có thể chia thành hai nhánh chính: hướng tiếp cận dựa trên ảnh đơn và hướng tiếp cận dựa trên face track (chuỗi ảnh). Trong đó, hướng tiếp cận dựa trên face track có một lợi điểm là có khả năng bao quát những biến đổi lớn của khuôn mặt, những thay đổi do ảnh hưởng bên ngoài (như chiếu sáng, che khuất). Chính lợi điểm này khiến cho hướng tiếp cận dựa trên face track gần đây nhận đư ợc sự quan tâm của nhiều nhóm nghiên cứu. Cũng chính vì lý do trên mà luận văn này chọn hướng tiếp cận dựa trên face track làm hướng giải quyết cho bài toán. Trong phần tiếp theo của Chương 1, luận văn sẽ trình bày những khái niệm cơ bản của bài toán tìm kiếm nhân vật trong video nói chung và hướng tiếp cận dùng face track nói riêng. [...]... của mặt người và điều kiện thu video ảnh hưởng tới kết quả tìm kiếm Những nhân tố này không chỉ tác động một cách độc lập mà còn có thể đồng thời cùng ảnh hưởng làm cho ảnh mặt người bị biến đổi rất lớn Những nhân tố ảnh hưởng chính đến bài toán so khớp face track gồm: 15 Tư thế đầu người Do chuyển động của cổ và góc quay camear nên mặt người có thể được nhìn thấy tại những góc khác nhau Kết quả so khớp. .. hưởng tới ảnh mặt người là nhiễu Nhiễu có thể do thiết bị thu gây ra, do đối tượng chuyển động quá nhanh hoặc do các hiệu ứng khi biên tập video (các hiệu ứng chuyển cảnh) Hình 1-4 cho thấy một số ví dụ về ảnh hưởng của các yếu tố trên đối với ảnh mặt người trong video Có thể thấy những yếu tố này ảnh hưởng rất lớn đến ảnh mặt người Vì vậy, nếu chỉ sử dụng một ảnh để biểu diễn cho một người thì sẽ không... này rất quan trọng đối với những hệ thống tìm kiếm người trên video trước sự bùng nổ của dữ liệu video khiến cho yêu cầu về một thuật toán so khớp nhanh và hiệu quả trên dữ liệu video lớn là cần thiết Thuật toán đã được so sánh với các phương pháp so khớp tiên tiến (min-min [3, 4, 5], k-Faces [9], MSM [7] và CMSM [8]) cả về độ chính xác và tốc độ dựa trên cách thức đánh giá tin cậy và được sử dụng rộng... track (chuỗi ảnh) Face track (hay chuỗi ảnh) là khái niệm cơ bản nhất trong hướng tiếp cận dựa trên face track Thực chất, mỗi face track là chuỗi nhiều ảnh mặt người của cùng một người Nói cách khác, face track là một tập hợp ảnh mặt của cùng một người có quan tâm tới thứ tự thời gian [10] Số lượng các ảnh trong một face track là không giới hạn, phụ thuộc vào thời gian xuất hiện của người đó trong video. .. vào của mô-đun này là một video nguyên bản và đầu ra sẽ là những face track trong video đó Biểu diễn ảnh mặt người: Sau giai đoạn rút trích mỗi face track chỉ đơn giản là một chuỗi các ảnh, mô-đun này có nhiệm vụ biểu diễn mỗi ảnh mặt người trong face track thành những vector đặc trưng Biểu diễn face track và so khớp: Dựa trên những vector đặc trưng đã được rút trích cho mỗi ảnh từ bước trước, các face... vùng ảnh mặt người thay vì trong một shot và tính toán lại mỗi khung hình Phương pháp này đã cho thấy cho thấy hiệu quả hơn phương pháp của Everingham và cộng sự trong [10] Hình 2-1: Gom nhóm face track dựa trên theo theo vết vùng đồng biến affine 2.2 Hướng tiếp cận biểu diễn ảnh mặt người Các face track sau khi được rút trích chỉ đơn giản là chuỗi những ảnh mặt người Quá trình biểu diễn ảnh mặt người. .. nhỏ nhưng lại mô tả được hầu hết những đặc điểm chính về phân bố của dữ liệu, do đó việc giữ lại chỉ những hướng chính này cũng có thể cho phép đạt được kết quả tương đương với toàn bộ dữ liệu Cho trước cơ sở dữ liệu gồm M ảnh mặt người Quá trình tính toán các mặt riêng được mô tả như sau: Tính toán ảnh mặt trung bình: Trừ mỗi ảnh mặt bởi giá trị trung bình này Tính toán ma trận : Tính toán vector... lưu trữ ảnh mặt của một người mà còn cho biết những biến đổi trạng thái của người đó, điều này khiến cho việc dùng face track có khả năng xử lý tốt hơn với những biến đổi phong phú của mặt người Hình 1-1: Ví dụ về face track Mỗi face track ứng với một người 1.1.2 Phát biểu bài toán Trong bài toán tìm kiếm nhân vật trong video, quá trình tìm kiếm không được thực hiện trực tiếp trên dữ liệu video thô... chỉ tốt đối với ảnh chính diện, khi đầu nhân vật bị nghiêng (sang trái, phải hoặc đang ngước lên, cúi xuống) thì kết quả so khớp sẽ bị ảnh hưởng Nguyên nhân là do khi mặt không ở tư thế nhìn chính diện, việc lấy đặc trưng mặt người sẽ trở nên khó khăn và không chính xác, hơn thế nữa một số bộ phận của mặt sẽ bị che khuất hoặc nhìn không rõ, do đó ảnh hưởng đến quá trình so khớp Nét mặt Khi nhân vật... thuật toán đã được so sánh dựa trên độ đo MAP (Mean Average Precision) thường dùng trong lĩnh vực truy vấn thông tin và phân loại đối tượng, trong khi đó tốc độ được so sánh không chỉ dựa trên kết quả thực nghiệm mà còn bằng lý thuyết dựa trên tính toán độ phức tạp của thuật toán Kết quả đánh giá cho thấy, thuật toán được đề xuất có thể thực hiện so khớp trên dữ liệu face track lớn một cách nhanh chóng . tìm kiếm người trên video trước sự bùng nổ của dữ liệu video khiến c ho yêu cầu về một thuật toán so khớp nhanh và hiệu quả trên dữ liệu video lớn là cần thiết. Thuật toán đã được so sánh với. video (các hiệu ứng chuyển cảnh). Hình 1-4 cho thấy một số ví dụ về ảnh hưởng của các yếu tố trên đối với ảnh mặt người trong video. Có thể thấy những yếu tố này ảnh hưởng rất lớn đến ảnh mặt. VŨ THANH HƯNG SO KHỚP CHUỖI ẢNH MẶT NGƯỜI TRÊN DỮ LIỆU VIDEO LỚN Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ (Ngành Tin học) NGƯỜI HƯỚNG DẪN KHOA HỌC: