Phương pháp nhận dạng khuôn mặt người từ webcam

7 454 8
Phương pháp nhận dạng khuôn mặt người từ webcam

Đang tải... (xem toàn văn)

Thông tin tài liệu

Phương p h p n h ậ n d n g k h u ô n m ặ t n g i t w e b c a m Nguyễn Thị Thanh T ân' Do«Cơng nghệ thông tin, Trường Đại học Điện lực Hà Nội, Việt Nam tanntt@epu.edu.vn Huỳnh Văn Huy12, Trường Đại học Bà Rịa Vũng Tàu Bà Rịa, Vùng Tàu huynhvanhuy@gmail.com Ngô Quốc Tạo ’ Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Hà Nội, Việt Nam nqtao@ioit.ac.vn há: Bài báo dề xuất IIIÔ hình hiệu q để giải (ibiltoan nhận dạng khn mặt trực tiếp từ hệ thống B É d K n Trong đó, báo tập trung vào Ịíỉhi« đoạn: Phát nhận dạng khn mặt từ hìnhwebcam Phinmg pháp phát khn mặt btổítuatsứdụng đặc trưng HOG phân lớp ỊstábSVM Mơ hình nhận dạng khn mặt đề Étrâcơsởmơ hình mạng neural học sâu FaceNet đễ |Mngtrích chọn đặc trưng khn mặt phân lóp Mkìiqcủa mơ hình nhận dạng kiểm nghiệm Ịboctậpco sớ liệu chuấn, dã cộng đồng nghiên aiihândạng khuụn mt ngũi trờn th giúi bao gm c ôtipi UOF, FEI, JAFFE LZW Cac kết thực tenKtolhâ) mơ hình đề xuất dạt dộ xác cao lfah tập liệu thử nghiệm thu thập từ »inàigtliụcte ÌíAot: khn mặt; khung hình (frame); nhận dạng; Ipsncural học sâu; tiền xử lý, chỉnh khuôn mặt; plliiỊii khn mặt; trích chọn đặc đặc trưng; phân klip mỉu ĐẬT VÁN ĐỀ I Trênthề giới, tốn nhận dạng sinh trắc học lóichung nhận dạng khn mặt nói riêng te đáutư nghiên cứu từ vài chục năm vê trước k dược nhiều kết lý thuyết lẫn ứng dụng It tiền Hiện công nghệ nhận dạng sinh lichọc không dùng đê xác thực nhân thân mà ■ dược dùng nhiều toán thực tiễn likiểmsoát vào/ra, kiêm soát truy cập mạng, đảm ■múc độ an ninh cân thiết khu vực quan te nhà ga, sân bay, ngân hàng, hỗ trợ tự ■hỏa chấmcông,v.v I ĩ|i V'iệt Nam, công nghệ nhận dạng sinh trắc Kccủngdã ứng dụng phổ biến, điển hình ■các hè thông châm công tự động dựa trcn nhận ■ vántay, mặt người, hệ thống giám sát an ■ phát đôi tương, phát đột nhập, phát |Ịệgvácảnh báo cố, bất thường Tuy nhiên, theo ■ kiêu nhóm tác giả, hâu hêt sản phâm tói dạng sinh trắc học có Việt Nam te chậpkhâu từ nước ngồi Trong báo này, chúng tơi đề xuất giải pháp tổng thể để giải tốn tốn nhận dạng khn mặt người trực tiẽp từ thiết bị camera/webcam, hướng tới mục tiêu ứng dụng xây dựng hệ thống camera giám sát, kiềm soát vào/ra, phát đột nhập, phát đối tượng lạ mặt, chấm cơng tự động, v.v Trong đó, việc cải thiện chát lượng nhận dạng tập trung hai cơng đoạn phát khn mặt trực tiêp từ khung hình nhận dạng khn mặt người phát Mơ hình phát khuôn mặt đê xuất sử dụng đặc trưng HOG phân lớp tuyên tính SVM [11J Mô hỉnh nhận dạng khuôn mặt đê xuât sử sở kêt hợp mơ hình mạng neural học sâu FaceNet [5] có khả tự động trích chợn đặc trưng khuôn mặt người phân lớp SVM Trong phần 2, báo đề cập đến hướng tiếp cận liên quan nhận dạng khuôn mặt người Phần đề xuất giải pháp tong thể đế nhận dạng khn mặt người với độ xác cao, đáp ứng tính thời gian thực, phù hợp với tốn nhận dạng khn mặt trực tiêp từ camera/webcam Các kết thực nghiệm, đánh giá hiệu quà cùa mơ hình trình bày phần Cuối phần kết luận tống kết lại kểt đạt số đe xuất cho hướng phát triền II CÁC HƯỚNG TIẾP CẶN LIÊN QUAN Nhận dạng mặt khuôn mặt người trình xác định danh tính tự động cho đơi tượng người ành/video dựa vào nội dung Rất nhiều hướng tiếp cận đề xuất đề giải tốn [7], [9], [15], [8] Nhìn chung, quy trình giải tốn thường bao gơm cơng đoạn bàn như: (i) Thu nhận hình ánh; (ii) Tiên xử lý, tăng cường chất lượng hình ảnh; (iii) Phát hiện, chinh, crop ánh khuôn mặt; (iv) Nhận dạng (trích chọn đặc trưng phân lớp) khn mặt Các hướng tiêp cận trước chủ yêu dựa đặc trưng (feature-based) cô găng đưa định nghĩa tường minh để biểu diễn khuôn mặt dựa trơn tỷ lệ khoảng cách, diện tích góc [15] Một biêu diên khuôn mặt định nghĩa tường minh hướng tới mục tiêu xây dựng không gian đặc trưng trực quan Tuy nhiên, thực tê biểu diễn định nghĩa tường minh thường khơng xác Đe khắc phục điều đó, hướng tiếp cận sau đề xuất dựa ý tường sử dụng mơ hình học máy thơng kê có khả học đê lựa chọn đặc trurng khuôn mặt từ tập mẫu cho trước, điển phương pháp PCA (Principal Component Analysis), khn mặt biêu diễn dạng tô hợp eigenvectors, eigenfaces fisherfaces [10], [17], phương pháp sử dụng mô hình mạng neural tích chập CNN (Convolutional Neural Network) [16] Hiện tại, hiệu q mơ hình nhận dạng khuôn mặt cài thiện đáng kê dựa việc kết hợp sử dụng mơ hình học sâu để tự động phát đặc trưng khuôn mặt kỹ thuật phân lóp thống kê Trong [20], [21], [22] tác già đê xuât mơ hình nhận dạng phức tạp, nhiều cơng đoạn dựa việc kết họp đấu mạng neural tích chập học sâu D-CNN (Deep Convolutional Neural Network) với PCA đê giảm chiều liệu phân lớp SVM Zhenyao cộng [22] xây dựng mạng neural học sâu đê chỉnh khuôn mặt theo hướng nhìn trực diện sau huấn luyện mạng CNN để phân lớp xác định danh tính cho khuôn mặt Y Taigman cộng [21] đề xuất mơ hình DeepFace dựa ý tưởng kết họp nhiều công đoạn (multi-stage): trước tiên sử dụng mô hình khn mặt chiều để chuấn hóa ảnh đầu vào (đã thu thập với thế, góc cạnh khác nhau) nhìn thẳng (trực diện), sau xây dựng kiến trúc mạng neural học sâu DNN (Deep Neural Net) với 120 triệu tham sơ, có khả học từ tập liệu khổng lồ với 4.4 triệu khuôn mặt gán nhãn Trong kiên trúc mạng DNN DeepFace, lớp mạng cuối dược loại bỏ đâu lớp mạng trước sử dụng biếu diễn thấp chiều khuôn mặt Các kết thực nghiệm cho thây mơ hình đạt độ xác 97.35% đơi với tập liệu LFW [6] Nhìn chung, ứng dụng nhận dạng khuôn mặt thường mong muốn tìm biéu diễn chiều, có khả tồng qt hóa tốt khn mặt mà mạng chưa huân luyện Mục tiêu DeepFace nhằm giải tốn đó, nhiên đế có biếu diễn cần phải huấn luyện mạng tập liệu lớn Đó điếm hạn chế DeepFace Trong [5], Florian Schroff cộng đề xuất kiên trúc mạng học sâu FaceNet với hàm chi phí ba (triplet loss function) định nghĩa trực tiêp biểu diễn Hình mơ tả q trình huấn luyện mạng FaceNet với hàm chi phí ba để học cách phân cụm biểu diễn khuôn mặt người Một siêu câu đơn vị (unit hypersphere) siêu cầu có sơ chiêu lớn cho khoảng cách từ tất cà điểm tới tâm siêu cầu Người: H Ềk ® Hình I Thù tục huấn luyện mạng FaceNet với hàm chi phí ba Các cài tiến quan trọng FaceNet bao gồm: (i) Đề xuất hàm chi phí ba; (ii) thủ tục lựa chọn ba huấn luyện; (iii) cho phép học lù tập liệu khống lồ để tìm kiến trúc mạng thích hợp III ĐẺ XT MƠ IIÌNH NHẬN DẠNG KHN MẶT NGƯỜI TÙ' WEBCAM Thực tế cho thấy, việc nhận dạng đối tượng nói chung nhận dạng khn mặt nói riêng trực tiếp từ hệ thống camera giám sát webcam vân tốn phức tạp, nhiều khó khăn, thách thức Đ ối tượng 'ác khuòn m ặt dược phát I Đ anh túth khuôn m ậ t đtíợe iứ tịn đ n ? Hình Phương pháp nhận dạng khuôn mặl người từ webcam Một thách thức điển hình cùa tốn hình ảnh khn mặt cùa đối tuợn chuyển động thay đối liên tực với nhiều thê góc nghiêng/xoay trạng thái khác Điều đòi hỏi thuật tốn nhận dạng phải có nâng tơng qt hóa, khơng bị ảnh hưởng nhiêu độ nghiêng/xoay, dịch chuyển cùa đối tượng Ngoài ra, việc nhận dạng trực tiêp từ camera/webcam ln đòi hói phải đáp ứng tính thời gian thực (real time) Mơ hỉnh nhận dạng khuôn măt người trực liếp từ webcam camera đề xuất cụ thể Hình Từ tín hiệu video đầu vào, bước xử lý tiến hành phân đoạn video thành khung hình (frame) riêng biệt Việc phân đoạn video tiên hành theo thời gian (ngưỡng chọn là24 khung hình giây) Mơi khung hình có thê khơng chứa, chứa phân chứa tồn khn mặt Vì vậy, bước xử lý đầu tiên, thuật toán tiên hành phát (face detection) xác định vị trí khn mặt (nếu có) ảnh Các khn mặt phát sau tiếp tục tiền xừ lý nhăm tăng cường chất Iượng hình ảnh (loại nhiễu, khử bóng/mờ), chuẩn hóa kích thước độ phân giải ảnh, chinh khuôn mặt hướng trực diện (nhìn thăng) Các khn mặt sau tiền xử lý sử dụng làm đầu vào cho mơ hình mạng neral học sâu (DNN-Deep Neural Network) Mơ hình tự động học trích chọn đặc trưng đê nhận dạng (phần lớp) khuôn mặt Bước xử lý cuối cùa thuật tốn tiến hành phần lóp (nhận diện) khn mặt Bản chất cùa việc phân lớp khuôn mặt tìm kiêm đơi tượng người có mẫu khn mặt giống với khuôn mặt cần nhận dạng Đe thực điều này, mơ hỉnh phân lóp cần phải huấn luyện với tập mẫu cho trước Trong đó, mẫu khn mặt thể tập đặc trưng thu từ mơ hình phát đặc trưng DNN bước A Phát khuôn mặt khung hình Như đề cập trên, bàn chất việc phát khuôn mặt trình tìm kiếm định vị khn mặt frame ảnh Phương pháp phát khuôn mặt đê xuất sử dụng đặc trưng HOG (Histograms of Oriented Gradients) phân lóp tun tính SVM (Support Vector Machines)) 111- H'mh Phương pháp phát khn mặt Ý tưởng đặc trưng HOG hình dạng trạng thái vật đặc trưng bới phân bố gradient hướng cạnh Đặc trưng phát triền dựa đặc trưng SIFT (Scale-Invariant Feature Transform), đặc trưng HOG tính vùng Do biến thiên màu sắc vùng khác nên vùng cho ta vector đặc trưng Vì đê có đặc trưng cùa tồn cửa sô (window) ta phải kết hợp nhiều vùng liên tiếp lại với Các bước quy trình phát khn mặt người khung hình mơ tả cụ thê Hình Đầu vào thuật toán frame ảnh thu từ bước phân đoạn video Bước xử lý tiến hành chuyển đổi ảnh không gian RGB (ảnh màu) sang ảnh đa câp xám (gray scale), sau tiên hành cân băng histogram ảnh gray scale đề giảm nhạy cảm với nguồn sáng Bước xử lý tính biến thiên màu sắc tất pixel ảnh gray scale theo chiều X [-l, 0, -1 1] theo chiều Y , thu ảnh gradient-x (đạo hàm theo trục x) gradient-y (đạo hàm theo trục y) có kích thước băng kích thước ánh gray scale Hai ảnh thu cho thấy biến thiên màu sắc nói Tiêp theo tiên hành tính góc hướng biến thiên màu săc từ ảnh gradient-x gradient-y Việc lưu trừ xác giá tri góc (orientation) điểm ành (x,y) ton nhiều chi phí không mang lại nhiều kết quả, ta chia khơng gian góc thành bin Việc phân chia bin nhỏ làm tăng độ xác, kêt thực nghiệm [18] cho thấy kích thước bin khoảng 200 cho kêt tốt nhât đôi với việc phát khuôn mặt người Do đó, với khơng gian hướng biến thiên miền từ 0° - 180° se chia thành bin sau: [0° - 20°], [21° 40°] [41° -60°], [61° - 80°], [81° - 100°], [101°120°], [121° - 140°], [141® - 160°], [161° - 180°] ứng với bin trên, tiến hành thống kê biên độ (magnitude) vị trí Với bin, vị trí (x,y) góc (orientation) thuộc bin giá trị bin vị trí (x,y) băng giá trị biên độ, ngược lại giá trị bin vị trí (x,y) băng Bước tiên hành tính tốn vector đặc trưng cho cell (mỗi cell thường chọn với kích thước 8x8 pixel) Vector đặc trưng cell gồm thành phần tương ứng với bin giá trị thành phần i tổng giá trị điểm bin i mà có tọa độ năm cell Tiêp theo, tính tốn vector đặc trưng cho khối (block), khối thường chọn với kích thước 2*2 cells (16x16 pixel) Vector đặc trưng khối tính cách ghép vector dặc trưng cell block lại với nhau, số thành phần vector đặc trưng khối tính theo công thức: StZ€jeaiure/block ttcell x*'OSize lZejeoiure/ceii >ck - »cell fe Trong đó: Sizéfeature/biocic đặc trưng block, nceii so cell block, Size/eature/ceii số feature cell Với giả thiết cell có kích thước 8x8 pixels, mồi block có kích thước 2x2 cells (16x 16 pixels), không gian hướng biến thiên xét miền miền từ 0° - 180u chia thành bin sơ đặc trưng mồi khối tính 4x9 = 36 thành phần Từ đó, tiến hành tính tốn vector đặc trưng các cửa sơ tồn ảnh đâu vào Trong đó, cửa so (Window) tạo khối xếp gối overlapping Đặc trưng cửa sổ tính băng cách ghép vector đặc trưng block tạo lên cửa sổ số thành phần đặc trưng cửa sổ xác định sau: f "w window - Wn 1block! window X ỈV block * n cell Ị wcelt k ! window k lb lo c k I Person Person / * H ẹ ell +1 ^ block!window^ S l Z € feature!block Trong đó: WwinJow WHhck Wceii chiều rộng window, block cell (tính theo đơn vị pixel); H wMom Hillock, Marti lân lượt chiều cao window, block cell (tính theo đơn vị pixel); tiBhc.yWindow số block cửa sổ, Sizeyeoiure/Window số đặc trưng cửa sổ (a) Khung hinh dâu vào Person ^ H cel! feature!window đề xuất sử dụng lớp mạng neural học sâu FaceNet, Florian Schroff cộng đà đè xuất năm 2015 [5] Đây mơ hình có khả học từ tập mẫu cho trước nhằm tự động phát đặc trưng quan trọng để nhận dạng đối tượng Ý tường hướng tiếp cận dựa việc học không gian Euclidean nhúng ứong ảnh sử dụng cấu hình mạng neural tích chập học sâu (deep convolutional network) Mạng huấn luyện cho khoảng cách L2 bình phương khơng gian nhúng tương ứng trực tiêp với độ tương tự cùa khuôn mặt Cụ thê khuôn mặt người có khoảng cách nho khn mặt cùa người khác có khống cách lern (Hình 5) (b) Các khudn mật phát Hình Kết q phát khn mặt Ở bước xử lý cuối cùng, toàn vector đặc trưng thu cứa sổ sử dụng làm đầu vào phân lớp tuyến tính SVM[12] Bộ phân lớp có nhiệm vụ xác định lớp mẫu (có chứa khuôn mặt hay không chứa khuôn mặt) đôi với ảnh đâu vào dựa tri thức mà thuật tốn huấn luyện Hình 4-b thể kết thuật tốn phát khn mặt người ảnh đầu vào cụ thể (Hình 4-a) B Nhận dạng khuôn mặt người Công đoạn nhận dạng thường gồm bước xử lý trích chọn đặc trưng phân lóp khn mặt Phương pháp trích chọn đặc trưng 28độctrưngđượcsinh bởímạngnưton 128 đệctrưrvgđượcSinh bỏ

Ngày đăng: 13/12/2017, 09:31

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan