Nghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiên

51 749 0
Nghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiên

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiênNghiên cứu nhận dạng tư thế bàn tay từ một chuỗi ảnh chiều sâu sử dụng cây quyết định ngẫu nhiên

i LỜI CAM ĐOAN Trong trình thực luận văn, dƣới hƣớng dẫn trực tiếp TS Nguyễn Đức Thắng, nghiên cứu hoàn thành luận văn với nổ lực nghiên cứu thân Do đó, xin cam đoan nội dung luận văn thực dƣới hƣớng dẫn TS Nguyễn Đức Thắng tham khảo đƣợc sử dụng luận văn có trích dẫn nguồn cụ thể, rõ ràng, trung thực tên tác giả, tên công trình nghiên cứu, thời gian địa điểm công bố Mọi chép không hợp lệ vi phạm quy chế đào tạo xin chịu hoàn toàn trách nhiệm / TP.HCM , Ngày … Tháng … Năm 2016 HỌC VIÊN THỰC HIỆN LUẬN VĂN PHẠM MINH LỘC ii LỜI CẢM ƠN Lời cảm ơn xin trân trọng gửi đến Ban Giám Hiệu Công Nghệ Bƣu Chính Viễn Thông thầy cô Khoa Công Nghệ Thông Tin tạo điều kiện cho hoàn thành tốt chƣơng trình đào tạo Thạc sĩ thời gian qua Đặc biệt xin gửi lời tri ân sâu sắc đến Thầy TS Nguyễn Đức Thắng, ngƣời tận tình hƣớng dẫn, giúp đỡ truyền đạt cho kinh nghiệm nghiên cứu khoa học quý báu suốt trình thực luận văn tốt nghiệp Lời cám ơn sau xin gửi đến toàn thể bạn bè, ngƣời thân, gia đình ngƣời gắn bó, chia kinh nghiệm, động viên ủng hộ mặt vật chất tinh thần để đạt đƣợc thành nhƣ ngày hôm TP.HCM , Ngày … Tháng … Năm 2016 HỌC VIÊN THỰC HIỆN LUẬN VĂN PHẠM MINH LỘC iii MỤC LỤC MỞ ĐẦU CHƢƠNG - TỔNG QUAN VỀ NHẬN DẠNG ẢNH THEO CHIẾU SÂU 1.1 Giới thiệu camera chiều sâu 1.2 Tổng quan loại camera đo ảnh theo chiều sâu 1.2.1 Stereo camera 1.2.2 “Time-of-flight” camera 1.2.3 Structured light camera 1.3 Tổng quan nhận dạng hình cảnh cử bàn tay 1.3.1 Giới thiệu tƣơng tác ngƣời máy 1.3.2 Cử bàn tay 1.3.3 Phƣơng pháp nhận dạng cử bàn tay sử dụng ảnh theo chiều sâu 1.3.4 Những nghiên cứu liên quan CHƢƠNG - NỘI DUNG NGHIÊN CỨU 10 2.1 Giới thiệu camera Kinect Microsoft 10 2.2 Cấu tạo camera Kinect 11 2.2.1 Hệ thống cảm biến chiều sâu 11 2.2.2 Camera RGB-D 12 2.2.3 Động cơ, máy đo gia tốc, micro 13 2.2.4 Phần mềm hỗ trợ 13 2.3 Tính toán độ sâu Kinect 13 2.4 Thƣ viện mã nguồn mở OpenCV 17 2.5 Kiến trúc OpenCV 17 2.6 Các ứng dụng OpenCV 18 2.7 Tổng quan giai đoạn nhận dạng cử bàn tay: 19 2.8 Huấn luyện ảnh theo chiều sâu 20 2.8.1 Thu thập liệu huấn luyện bàn tay 20 2.8.2 Tiền xử lý ảnh 21 2.8.3 Phân đoạn hình ảnh 22 2.8.4 Đặc trƣng ảnh theo độ sâu 24 2.8.5 Xây dựng liệu huấn luyện ảnh theo chiều sâu 25 iv 2.9 Nhận dạng biểu diễn tƣ bàn tay 27 2.9.1 Nhận dạng bàn tay từ ảnh theo chiều sâu 27 2.9.2 Thuật toán xử lý hiển thị hình ảnh bàn tay 27 CHƢƠNG - CÀI ĐẶT MÔI TRƢỜNG 28 3.1 Cài đặt kết nối camera Kinect 28 3.2 Cài đặt OpenCV cho môi trƣờng phát triển code 29 CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM 33 4.1 Mô tả liệu huấn luyện 33 4.2 Mô tả hệ thống 34 4.3 Độ xác thuật toán Random Forest 34 4.3.1 Theo số lƣợng huấn luyện 34 4.3.1 Theo độ sâu huấn luyện 35 4.4 Độ xác ảnh chiều sâu 36 4.4.1 Khả phân biệt phận bàn tay 37 4.4.2 Khả phân biệt hình dạng cử bàn tay 38 4.5 Nhận xét kết nghiên cứu 39 KẾT LUẬN 40 Những đóng góp luận văn 40 Hƣớng phát triển luận văn 40 DANH MỤC TÀI LIỆU THAM KHẢO 41 v DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt GPU Graphics Processing Unit Bộ xử lý đồ họa RGB RGB(red, green, blue) RGB (đỏ, xanh cây, xanh dƣơng) ToF Time of flight Đo thời gian ánh sáng LIDAR Light Detection And Ranging Theo dõi đƣờng ánh sáng SVM Support Vector Machine Máy học hổ trợ vector RGB-D Red, Green, Blue, Depth Đỏ, Xanh cây, Xanh dƣơng, Độ sâu IR Infrared Camera Camera hồng ngoại ML Machine Learning Máy học vi DANH MỤC CÁC HÌNH VẼ HÌNH 1.1 : CAMERA CREATIVE (STEREO CAMERA) HÌNH 1.2 : TOF CAMERA HÌNH 1.3 : CAMERA KINECT CỦA HÀNG MICROSOFT HÌNH 1.4 : CAMERA KINECT 10 HÌNH 1.5 : CẤU TẠO CAMERA KINECT .11 HÌNH 1.6 : SƠ ĐỒ KHỐI .11 HÌNH 1.7 : SƠ ĐỒ KHOẢNG CÁCH HOẠT ĐỘNG CỦA CAMERA KINECT .12 HÌNH 1.7 : QUÁ TRÌNH THU VỀ BẢN ĐỒ ĐỘ SÂU CỦA CAMERA KINECT .14 HÌNH 1.8 : MẪU HÌNH ĐƢỢC CHIẾU BỞI PROJECTOR VÀ CHỤP LẠI BẰNG IR CAMERA 14 HÌNH 1.9 : TÍNH TOÁN KHOẢNG CÁCH TỚI MỘT ĐIỂM CHIẾU TỪ PROJECTOR 15 HÌNH 2.1: KIẾN TRÚC CƠ BẢN CỦA OPENCV 18 HÌNH 2.2: CÁC GIAI ĐOẠN XỬ LÝ ẢNH .20 HÌNH 2.3: HÌNH ẢNH TỔNG HỢP CỦA MẪU HUẤN LUYỆN BÀN TAY 21 HÌNH 2.4: HÌNH ẢNH BÀN TAY ĐƢỢC CHỌC LỌC 21 HÌNH 2.5: HÌNH ẢNH BÀN TAY ĐƢỢC DÁN NHÃN SAU KHI PHÂN ĐOẠN .22 HÌNH 2.6 : CÁC VECTOR ĐỐI XỨNG XUNG QUANH ĐIỂM 24 HÌNH 2.7 : LẤY NGẪU NHIÊN ĐẶC TRƢNG CỦA CÁC ĐIỂM TRÊN BÀN TAY 25 HÌNH 2.8 : RANDOMIZED DECISION FORESTS 25 HÌNH 2.9 : THUẬT TOÁN NHẬN DẠNG BÀN TAY 27 HÌNH 3.1 : HIỂN THỊ BÀN TAY DÁN NHÃN 27 HÌNH 3.2: CÀI ĐẶT OPENCV .29 HÌNH 3.3: SỬ DỤNG CMAKE TẠO PROJECT 30 HÌNH 3.4: LỰA CHỌN MÔI TRƢỜNG PHÁT TRIỂN 30 HÌNH 3.5 : KHỞI TẠO CẤU HÌNH 31 HÌNH 3.6 : MỞ FILE OPENCV.SLN .31 HÌNH 3.7: CHỌN CHẾ ĐỘ RELEASE .32 HÌNH 3.8 : BUILD CHƢƠNG TRÌNH 32 HÌNH 3.9 : DỮ LIỆU HUẤN LUYỆN BÀN TAY .33 vii HÌNH 4.1 : MÔ PHỎNG HỆ THỐNG HUẤN LUYỆN VÀ NHẬN DẠNG CỬ CHỈ BÀN TAY 34 HÌNH 4.2: MÔ PHỎNG HỆ THỐNG HUẤN LUYỆN VÀ NHẬN DẠNG CỬ CHỈ BÀN TAY 34 HÌNH 4.3: ĐỘ CHÍNH XÁC CỦA THUẬT TOÁN THEO SỐ LƢỢNG CÂY HUẤN LUYỆN .35 HÌNH 4.4 : KẾT QUẢ SO SÁNH ĐỘ CHÍNH XÁC CỦA THUẬT TOÁN THEO CHIỀU SÂU 36 HÌNH 4.6: NHẬN DẠNG CÁC THÀNH PHẦN CỦA BÀN TAY 37 HÌNH 4.7 : ĐỒ THỊ BIỂU DIỄN ĐỘ CHÍNH XÁC CỦA TỪNG MẪU BÀN TAY 38 HÌNH 4.8 : NHẬN DẠNG CỬ CHỈ BÀN TAY THEO ẢNH CHIỀU SÂU .39 MỞ ĐẦU Từ thời kỳ máy tính bắt đầu xuất , vấn đề mà khiến nhiều nhà khoa học phải đau đầu phát minh máy tính việc giao tiếp ngƣời với máy tính Do hạn chế công nghệ nên ngƣời lúc giao tiếp với máy tính qua thiết bị chuột bàn phím Những thiết bị hiệu nhƣng với nhu cầu phát triển xã hội ngày lên, chúng ngày bộc lộ hạn chế định Với đột phá ngày mạnh mẽ trình độ khoa học ngày đạt đƣợc nhiều bƣớc tiến quan trọng, khiến cho việc sử dụng máy tính trở nên tiện dụng thân thuộc với ngƣời Ngoài thiết bị nhƣ chuột bàn phím xuất thiết bị giao tiếp khác nhƣ camera micro v.v Điều dẫn đến phát triển mạnh mẽ lĩnh vực nghiên cứu giao tiếp ngƣời với máy tính thông qua ngôn ngữ hình ảnh âm Khi so sánh hệ thống giao tiếp với máy tính hình ảnh âm thanh, hệ thống thị giác thích hợp hệ thống điều khiển âm môi trƣờng có nhiều âm ồn tạp âm khiến cho việc giao tiếp không xác.Việc nghiên cứu ngày trở nên cấp thiết đem lại nhiều ứng dụng tất lĩnh vực khác xã hội nhƣ : hỗ trợ tốt giao tiếp cho ngƣời khuyết tật (câm, điếc) , hỗ trợ điều khiển từ xa mà không cần thiết bị cảm biến phụ trợ ( điều khiển robot , loại game giải trí không cần thiết bị điều khiển ) v.v Những đề tài nghiên cứu trƣớc hạn chế công nghệ thiết bị camera (camera RGB), thuật toán xử lý ảnh chậm Trong đề tài đƣa hƣớng nghiên cứu mới, giúp cho việc nhận dạng nhanh chóng xác hơn, cải thiện đáng kể hiệu Với việc phát triển công nghệ , thiết bị camera có nhiều thay đổi đáng kể : camera vừa thu ảnh RGB vừa thu ảnh theo chiều sâu Đây công nghệ quan trọng đƣợc đƣa nghiên cứu đề tài việc nghiên cứu kỹ thuật nhận dạng tƣ bàn tay từ chuỗi ảnh theo chiều sâu dựa thuật toán định ngẫu nhiên Với lý nhƣ trên, ta thấy đƣợc tính cấp thiết đề tài ứng dụng rộng rãi nhiều lĩnh vực ngành nghề khác xã hội, đóng góp đáng kể cho việc nghiên cứu khoa học CHƢƠNG - TỔNG QUAN VỀ NHẬN DẠNG ẢNH THEO CHIẾU SÂU 1.1 Giới thiệu camera chiều sâu Camera theo chiều sâu hay camera 3D thiết bị thu nhận hình ảnh màu với màu Green, Red, Blue thực đo độ sâu hay khoảng cách tới đối tƣợng cần thu 1.2 Tổng quan loại camera đo ảnh theo chiều sâu [2] 1.2.1 Stereo camera Một camera stereo [2][43] loại máy ảnh với hai hay nhiều ống kính với đầu cảm biến hình ảnh khung hình cho ống kính Điều cho phép máy ảnh để mô ngƣời nhìn hai mắt cung cấp cho khả chụp ảnh ba chiều Camera stereo đƣợc sử dụng để làm trình chiếu ba chiều hình ảnh chiều sâu cho phim ảnh cho nhiều hình ảnh Khoảng cách ống kính camera stereo (khoảng cách nội trục) khoảng cách hai mắt ngƣời (đƣợc gọi khoảng cách nội nhãn cầu) Để chụp ảnh chiều sâu , camera stereo[43] đƣợc thực đƣợc với chi phí thấp cách chụp hai hình ảnh nhƣ máy ảnh số nhƣng di chuyển máy ảnh vài inches sang trái phải Nếu hình ảnh đƣợc chỉnh sửa để mắt thấy hình ảnh khác nhau, từ lấy đƣợc hình ảnh thể ba chiều Phƣơng pháp có vấn đề với đối tƣợng di chuyển khía cạnh khác đến đƣợc sử dụng 30 - Cài đặt CMake - Tiếp theo, ta sử dụng CMake tạo project để build file thƣ viện OpenCV phù hợp với Visual Studio 2010 Vào C:\OpenCV2.1, tạo thƣ mục build để chứa project Hình 3.3: Sử dụng CMake tạo project - Click nút Configure để lựa chọn môi trƣờng phát triển, lựa chọn Visual Studio 10 Win64 Click Finish Hình 3.4: Lựa chọn môi trƣờng phát triển 31 - Nhấn chọn tiếp nút Configure lần nữa, sau nhấn nút Generate để hoàn tất việc tạo project: Hình 3.5 : Khởi tạo cấu hình - Vào C:\OpenCV2.1\build, mở file OpenCV.sln vừa tạo: Hình 3.6 : Mở file OpenCV.sln - Khi biên dịch file dll lib cho OpenCV, nên lƣu ý chế độ project debug hay release Riêng trƣờng hợp này, biên dịch để sử dụng Visual Studio 2010 Windows x64, để tránh xảy lỗi : the application was unable to start correctly 0xc0150002 sau, nên để chế độ release 32 Hình 3.7: Chọn chế độ release - Biên dịch chƣơng trình, sau biên dịch, ta có file OpenCV dll C:\OpenCV2.1\build\bin\Release OpenCV lib C:\OpenCV2.1\build\lib\Release Ngoài ra, tập tin header h nằm địa chỉ: C:\OpenCV2.1\include\opencv Hình 3.8 : Build chƣơng trình 33 CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM 4.1 Mô tả liệu huấn luyện Bộ liệu dùng để huấn luyện thử nghiệm liệu thu thập đƣợc khoảng 10000 mẫu bàn tay Mỗi mẫu gồm ảnh màu bàn tay ảnh lƣu liệu độ sâu với độ phân giải 320×240, hình đƣợc chụp điều kiện ánh sáng nhiều vị trí khác Hình ảnh bàn tay chụp đƣợc đảm bảo phải lƣu đƣợc giá trị ảnh chiều sâu bàn tay Hình 3.9 : Dữ liệu huấn luyện bàn tay Với mẫu liệu hình ảnh bàn tay đƣợc đánh nhãn cho phận bàn tay đƣợc xử lý để loại đối tƣợng không cần thiết, giữ lại đối tƣợng bàn tay Cũng tƣơng tƣ nhƣ file ảnh lƣu độ sâu lƣu giá trị độ sâu đối tƣợng bàn tay loại bỏ giá trị đối tƣợng khác 34 Hình 4.1 : Mô hệ thống huấn luyện nhận dạng cử bàn tay 4.2 Mô tả hệ thống Đây hệ thống mà trình xử lý bao gồm trình huấn luyện với ảnh đầu vào đƣợc xử lý chọn lọc đặc trƣng nhận dạng Kết đầu trình xử lý trình nhận dạng hình ảnh để đƣa hình ảnh đƣợc nhận dạng xác phận đối tƣợng Ảnh huấn luyện Tiền xử lý ảnh Trích chọn đặc trƣng Huấn luyện liệu ảnh Ảnh nhận dạng Tiền xử lý ảnh Trích chọn đặc trƣng Nhận dạng hình ảnh Mô hình thuật toán Cây Quyết Định Lƣu trữ liệu huấn luyện ảnh chiều sâu Biểu diễn hình ảnh nhận dạng Hình 4.2: Mô hệ thống huấn luyện nhận dạng cử bàn tay 4.3 Độ xác thuật toán Random Forest 4.3.1 Theo số lượng huấn luyện Cây định ngẫu nhiên [18][16][5] thuật toán có khả nhanh chóng hiệu việc phân loại nhiều lớp thành phần chạy đa tác vụ [11][14][19] Và đƣợc thực hiệu GPU [17] Forest tập hợp liệu T định, có nút chia nút 35 Mỗi nút bao gồm tính fθ τ ngƣỡng Để phân loại điểm ảnh x hình ảnh, ngƣời ta gốc sau thực nhiều lần đánh giá để xác định đối tƣợng cần nhận dạng Ở đây, đánh giá độ xác thuật toán cấu huấn luyện từ nhiều định.Từ ta thấy đƣợc hiệu nhanh chóng thuật toán định ngẫu nhiên Hình 4.3: Độ xác thuật toán theo số lƣợng huấn luyện Theo hình 4.3, độ xác thuật toán định ngẫu nhiên bị ảnh hƣởng lớn với số lƣợng huấn luyện khác Ở đây, theo thử nghiệm số lƣợng huấn nhiều xác việc phân loại mô hình cao Nhƣng với số lƣợng huấn luyện nhiều độ phức tạp nhận dạng nhƣ thời gian xử lý lớn 4.3.1 Theo độ sâu huấn luyện Độ sâu định ảnh hƣởng đến độ xác kiểm tra cách sử dụng 10000 hình ảnh theo chiều sâu để nhận dạng Trong tất thông số thuật toán định ngẫu nhiên, độ sâu dƣờng nhƣ có ảnh hƣởng quan trọng trực tiếp tác động đến khả phân loại mô hình Ở đây, thiết lập 10 huấn luyện quan sát thay đổi khoảng chiều sâu 36 từ 50 Quan sát , thấy độ xác lớn kết tốt đạt đƣợc đào tạo huấn luyện với độ sâu lớn Nhƣng thời gian chạy với độ sâu lớn thời gian chi phí tính toán nhận dạng lớn Ta có tham khảo lƣu đô nhƣ hình 4.4 Hình 4.4 : Kết so sánh độ xác thuật toán theo chiều sâu 4.4 Độ xác ảnh chiều sâu Nhận dạng cử bàn tay lĩnh vực nghiên cứu mẻ Trong đề tài này, tìm hiểu lý thuyết xử lý nhận dạng ảnh chiều sâu , xây dựng đƣợc chƣơng trình mô nhận dạng cử bàn tay từ ảnh theo chiều sâu Ảnh theo chiều sâu ảnh lƣu giá trị mô tả khoảng cách từ camera tới đối tƣợng đƣợc thu ảnh Từ ảnh thu thập đƣợc chia thành nhiều nhóm theo loại cử đƣa vào tập huấn luyện Qua bƣớc huấn luyện, tạo 01 file để ghi lại đặc trƣng trích chọn từ liệu chiều sâu tƣ bàn tay bản.Từ , sử dụng làm liệu nhận dạng cử bàn tay 37 4.4.1 Khả phân biệt phận bàn tay Với liệu đƣợc đánh nhãn phân biệt phận khác bàn tay đƣa vào huấn luyện với thuật toán định ngẫu nhiên, ta nhận dạng đƣợc thành phần bàn tay đƣa liệu theo chiều sâu bàn tay vào nhận dạng Nhƣng mức độ phân biệt chi tiết rõ ràng thành phần bàn tay dính nhãn phụ thuộc tƣ bàn tay khác Hình 4.6: Nhận dạng thành phần bàn tay 38 Hình 4.7 : Đồ thị biểu diễn độ xác mẫu bàn tay Trong trình thực nghiệm nhận dạng nhiều mẫu ảnh, nhận thấy điều kiện ánh sáng khác kết nhận dạng tốt đạt độ xác đạt 60 - 100% Yếu tố làm ảnh hƣởng đến độ xác trình nhận dạng phụ thuộc nhiều tƣ bàn tay khác Với tƣ bàn tay có bề mặt quay vào hƣớng camera lớn camera đo sâu lấy đƣợc giá trị theo độ sâu nhiều dẫn đến khả nhận dạng tƣ bàn tay tốt Tuy nhiên, với ảnh theo chiều sâu mà bền mặt vật thể có độ phẳng cao hệ thống nhận dạng nhận dạng vật thể dựa giá trị theo chiều sâu tức khoảng cách từ pixel đến camera kinect 4.4.2 Khả phân biệt hình dạng cử bàn tay Với ảnh theo chiều sâu, khả nhận dạng hình dáng vật thể điều kiện ánh sáng khác tốt Hệ thống bị nhiễu camera không đo đƣợc khoảng cách từ camera đến vật thể, vật thể bị che khuất nằm vùng đo camera Thế nên, điều kiện ánh sáng khác vật thể không bị che khuất nhận dạng đƣợc rõ ràng hình dạng bàn tay 39 Hình 4.8 : Nhận dạng cử bàn tay theo ảnh chiều sâu 4.5 Nhận xét kết nghiên cứu Trong trình thực nhiệm nhận dạng nhiều mẫu ảnh, nhận thấy với ảnh chụp điều kiện ánh sáng với camera theo chiều sâu kết nhận dạng sử dụng thuật toán định ngẫu nhiên đạt độ xác đạt gần 80% tốc độ nhận dạng đƣợc cải thiện đáng kể Về mặt ƣu điểm phƣơng pháp nhận dạng cử bàn tay từ ảnh theo chiều sâu nên điều kiện ánh sáng nhận dạng đƣợc Ngoài ra, phƣơng pháp sử dụng thuật toán định ngẫu nhiên nên có khả huấn luyện liệu lớn, tốc độ nhận dạng nhanh Về khuyết điểm phƣơng pháp việc đánh nhãn để phân biệt phận trên bàn tay nhận dạng không đƣợc xác có tƣợng nhiễu Đặc biệt với tƣ bàn tay có diện tích camera thu đƣợc nhỏ mức độ nhiễu cao 40 KẾT LUẬN Những đóng góp luận văn Luận văn nghiên cứu thuật toán nhận dạng xử lý ảnh theo chiều sâu để áp dụng vào việc nhận dạng tƣ cử phân biệt thành phần bàn tay Từ đó, ta áp dụng để đƣa kỹ thuật nhận dạng đếm số lƣợng ngón tay qua cử chi bàn tay điều khiển cánh tay robot ứng dụng sản xuất đời sống Hiện luận văn đạt đƣợc mục tiêu lúc đầu đặt ra: Nhận dạng đƣợc cử thành phần bàn đạt gần 80% độ xác điều kiện ánh sáng Hƣớng phát triển luận văn Với kết đạt đƣợc từ phƣơng pháp nhận dạng ảnh chiều sâu sử dụng thuật toán định ngẫu nhiên, hiểu rõ sở lý thuyết, ƣu điểm nhƣợc điểm kỹ thuật xử lý nhận dạng ảnh theo chiều sâu xây dựng đƣợc liệu ảnh theo chiều sâu tƣ bàn tay.Từ đó, làm tiền đề để tiếp tục cải thiện khuyết điểm phƣơng pháp áp dụng ứng dụng điều khiển phục vụ đời sống, sản xuất công nghiệp Đây hƣớng mà dự định phát triển tƣơng lai :  Xây dựng mô tƣơng tác ngƣời môi trƣờng ảo  Xây dựng ứng dụng tƣơng tác bàn tay ngƣời với vật thể ba chiều, giả lập tƣợng vật lý  Xây dựng chơi game dùng chế giao tiếp thông qua cử  Xây dựng ứng dụng để kết nối điều khiển robot  Xây dựng ứng dụng phục vụ cho y học : điều khiển robot từ xa thông qua việc bắt chƣớc cử bàn tay phẩu thuật viện  Xây dựng ứng dụng dùng điều khiển cánh tay robot khu công nghiệp 41 DANH MỤC TÀI LIỆU THAM KHẢO [1] Jamie Shotton, Andrew Fitzgibbon, Mat Cook, Toby Sharp, Mark Finocchio, Richard Moore, Alex Kipman, Andrew Blake, “Real-Time Human Pose Recognition in Parts from Single Depth Images” In Proc CVPR, June 2011 [2] Kayvon Fatahalian, “Lecture 19: Depth Cameras” CMU 15-869: Graphics and Imaging Architectures (Fall 2011) [3] Gary Bradski and Adrian Kaehler, “OReilly Learning OpenCV” In the United States of America Published by O’Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472, 2008 [4] L.Bourdev and J.Malik Poselets , “Body part detectors traine dusing 3D human pose annotations” In Proc ICCV, 2009 [5] L Breiman, “Random forests” Mach Learning, 45(1):5–32, 2001 [6] D Comaniciu and P Meer Mean shift, “A robust approach toward feature space analysis” IEEE Trans PAMI, 24(5), 2002 [7] D Gavrila, “Pedestrian detection from a moving vehicle” In Proc ECCV, June 2000 [8] D Grest, J Woetzel, and R Koch, “Nonlinear body pose estimation from depth images” In In Proc DAGM, 2005 [9] S Ioffe and D Forsyth, “Probabilistic methods for finding people” IJCV, 43(1):45–68, 2001 [10] S Knoop, S Vacek, and R Dillmann, “Sensor fusion for 3D human body tracking with an articulated 3D body model” In Proc ICRA, 2006 [11] V Lepetit, P Lagger, and P Fua, “Randomized trees for real-time keypoint recognition” In Proc CVPR, pages 2:775–781, 2005 [12] Microsoft Corp, “Redmond WA Kinect for Xbox 360” [13] T Moeslund, A Hilton, and V Kr¨uger, “A survey of advances in vision-based human motion capture and analysis” CVIU, 2006 42 [14] F Moosmann, B Triggs, and F Jurie, “Fast discriminative visual codebooks using randomized clustering forests” In NIPS, 2006 [15] C Plagemann, V Ganapathi, D Koller, and S Thrun, “Real-time identification and localization of body parts from depth images” In Proc ICRA, 2010 [16] J R Quinlan, “Induction of decision trees” Mach Learn, 1986 [17] T.Sharp, “Implementing decision trees and forests on a GPU” InProc ECCV, 2008 [18] B.Shepherd, “An appraisal of a decision tree approach to image classification” In IJCAI, 1983 [19] J Shotton, M Johnson, and R Cipolla, “Semantic texton forests for image categorization and segmentation” In Proc CVPR, 2008 [20] M Siddiqui and G Medioni “Human pose estimation from a single view point, real-time range sensor ” In CVCG at CVPR, 2010 [21] L.Sigal, S.Bhatia, S.Roth, M.Black and M.Isard “Tracking loose limbed people”.In Proc CVPR, 2004 [22] J Winn and J Shotton, “The layout consistent random field for recognizing and segmenting partially occluded objects” In Proc CVPR, 2006 [23] Y Zhu and K Fujimura, “Constrained optimization for human pose estimation from depth sequences” In Proc ACCV, 2007 [24] A Agarwal and B Triggs 3D human pose from silhouettes by relevance vector regression In Proc CVPR, 2004 [25] D Anguelov, B Taskar, V Chatalbashev, D Koller, D Gupta, and A Ng Discriminative learning of markov random fields for segmentation of 3D scan data In Proc CVPR, 2005 [26] L Bourdev and J Malik Poselets: Body part detectors trained using 3D human pose annotations In Proc ICCV, 2009 [27] C Bregler and J Malik Tracking people with twists and exponential maps In Proc CVPR, 1998 1, 43 [28]P Felzenszwalb and D Huttenlocher Pictorial structures for object recognition IJCV, 61(1):55–79, Jan 2005 [29] D Grest, J Woetzel, and R Koch Nonlinear body pose estimation from depth images In In Proc DAGM, 2005 1, [30] S Ioffe and D Forsyth Probabilistic methods for finding people IJCV, 43(1):45–68, 2001 [31] E Kalogerakis, A Hertzmann, and K Singh Learning 3D mesh segmentation and labeling ACM Trans Graphics, 29(3), 2010 [32] G Mori and J Malik Estimating human body configurations using shape context matching In Proc ICCV, 2003 [33] R Navaratnam, A W Fitzgibbon, and R Cipolla The joint manifold model for semi-supervised multi-valued regression In Proc ICCV, 2007 [34] C Plagemann, V Ganapathi, D Koller, and S Thrun Real-time identification and localization of body parts from depth images In Proc ICRA, 2010 1, 2, [35] D Ramanan and D Forsyth Finding and tracking people from the bottom up In Proc CVPR, 2003 [36] G Rogez, J Rihan, S Ramalingam, C Orrite, and P Torr Randomized trees for human pose detection In Proc CVPR, 2008 [37] G Shakhnarovich, P Viola, and T Darrell Fast pose estimation with parameter sensitive hashing In Proc ICCV, 2003 [38] M Siddiqui and G Medioni Human pose estimation from a single view point, real-time range sensor In CVCG at CVPR, 2010 1, [39] L Sigal, S Bhatia, S Roth, M Black, and M Isard Tracking looselimbed people In Proc CVPR, 2004 1, [40] R Urtasun and T Darrell Local probabilistic regression for activityindependent human pose inference In Proc CVPR, 2008 [41] R Wang and J Popovi´ c Real-time hand-tracking with a color glove In Proc ACM SIGGRAPH, 2009 1, 44 [42] Y Zhu and K Fujimura Constrained optimization for human pose [43] Website https://en.wikipedia.org/wiki/Stereo_camera [44] Website https://en.wikipedia.org/wiki/Time-of-flight_camera [45] Website https://en.wikipedia.org/wiki/Structured_light [46] Website https://en.wikipedia.org/wiki/Lidar [47] Website http://www.en.wikipedia.org/wiki/Kinect [48]Website http://msdn.microsoft.com/en-us/library/dn188670.aspx [49]Website http://blogs.howstuffworks.com/2010/11/05/how-microsoft-kinect- works-an-amazing-use-of-infrared-light/ [50]Website http://www.aurelien.plyer.fr/the-kinect/how-the-kinect-work/ [51]Website http://123doc.org/doc_search_title/1448046-tim-hieu-ve-opencv.htm [...]... liệu bàn tay Các bƣớc thực hiện :  Viết chƣơng trình kết nối camera Kinect, hiển thị ảnh theo độ sâu của bàn tay  Kiểm tra thuật toán với bàn tay không mang găng tay Chƣơng trình cài đặt thuật toán cây quyết định ngẫu nhiên sẽ nhận đƣợc tƣ thế bàn tay từ các ảnh chiều sâu và hiển thị hình ảnh RGB phân biệt các bộ phận của bàn tay đƣợc lấy ra từ bộ huấn luyện Hình 2.9 : Thuật toán nhận dạng bàn tay. .. thƣờng của một bộ phận của bàn tay đƣợc phủ nhãn (x) cho tất cả (I, x) € Q Nếu đạt đƣợc lớn nhất G (φ*) là đặc trƣng và chiều sâu trong cây là dƣới mức tối đa, sau đó tái phân bổ cho các tập con trái Ql(φ*) và tập con phải Qr(φ*) 27 2.9 Nhận dạng và biểu diễn tƣ thế bàn tay 2.9.1 Nhận dạng bàn tay từ ảnh theo chiều sâu Đây là bƣớc kiểm tra nhận dạng của thuật toán cây quyết định ngẫu nhiên sau khi... toán xử lý và hiển thị hình ảnh bàn tay Sau khi nhận dạng bàn tay, hình ảnh hiển thị là hình bàn tay có dán nhãn các bộ phận của bàn tay Với những thuật toán theo dõi đối tƣợng, ta có thể theo dõi các chuyển động khác nhau của bàn tay với các nhãn phân biệt từng bộ phận của bàn tay Từ đó, ta có thể phát triển đƣợc ứng dụng để nhận dạng cử chỉ bàn tay Hình 3.1 : Hiển thị bàn tay dán nhãn 28 CHƢƠNG 3 -... liệu ảnh Ảnh nguồn Mô hình thuật toán Cây Quyết Định Tiền xử lý ảnh Nhận dạng Lƣu trữ dữ liệu huấn luyện ảnh depth Biểu diễn hình ảnh nhận dạng Hình 2.2: Các giai đoạn xử lý ảnh 2.8 Huấn luyện ảnh theo chiều sâu 2.8.1 Thu thập dữ liệu huấn luyện bàn tay Để có đƣợc bộ dữ liệu huấn luyện của bàn tay, ta cần có trên 10000 mẫu tƣ thế bàn tay khác nhau và huấn luyện máy học Mỗi bộ mẫu huấn luyện gồm : một. .. trận ảnh theo độ sâu, một hình ảnh màu RGB phân biệt đƣợc các bộ phận chi tiết của bàn tay Các bƣớc thực hiện :  Chuẩn bị găng tay vải thun, ôm sát bàn tay Trên găng tay dùng sơn màu để đánh dấu những thành phần của bàn tay  Viết chƣơng trình kết nối camera Kinect có thể biểu diễn và lƣu hình ảnh chiều sâu và ảnh RGB của mẫu bàn tay 21  Chạy chƣơng trình để lƣu lại các tƣ thế khác nhau của bàn tay. .. nhiều hình dạng và kích cỡ trong những tƣ thế bàn tay rất đa dạng tạo thành một cơ sở dữ liệu lớn lƣu trữ các tƣ thế của bàn tay Tôi huấn luyện dựa trên thuật toán cây quyết định ngẫu nhiên [16][17] cải thiện tốc độ nhanh hơn khi sử dụng số lƣợng lớn hình ảnh huấn luyện Tóm lại , việc phân biệt hình ảnh so sánh chiều sâu làm tăng năng suất và giữ ổn định các điểm ảnh mà vẫn duy trì sự tính toán hiệu quả... trong tất cả các cây trong tập hợp dữ liệu để cung cấp cho các phân loại cuối cùng cho hình ảnh Huấn luyện: Mỗi cây đƣợc tập huấn về một tập khác nhau đƣợc lấy ngẫu nhiên hình ảnh tổng hợp Một tập hợp ngẫu nhiên lấy khoảng 3000 mẫu pixels từ mỗi hình ảnh đƣợc lựa chọn để đảm bảo phân bố đều trên các bộ phận bàn tay Mỗi cây đƣợc huấn luyện sử dụng theo thuật toán [11] Ngẫu nhiên đề xuất một tập hợp dữ... tính nhận dạng Các cử động của bàn tay đƣợc phát hiện dựa trên tập dữ liệu về bàn tay đƣợc thu thập và huấn luyện từ trƣớc Hai hƣớng tiếp cận chính để thu nhận thông tin về bàn tay có thể sử dụng là: dùng găng tay chuyên biệt có gắn thiết bị cảm biến khớp tay với phƣơng pháp quang học 1.3.2 Cử chỉ bàn tay Thật khó để có thể giải quyết với một định nghĩa cụ thể nào của cử chỉ do có nhiều ứng dụng đề... một thiết bị cảm nhận nhƣ camera hay webcame , thiết bị sẽ thu nhận hình ảnh bàn tay, nhận dạng cử chỉ để phát lệnh điều khiển tƣơng ứng Để nhận dạng cử chỉ, bƣớc đầu tiên trong các hệ thống nhận dạng là phát hiện ra vị trí bay tay bằng một thiết bị đặc biệt nhƣ camera để thu thập các quan sát chuyển động cử chỉ bàn tay Sau đó tiến hành xử lý hình ảnh để lọc ra đƣợc ảnh cử chỉ bàn tay và đƣa vào huấn... giữa ngƣời gửi và thiết bị nhận 1.3.3 Phương pháp nhận dạng cử chỉ bàn tay sử dụng ảnh theo chiều sâu Hiện nay, ứng dụng tƣơng tác dựa vào cử chỉ bàn tay đƣợc phát triển mạnh mẽ và áp dụng trong chơi game hoặc tƣơng tác của con ngƣời và máy tính hoặc robot mà không cần thiết bị điều khiển , ứng dụng nhận dạng trong lĩnh vực an ninh, ứng dụng điều khiển trong các hội thảo từ xa và thậm chí là lĩnh vực ... thu ảnh RGB vừa thu ảnh theo chiều sâu Đây công nghệ quan trọng đƣợc đƣa nghiên cứu đề tài việc nghiên cứu kỹ thuật nhận dạng tƣ bàn tay từ chuỗi ảnh theo chiều sâu dựa thuật toán định ngẫu nhiên. .. Tổng quan nhận dạng hình cảnh cử bàn tay 1.3.1 Giới thiệu tƣơng tác ngƣời máy 1.3.2 Cử bàn tay 1.3.3 Phƣơng pháp nhận dạng cử bàn tay sử dụng ảnh theo chiều sâu 1.3.4... luyện , tạo hình ảnh theo chiều sâu hình ảnh thực từ nhiều hình dạng kích cỡ tƣ bàn tay đa dạng tạo thành sở liệu lớn lƣu trữ tƣ bàn tay Tôi huấn luyện dựa thuật toán định ngẫu nhiên [16][17] cải

Ngày đăng: 18/12/2016, 00:02

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan