Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)

Thông tin tài liệu

Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG TRẦN THANH TUẤN NHẬN DIỆN HÀNH ĐỘNG CỦA CON NGƯỜI TRONG VIDEO SỬ DỤNG DEEP LEARNING Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH – NĂM 2017 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS BÙI XUÂN LỘC Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ngày nay, dữ liệu video dễ dàng đươ ̣c ta ̣o bởi các thiế t bi ̣ như: điện thoa ̣i di động, máy tiń h xách tay, máy ảnh kỹ thuật số , hệ thống camera quan sát (CCTV)…bên ca ̣nh đó các trang web chia sẻ video không ngừng tăng trưởng số lượng lẫn chất lượng Bài toán nhận diện hành động người video đóng góp một phầ n tự động hóa khai thác tài nguyên dữ liệu nhiề u thông tin này Các ứng dụng liên quan đến toán nhận diện hành động như: - An ninh và các hệ thố ng giám sát truyề n thố ng gồ m ma ̣ng lưới các camera và đươ ̣c giám sát bởi người - Tương tác giữa người và máy vẫn còn nhiề u thách thức, những dấ u hiệu thi ̣ giác là phương thức quan tro ̣ng nhấ t giao tiế p phi ngôn ngữ Khai thác hiệu quả phương thức giao tiế p này: Thông qua cử chỉ, hành động, hoa ̣t động hứa he ̣n ta ̣o thế hệ máy tính tương tác xác và tự nhiên hơn với người - Bên ca ̣nh đó nhận diện hành động người video còn đươ ̣c ứng du ̣ng tóm tắ t, truy vấ n video, phân tić h thể thao Deep Learning chủ đề Trí truệ nhân tạo, tập trung giải vấn đề liên quan đến mạng nơron nhân tạo nhằm nâng cấp công nghệ nhận diện giọng nói, thị giác máy tính xử lý ngơn ngữ tự nhiên… Đã có nhiều nghiên cứu toán nhận diện hành động người video như: nhóm tác giả Karpathy, Toderici, Shetty, Leung, Sukthankar & Fei-Fei sử dụng CNNs để phân loại Video theo hành động người [5], nhóm tác giả Ji, Xu, Yang, & Yu sử 3D CNN để nhận diện hành động người [4] 2 Vì lý đó, luận văn nghiên cứu ứng dụng Deep Learning vào toán nhận diện hành động người video, đồng thời đề xuất cải tiến tham số đầu vào thuật toán để tăng hiệu nhận diện so với thuật toán Nội dung luận văn gồ m chương: Chương giới thiệu tổng quan deep learning toán nhận diện hành động thị giác máy tính Chương giới thiệu ứng dụng deep learning nhận diện hành động người, bao gồm tổng quan, thuật toán CNN giải thuật Optimazation Deep Learning Khái quát mạng nơron xử lý ảnh nêu kiến trúc mạng CNN xem xét nghiên cứu Chương thực nghiệm đánh giá kiến trúc mạng nghiên cứu Bao gồm mô tả dữ liệu giải thuật nghiên cứu Cách thực nghiệm cho mơ hình, sau đánh giá độ xác giải thuật 3 CHƯƠNG - TỔNG QUAN VỀ DEEP LEARNING VÀ BÀI TOÁN NHẬN DIỆN HÀNH ĐỘNG TRONG THỊ GIÁC MÁY TÍNH 1.1 Tổng quan Deep Learning 1.1.1 Deep Learning gì? Deep Learning chủ đề Trí truệ nhân tạo (AI) phạm trù nhỏ máy học Deep Learning tập trung giải vấn đề liên quan đến mạng nơron nhân tạo nhằm nâng cấp công nghệ nhận diện giọng nói, thị giác máy tính xử lý ngôn ngữ tự nhiên Deep Learning trở thành những lĩnh vực quan trọng khoa học máy tính Chỉ vài năm, Deep Learning thúc đẩy tiến đa dạng lĩnh vực nhận thức sự vật (object perception), dịch tự động (machine translation), nhận diện giọng nói - những vấn đề khó khăn với nhà nghiên cứu trí tuệ nhân tạo 1.1.2 Mạng nơron nhân tạo Trong công nghệ thông tin, mạng nơron nhân tạo hệ thống chương trình cấu trúc dữ liệu mô cách vận hành não người Một mạng nơron thường bao gồm lượng lớn vi xử lý hoạt động song song, vi xử lý chứa đựng vùng kiến thức riêng truy cập vào dữ liệu nhớ riêng Trong mạng nơron nhân tạo, nơron node (node đơn vị nơron mạng nơron nhân tạo – máy tính mạng nơron xem node) kết nối với mạng lưới lớn Bản thân node trả lời những câu hỏi không thông minh, gộp chung với chúng lại có sức mạnh xử lý những tác vụ khó Và điều quan trọng những thuật tốn phù hợp, dạy huấn luyện chúng 4 1.1.3 Một số ứng dụng Deep Learning - Hệ thống gợi ý tảng - Nhận diện hình ảnh - Xử lý ngơn ngữ tự nhiên 1.2 Bài tốn nhận diện hành động thị giác máy tính 1.2.1 Tổng quan thị giác máy tính Thị giác máy tính (Computer Vision) lĩnh vực phát triển Khái niệm thị giác máy tính có liên quan tới nhiều ngành học hướng nghiên cứu khác Từ những năm 1970 mà lực tính tốn máy tính ngày trở nên mạnh mẽ hơn, máy tính lúc xử lý những tập dữ liệu lớn hình ảnh, đoạn phim khái niệm kỹ thuật thị giác máy tính ngày nhắc đến nghiên cứu nhiều ngày Hiện lĩnh vực chuyên gia đánh giá “non nớt” có nhiều sự thay đổi thời gian tới 1.2.1.1 Thế thị giác máy tính Thị giác máy tính bao gồm lý thuyết kỹ thuật liên quan nhằm mục đích tạo hệ thống nhân tạo tiếp nhận thơng tin từ hình ảnh thu tập dữ liệu đa chiều Đối với người chúng ta, q trình nhận thức giới bên ngồi điều dễ dàng Q trình nhận thức “học” thơng qua q trình sống người Tuy nhiên với vật vô tri vô giác như máy tính, robot… điều thực bước tiến gian nan Các thiết bị ngày khơng nhận thơng tin dạng tín hiệu đơn lẻ mà có “nhìn” thật với giới bên ngồi Cái “nhìn” qua q trình phân tích, kết hợp với mơ máy học, mạng nơron… giúp cho thiết bị tiến dần tới hệ thống nhân tạo có khả định linh hoạt đắn nhiều 5 1.2.1.2 Ứng dụng thị giác máy tính Lĩnh vực nghiên cứu thị giác máy tính rộng, đặc điểm chung toán thị giác máy tính khơng có đề chung cách giải Mỗi giải pháp giải vấn kết định cho những trường hợp cụ thể Một vài lĩnh vực mà Computer Vision ứng dụng kể tới sau: - Điều khiển tiến trình (ví dụ: robot công nghiệp, hay thiết bị, xe tự hành) - Phát sự thay đổi (ví dụ: thiết bị giám sát) - Tổ chức thơng tin (ví dụ: số kho dữ liệu ảnh chuỗi ảnh liên tục) - Mơ hình hố đối tượng (ví dụ: q trình kiểm tra mơi trường cơng nghiệp, xử lý ảnh y học) - Tương tác (đóng vai trò làm đầu vào cho thiết bị q trình tương tác giữa người máy) 1.2.2 Nhận diện hành động người Nhận diện hành động người lĩnh vực nghiên cứu rộng rãi thị giác máy tính Các ứng dụng bao gồm hệ thống giám sát, phân tích video, robot loạt hệ thống có liên quan đến sự tương tác giữa người thiết bị điện tử giao diện người-máy tính Nhận diện hành động người phát triển bắt đầu vào đầu năm 1980 Hiện nay, nghiên cứu chủ yếu tập trung vào việc học nhận biết hành động từ chuỗi video Một hành động chuỗi chuyển động thể người, bao gồm nhiều phận thể đồng thời Từ quan điểm thị giác máy tính, việc nhận dạng hành động để phù hợp với quan sát (ví dụ: video) với mẫu xác định trước sau gán cho nhãn loại hành động Tùy thuộc vào độ phức tạp, hoạt động người phân loại thành bốn cấp độ: cử chỉ, hành động, tương tác hoạt động nhóm [1], nhiều nghiên cứu theo hướng cấu trúc từ lên nhận dạng hoạt động người Các phần hệ thống bao gồm trích xuất đặc trưng, học tập hành động, phân loại, nhận dạng hành động phân đoạn [6] Một quy trình đơn giản gồm ba bước, cụ thể phát người phận thể, theo dõi, sau nhận cách sử dụng kết theo dõi Ví dụ, để nhận hành động “bắt tay”, cánh tay bàn tay hai người phát trước tiên theo dõi để tạo mô tả không gian-thời gian chuyển động họ Mô tả so sánh với mẫu có dữ liệu huấn luyện để xác định loại hành động Mơ hình dựa nhiều vào tính xác việc theo dõi, điều không đáng tin cậy những cảnh lộn xộn Nhiều phương pháp đề xuất, phân loại theo nhiều tiêu chí khác luận điều tra có Poppe [6] thảo luận nhận dạng hành động người từ biểu diễn hình ảnh phân loại hành động riêng rẽ Weinland [8] khảo sát phương pháp cho biểu diễn hành động, phân đoạn nhận dạng Turaga [7] chia vấn đề nhận dạng thành hành động hoạt động theo độ phức tạp, hướng tiếp cận phân loại theo khả để xử lý mức độ phức tạp khác Có nhiều tiêu chí phân loại khác [1], [2], [3] Trong số đó, Aggarwal Ryoo [1] những tổng kết toàn diện so sánh sự tiến quan trọng lĩnh vực Dựa vào hành động nhận dạng từ hình ảnh đầu vào trực tiếp, Aggarwal Ryoo [1] phân chia phương pháp nhận dạng thành hai loại chính: phương pháp tiếp cận đơn lớp phương pháp tiếp cận phân cấp Cả hai thêm loại phụ thuộc vào phương pháp biểu diễn đặc trưng học Kết luận chương Chương trình bày tổng quan thị giác máy tính, nhận diện hành động người Deep Learning 7 CHƯƠNG - ỨNG DỤNG DEEP LEARNING TRONG NHẬN DIỆN HÀNH ĐỘNG CON NGƯỜI 2.1 Giới thiệu Convolutional Neural Network 2.1.1 Tổng quan Convolutional Neural Network (CNN) bao gồm nhiều lớp chập (thường với bước lấy mẫu con) sau theo sau nhiều lớp kết nối mạng nơron đa lớp chuẩn Kiến trúc CNN thiết kế để tận dụng lợi cấu trúc chiều hình ảnh đầu vào (hoặc đầu vào chiều khác tín hiệu tiếng nói) Điều đạt với kết nối cục trọng số ràng buộc theo số hình thức tổng hợp mà kết đặc trưng không thay đổi Một lợi ích khác CNN dễ dàng huấn luyện có thơng số so với mạng kết nối đầy đủ với số đơn vị ẩn 2.1.2 Kiến trúc CNN CNN gồm số lớp chập lớp lấy mẫu tùy chọn, lớp kết nối Đầu vào cho lớp chập hình ảnh m × m × r, với m chiều cao chiều rộng hình ảnh r số kênh (ví dụ ảnh RGB có r=3) Lớp chập có k lọc có kích thước n × n × q, n nhỏ kích thước hình ảnh q nhỏ số kênh r Kích thước lọc tăng đến cấu trúc kết nối cục bộ, lọc xoắn với hình ảnh để tạo k đồ đặc trưng có kích thước m – n + Mỗi đồ lấy mẫu đặc trưng với việc hợp trung bình lớn p × p khu vực lân cận, phạm vi p giữa (cho hình ảnh nhỏ) (chi đầu vào lớn hơn) Trước sau lấy mẫu con, bias bổ sung xích ma phi tuyến áp dụng cho đồ đặc trưng 8 Hình 2.1: Lớp CNN Sau lớp chập, có số lớp kết nối đầy đủ Các lớp kết nối dày đặc giống với lớp mạng nơron đa lớp chuẩn 2.2 Vấn đề Overfitting Underfitting Sau lựa chọn mơ hình phù hợp chẳng hạn Logistic Regression cho Classification Problem, hay Linear Regression cho Regression Problem ta xây dựng dự đốn h(x), hàm chi phí C(θ) tối thiểu hóa hàm chi phí nhiều Đến bước gặp vấn đề với Overfitting Underfitting - Overfitting Underfitting: Hình 2.2: Ví dụ Underfitting (Nguồn: http://labs.septeni-technology.jp) Hình 2.3: Ví dụ Fit (Nguồn: http://labs.septeni-technology.jp) Hình 2.4: Ví dụ Overfitting (Nguồn: http://labs.septeni-technology.jp) Underfitting mơ hình q đơn giản, khơng thể giảm thiểu đáng kể hàm chi phí nên khơng thể mơ tả xu hướng dữ liệu (còn gọi High Bias) Ngược lại Overfitting lại mơ hình q phức tạp, giảm thiểu đáng kể, chí tồn sai số khơng thể mơ tả xu hướng dữ liệu (còn gọi High Variance) - Cách giải quyết: Với Underfitting đơn mơ hình q đơn giản, nên ta cần thêm những thành phần đa thức để phức tạp Nên giá trị hàm chi phí lớn ta 10 đẩy bậc hàm số lên Dĩ nhiên đẩy lên cao ta gặp vấn đề hiệu Overfitting Với Overfitting cơng việc lại ngược lại, mơ hình phức tạp nên ta cần giảm bậc hàm số hay giảm số lượng đặc trưng Việc giảm đặc trưng bỏ bớt những thành phần đa thức, ta bỏ bớt những đặc trưng khơng cần thiết Một cách khác áp dụng Regularization 2.3 Các giải thuật Optimization Thuật toán huấn luyện nhiều mơ hình máy học phát biểu hình thức dạng tốn Optimization, chẳng hạn mơ linear/logistic regression, ANN, SVM, k-means… Ý tưởng chung mơ hình có tập tham số θ cần phải xác định giá trị thơng qua trình huấn luyện với dữ liệu ta cần tìm θ để cực tiểu hóa hàm chi phí C(θ) Mặc dù lí thuyết optimization vấn đề đầy đủ với nhiều phương pháp khác nhau, nghiên cứu trình bày tổng quan số giải thuật Optimization - Các giải thuật  Gradient Descent  Stochastic Gradient Descent  Momentum - Các giải thuật dựa vào chiến lược lựa chọn Learning Rate  AdaGrad  RMSPro  Adam 11 - Lựa chọn giải thuật Optimization nào? Hiện tại, giải thuật Optimization hóa phổ biến tích cực sử dụng bao gồm SGD, SGD với momentum, RMSProp, RMSProp với momentum, AdaDelta Adam Sự lựa chọn giải thuật để sử dụng, dường phụ thuộc phần lớn vào sự quen thuộc người dùng với giải thuật (để dễ dàng điều chỉnh siêu số) 2.4 Thuật toán CNN nhận diện hành động 2.4.1 Thuật toán Một CNN, gồm nhiều giai đoạn huấn luyện xếp chồng lên nhau, sử dụng để trích xuất đặc trưng phân cấp Hình 2.5: Kiến trúc CNN nhận diện hành động người Chập hình ảnh đầu vào với lọc huấn luyện khác bias bổ sung, nhiều đồ đặc trưng tạo lớp C1 Mỗi đồ đặc trưng S2 thu thao tác tổng hợp đồ đặc trưng tương ứng lớp C1 Chập tổng hợp cực đại lớp C3 S4 giống lớp C1 S2 Trong bước nhận diện cuối cùng, đặc trưng thu sau tổng hợp cực đại lớp S4 mã hóa thành vector chiều 12 Hình 2.6: Quá trình chập tổng hợp cực đại Quá trình chập: sử dụng lọc huấn luyện 𝑓𝑥 = 1+𝑒 −x để chập ảnh đầu vào, sau thêm bias 𝑏𝑥 , tạo thành lớp xoắn 𝐶𝑥 Quá trình tổng hợp cực đại: lấy pixel lớn pixel lân cận, sau tính trọng số 𝑊𝑥+1 thêm bias 𝑏𝑥+1 , sau truyền hàm kích hoạt xích ma, tạo thành đồ đặc trưng có kích thước giảm lần 2.4.2 Kiến trúc CNN xem xét nghiên cứu Mơ hình mạng sử dụng luận văn mơ tả Hình 2.4 gồm có lớp Convolution có 64 filter với kích thước 5x5, xen kẽ lớp Convolution lớp Max-pool với filter có kích thước 2x2 Tiếp sau lớp Fully-connected với kích thước 256 128 Cuối cùng, tập phân loại softmax cho phân bố xác suất nhãn đầu Nhãn có xác suất cao chọn làm dự đốn cuối Hình 2.7: Kiến trúc CNN xem xét nghiên cứu 13 Kết luận chương Chương trình bày thuật tốn CNN, kỹ thuật Optimization Regularization Deep Learning Đồng thời nêu kiến trúc mạng CNN xem xét nghiên cứu luận văn 14 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Giới thiệu TensorFlow TensorFlow [9] thư viện phần mềm mở cho tính tốn số, sử dụng biểu đồ luồng dữ liệu Các nút đồ thị biểu diễn cho hoạt động toán học, cạnh đồ thị biểu diễn cho mảng dữ liệu đa chiều (tensors) trao đổi giữa chúng Kiến trúc linh hoạt cho phép triển khai tính tốn nhiều CPU GPU máy tính để bàn, máy chủ, thiết bị di động với API đơn TensorFlow ban đầu phát triển nhà nghiên cứu kỹ sư làm việc nhóm Google Brain cho nghiên cứu máy học deep neural network TensorFlow có API với số ngơn ngữ lập trình cho xây dựng thực thi đồ thị TensorFlow Python API hoàn thiện dễ sử dụng nhất, API C++ có vài ưu điểm hiệu việc thực thi đồ thị, hỗ trợ triển khai thiết bị nhỏ Android 3.2 Thông tin liệu Nghiên cứu sử dụng dữ liệu KTH với thơng tin: - Gồm có: 600 video trắng đen ghi camera tĩnh (192 huấn luyện, 192 validation, 216 kiểm tra) - Độ phân giải: 160x120 - hành động: walking (đi), jogging (chạy bộ), running (chạy nhanh), boxing (đấm bốc), hand waving (vẫy tay), hand clapping (vỗ tay) - 25 người, cảnh - Link: http://www.nada.kth.se/cvap/actions 15 Hình 3.1: Bộ liệu KTH 3.3 Mơ tả phương pháp thực nghiệm 3.3.1 Môi trường thực nghiệm - Ngôn ngữ Python 3.5.2 - Thư viện TensorFlow 1.1.0 - CPU Intel Core i5 2.86 GHz, Ram 8GB 1600 MHz DDR3 - Hệ điều hành: MacOS Sierra 3.3.2 Tiền xử lý video - Sử dụng thư viện ffmpeg để tách video thành frame - Phân chia frame thành tập: huấn luyện, kiểm thử validation theo mô tả tập tin 00sequences.txt dữ liệu KHT 16 Hình 3.2: Mơ tả chi tiết liệu KTH Kết sau phân chia thành tập dữ liệu huấn luyện Bảng 3.1: Số lượng Frame tập liệu liệu KTH Tập liệu Số lượng Frame Huấn luyện 74.966 Kiểm tra 79.481 Validation 73.125 3.3.3 Q trình huấn luyện mơ hình CNN Q trình huấn luyện dữ liệu theo mơ hình CNN xem xét phần 2.2.2 theo giải thuật sau: 17 Giải thuật Optimization - For i = to So_Lan_Lap: o Trộn tập dữ liệu huấn luyện cách ngẫu nhiên o For j = to So_Frame_Tap_Huan_Luyen / N:  Lấy N frame đưa vào mơ hình để huấn luyện  Cứ 100 frame hết tập huấn luyện tính độ xác mơ hình theo frame huấn luyện o Tính độ xác mơ hình theo tập dữ liệu kiểm tra sau lần lặp 3.4 Kết thực nghiệm Vì mơi trường thực nghiệm với phần cứng giới hạn tốc độ xử lý nhớ nên q trình huấn luyện mơ hình CNN nghiên cứu với tham số: - Số lần lặp để huấn luyện mơ hình: So_Lan_Lap = 10 - Số frame bộ: N = 64 Bảng 3.2: Kết thực nghiệm Lần Thời gian huấn Độ Thời gian kiểm Độ xác lặp luyện xác huấn tra kiểm tra luyện (trung bình) 15 phút 42 giây 72.9% 32 phút 33 giây 46.6% 02 phút 33 giây 81.4% 34 phút 41giây 50.9% 3 00 phút 13 giây 85.6% 36 phút 00 giây 53.0% 02 phút 33 giây 83.3% 31 phút 27 giây 53.5% 18 55 phút 54 giây 87.3% 37 phút 39 giây 52.8% 04 phút 34 giây 89.4% 34 phút 44 giây 52.9% 08 phút 55 giây 88.6% 31 phút 49 giây 52.0% 03 phút 56 giây 89.5% 33 phút 00 giây 54.1% 09 phút 58 giây 90.9% 35 phút 52 giây 53.6% 10 24 phút 01 giây 90.9% 33 phút 39 giây 52.4% Độ xác Biểu đồ kết thực nghiệm 100.00% 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% Huấn luyện Lần lặp Kểm tra Hình 3.3: Biểu đồ kết thực nghiệm 10 19 Hình 3.4: Confusion Matrix lần kiểm tra tốt 3.5 Nhận xét đánh giá Dựa vào kết thực nghiệm tập dữ liệu huấn luyện kiểm tra dữ liệu mậu đưa độ xác mơ hình mạng CNN xem xét nghiên cứu Bảng 3.2 biểu đồ Hình 3.4 Hình 3.5 với thang đo từ  100% - Về độ xác huấn luyện mơ hình với tập dữ liệu tốt, độ xác tăng dần sau nhiều lần huấn luyện - Về độ xác kiểm tra với tập dữ liệu kiểm tra đạt mức độ trung bình (trong khoảng 50%), khơng có sự thay đổi nhiều lần kiểm tra - Về hành động dữ liệu KTH dự đoán qua lần kiểm tra hành động “boxing”, “handclapping”, “handwaving” dự đốn xác, hành động “jogging”, “runing”, “walking” có kết dự đốn xác khơng cao Tóm lại qua kết thực nghiệm, mơ hình CNN xem xét với tham số kích thước, số lượng lọc với dữ liệu mẫu chưa thích hợp Tình trạng độ xác việc huấn luyện cao có xu hướng tăng; độ xác việc 20 kiểm tra mức trung bình khơng có xu hướng biến đổi nhiều hay nói cách khác overfit Trong trình thực nghiệm, để tránh tình trạng overfit cần thêm lớp lớp dropout sử dụng kỹ thuật Regularization vào mơ hình Kết luận chương Chương trình bày kết chạy thực nghiệm thuật toán xem xét luận văn dữ liệu KTH Đồng thời rút số nhận xét đánh giá kết thực nghiệm 21 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt Luận văn nghiên cứu thực nghiệm giải thuật Deep Learning với kiến trúc mạng CNN nhận dạng hành động người video dữ liệu KTH gồm có 06 hành động: walking (đi), jogging (chạy bộ), running (chạy nhanh), boxing (đấm bốc), hand waving (vẫy tay), hand clapping (vỗ tay) Đồng thời, đề xuất cách cải tiến tham số giải thuật để tăng tốc độ tính tốn dự đốn kết cách xác Dựa việc nghiên cứu sở lý thuyết công nghệ liên quan, đề tài xây dựng mơ hình mạng CNN, cho kết đáp ứng những mục tiêu đề Bộ dữ liệu huấn luyện đóng vai trò quan trọng việc xây dựng mơ hình để dự đoán kết đầu Với dữ liệu lớn, bao gồm nhiều hành động áp dụng vào xây dựng hệ thống thực tế Những vấn đề tồn Một số vấn đề ảnh hưởng đến trình huấn luyện dự đoán kết quả: - Tập dữ liệu nghiên cứu ảnh đen trắng, đơn vật thể hành động nên việc áp dụng vào thực tế với cho kết không cao - Xử lý video sử dụng Deep Learning để huấn luyện sâu, cần có thiết bị có phần cứng có khả xử lý tính tốn cao để áp dụng cho lượng dữ liệu khổng lồ Hướng phát triển luận văn Nghiên cứu tiếp giải pháp thu thập dữ liệu đủ để triển khai vào ứng dụng thực tế, nhằm cung cấp cơng cụ hữu ích việc quản lý hệ thống camera giám sát, phân tích video 22 Vấn đề gia tăng độ xác giải việc kết hợp thuật toán lĩnh vực xử lý ảnh HOG, HOF… để trích xuất đặc trưng từ video để đưa vào huấn luyện mạng CNN trình bày đề tài ... máy tính, nhận diện hành động người Deep Learning 7 CHƯƠNG - ỨNG DỤNG DEEP LEARNING TRONG NHẬN DIỆN HÀNH ĐỘNG CON NGƯỜI 2.1 Giới thiệu Convolutional Neural Network 2.1.1 Tổng quan Convolutional... deep learning toán nhận diện hành động thị giác máy tính Chương giới thiệu ứng dụng deep learning nhận diện hành động người, bao gồm tổng quan, thuật toán CNN giải thuật Optimazation Deep Learning. .. Fei-Fei sử dụng CNNs để phân loại Video theo hành động người [5], nhóm tác giả Ji, Xu, Yang, & Yu sử 3D CNN để nhận diện hành động người [4] 2 Vì lý đó, luận văn nghiên cứu ứng dụng Deep Learning

Ngày đăng: 07/11/2017, 13:47

Xem thêm: Nhận Diện Hành Động Của Con Người Trong Video Sử Dụng Deep Learning (tt)