NHẬN DẠNG KÝ HIỆU TAY CỦA NGƯỜI KHIẾM THÍNH SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP

Thông tin tài liệu

Trong những năm gần đây, vì sự phát triển nhanh chóng của công nghệ và ứng dụng trí tuệ nhân tạo trong thời gian gần đây. Trong lĩnh vực nhận dạng cử chỉ tay, CNN (Convolutional Neural Network) là một trong những mô hình Deep Learning tiên tiến. Nó giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện nay. Dưới tác động của sự phát triển công nghệ, việc nhận dạng cử chỉ tay đang trở thành một lĩnh vực quan trọng và tiềm năng, có thể được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau. Ví dụ, nhận dạng cử chỉ tay có thể được sử dụng trong hệ thống giao tiếp ngườimáy, điều khiển robot, thể thao ảo, y tế, an ninh, và nhiều ứng dụng khác. Mô hình mạng nơron tích chập (Convolutional Neural Network CNN) đã chứng tỏ được hiệu quả của nó trong xây dựng các hệ thống thông minh với độ chính xác cao. Trong thực tế hiện nay, các bài toán nhận dạng đang tập trung vào việc nhận dạng mẫu, nhận dạng tiếng nói và nhận dạng chữ viết tay, ký hiệu tay. Việc nhận dạng ký hiệu tay đang nhận được sự quan tâm đặc biệt, vì nó có ứng dụng rộng trong nhiều lĩnh vực thực tế. Nhận dạng ký hiệu tay có thể được sử dụng để giúp cho chúng ta có thể giao tiếp với nhau thông qua các hành động, điều này đặc biệt hữu ích khi giao tiếp với người khiếm thính. Nó cũng có thể được áp dụng vào việc giao tiếp với người khiếm thính, ngoài ra có thể mở rộng ra để tạo ra một thứ ngôn ngữ ký hiệu riêng, giúp tăng tính bảo mật cho thông tin. Hiện nay, đã có một số phương pháp nghiên cứu để giải quyết bài toán nhận dạng ký hiệu tay, bao gồm K láng giềng gần nhất (KNearest Neighbor KNN), máy hỗ trợ vector (Support Vector Machine SVM) và mô hình Markov ẩn (Hidden Markov Model HMM). Tuy nhiên, các phương pháp này không đạt được kết quả nhận dạng cao và tốn nhiều thời gian cho việc trích rút đặc trưng từ ảnh. Do đó, nghiên cứu này đề xuất xây dựng một mô hình mới để tự động trích rút đặc trưng từ ảnh và cải thiện kết quả nhận dạng so với các mô hình trước đó

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN  - ĐỒ ÁN CHUYÊN NGÀNH NGÀNH: KHOA HỌC MÁY TÍNH CHỦ ĐỀ: NHẬN DẠNG KÝ HIỆU TAY CỦA NGƯỜI KHIẾM THÍNH SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP Giáo viên hướng dẫn: TS Nguyễn Mạnh Cường Nhóm sinh viên thực hiện: 1, Trịnh Thế Khánh Mã SV: 2021602271 2, Lê Tuấn Anh Mã SV: 2021601643 3, Mai Thị Hường Mã SV: 2020606386 Mã Lớp: 20231IT6052002 Nhóm: Hà Nội - Năm 2023 MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT: DANH MỤC HÌNH ẢNH, BIỂU ĐỒ: LỜI CẢM ƠN LỜI NÓI ĐẦU CHƯƠNG 1: TÌM HIỂU VÀ PHÁT BIỂU BÀI TỐN 1.1 Giới thiệu chung 1.1.1 Tổng quan nhận dạng 1.1.2 Tổng quan ngôn ngữ ký hiệu 1.2 Mục tiêu toán 1.3 Phương pháp tiếp cận 1.4 Cơ hội thách thức 10 1.4.1 Cơ hội 10 1.4.2 Thách thức 11 CHƯƠNG 2: CÁC KỸ THUẬT GIẢI QUYẾT BÀI TOÁN 12 2.1 Hướng tiếp cận 12 2.2 Mạng nơ ron tích chập 14 2.1.1 Tổng quan 14 2.1.2 Tích chập 15 2.1.3 Mơ hình mạng nơ ron tích chập 20 2.1.4 Hoạt động mơ hình CNN 24 CHƯƠNG 3: THỰC NGHIỆM 25 3.1 Bộ liệu nhận dạng ngôn ngữ ký hiệu 25 3.2 Tư tưởng thuật toán nhận diện thủ ngữ 25 3.3 Tiền xử lý liệu 26 3.4 Xây dựng thực nghiệm ứng dụng nhận dạng ngôn ngữ ký hiệu 28 3.5 Kết thực nghiệm 32 KẾT LUẬN 34 TÀI LIỆU THAM KHẢO 35 DANH MỤC CÁC TỪ VIẾT TẮT: CNN Convolutional Neural Networks RNN Recurrent Neural Networks SVM Support Vector Machines DANH MỤC HÌNH ẢNH, BIỂU ĐỒ: Hình 2.1: Minh hoạ tích chập 15 Hình 2.2: Minh hoạ kiến trúc CNN dùng phân loại ảnh 21 Hình 2.3: Tính tích chập với lọc 22 Hình 2.4: Tính tốn với phương pháp MaxPooling 23 Hình 3.1: Bộ liệu nhận dạng ngôn ngữ ký hiệu 25 Hình 3.2: Hàm xử lý ảnh resize 224x224 chuyển numpy array 26 Hình 3.3: Hàm xử lý liệu đầu vào 27 Hình 3.4: Hàm duyệt thư mục ảnh để train 27 Hình 3.5: Chia liệu huấn luyện liệu test 28 Hình 3.6: Đặt checkpoint để lưu lại model tốt 28 Hình 3.7: Xây dựng mơ hình CNN 29 Hình 3.8: Train lưu mơ hình 29 Hình 3.9: Giao diện ban đầu chạy chương trình 32 Hình 3.10: Giao diện sau nhấn B 33 Hình 3.11: Giao diện đưa tay lên khung nhận diện 33 LỜI CẢM ƠN Trước tiên, chúng em muốn gửi lời tri ân chân thành đến TS Nguyễn Mạnh Cường, với lịng biết ơn sâu sắc kiến thức quý báu mà thầy truyền đạt cho chúng em tận tâm việc hướng dẫn chúng em hoàn thành đề tài Sự giúp đỡ đồng hành thầy đóng vai trị vơ quan trọng trình nghiên cứu chúng em Chúng em mong muốn nhận ý kiến đóng góp từ thầy để hồn thiện đề tài chúng em Sự phản hồi góp ý từ thầy giúp chúng em nắm bắt khía cạnh cần cải thiện phát triển thêm ý tưởng Chúng em trân trọng đóng góp mong học hỏi thêm từ chuyên môn kinh nghiệm thầy Một lần nữa, chúng em xin chân thành cảm ơn TS Nguyễn Mạnh Cường tận tâm kiến thức mà thầy dành cho chúng em Sự hướng dẫn thầy thúc đẩy chúng em tiến trở thành người học viên tự tin Chúng em biết ơn mang lịng tri ân Nhóm chúng em xin chân thành cảm ơn! Nhóm thực Trịnh Thế Khánh Mai Thị Hường Lê Tuấn Anh LỜI NÓI ĐẦU Trong năm gần đây, phát triển nhanh chóng cơng nghệ ứng dụng trí tuệ nhân tạo thời gian gần Trong lĩnh vực nhận dạng cử tay, CNN (Convolutional Neural Network) mơ hình Deep Learning tiên tiến Nó giúp cho xây dựng hệ thống thơng minh với độ xác cao Dưới tác động phát triển công nghệ, việc nhận dạng cử tay trở thành lĩnh vực quan trọng tiềm năng, ứng dụng rộng rãi nhiều lĩnh vực khác Ví dụ, nhận dạng cử tay sử dụng hệ thống giao tiếp người-máy, điều khiển robot, thể thao ảo, y tế, an ninh, nhiều ứng dụng khác Mơ hình mạng nơ-ron tích chập (Convolutional Neural Network - CNN) chứng tỏ hiệu xây dựng hệ thống thơng minh với độ xác cao Trong thực tế nay, toán nhận dạng tập trung vào việc nhận dạng mẫu, nhận dạng tiếng nói nhận dạng chữ viết tay, ký hiệu tay Việc nhận dạng ký hiệu tay nhận quan tâm đặc biệt, có ứng dụng rộng nhiều lĩnh vực thực tế Nhận dạng ký hiệu tay sử dụng để giúp cho giao tiếp với thông qua hành động, điều đặc biệt hữu ích giao tiếp với người khiếm thính Nó áp dụng vào việc giao tiếp với người khiếm thính, ngồi mở rộng để tạo thứ ngôn ngữ ký hiệu riêng, giúp tăng tính bảo mật cho thơng tin Hiện nay, có số phương pháp nghiên cứu để giải toán nhận dạng ký hiệu tay, bao gồm K láng giềng gần (K-Nearest Neighbor - KNN), máy hỗ trợ vector (Support Vector Machine - SVM) mơ hình Markov ẩn (Hidden Markov Model - HMM) Tuy nhiên, phương pháp không đạt kết nhận dạng cao tốn nhiều thời gian cho việc trích rút đặc trưng từ ảnh Do đó, nghiên cứu đề xuất xây dựng mơ hình để tự động trích rút đặc trưng từ ảnh cải thiện kết nhận dạng so với mô hình trước Dựa thành cơng mạng nơ-ron lĩnh vực xử lý ảnh, nghiên cứu đề xuất sử dụng mơ hình Convolutional Neural Network (CNN) để giải toán nhận dạng ký hiệu tay Bài tốn nhận dạng ký hiệu tay thực theo hai hình thức: nhận dạng online nhận dạng offline Nhận dạng online máy tính nhận dạng ký hiệu tay hành động thực trước camera Trong trường hợp này, máy tính lưu lại thơng tin ký hiệu ý nghĩa nó, hướng tốc độ tay Cịn nhận dạng offline máy tính nhận dạng ký hiệu sau hành động ký hiệu chụp lại in giấy, thông tin đầu vào hình ảnh văn ký hiệu cần nhận dạng Trong phạm vi báo này, chúng em tập trung vào nhận dạng offline cho ký hiệu tay Nội dung báo cáo đồ án tốt nghiệp bao gồm chương sau: Chương 1: Tìm hiểu phát biểu tốn Trong chương chúng em trình bày khái niệm tổng quan toán nhận diện ký hiệu tay, khái niệm mạng nơ ron tích chấp, data input output, ứng dụng, khó khăn thách thức trình xây dựng chương trình nhận dạng ký hiệu tay người khiếm thính Chương 2: Các kỹ thuật giải toán Sau phát biểu xác định rõ ràng yêu cầu toán, chúng em trình bày kỹ thuật giải tốn có ưu nhược điểm chúng, nghiên cứu bật đạt thành cơng định từ kỹ thật Tiếp theo, chúng em đề xuất giải pháp cho tốn đặt Chương 3: Thực nghiệm Tại chương 3, chúng em tập trung trình bày trình thực nghiệm kết đạt với kỹ thuật giải toán đề xuất chương Chúng em tiến hành so sánh kết thực nghiệm thu từ phương pháp chúng em đề xuất giải với số phương pháp phổ biến đưa nhận xét Phần kết luận: Cuối phần kết luật, chúng em tổng hợp kết đạt được, hướng phát triển mở rộng đề tài nghiên cứu tương lai Bài tập lớn có vai trị quan trọng sống hàng ngày, tiền đề giúp tạo hệ thống nhận dạng tiên tiến tương lai giúp cải cho người khiếm thính dần hồ nhập với sống hàng ngày cách dễ dàng, giúp cho mối quan hệ người với người trở nên gần gửi CHƯƠNG 1: TÌM HIỂU VÀ PHÁT BIỂU BÀI TOÁN 1.1 Giới thiệu chung 1.1.1 Tổng quan nhận dạng Nhận dạng sử dụng công nghệ kỹ thuật để giúp máy tính xác định, gắn nhãn phân loại yếu tố quan tâm hình ảnh Trong người xử lý hình ảnh phân loại đối tượng bên hình ảnh dễ dàng, điều tương tự khơng thể máy móc trừ đào tạo đặc biệt để làm Kết nhận dạng hình ảnh xác định xác phân loại đối tượng phát thành nhiều loại khác xác định trước với trợ giúp công nghệ học sâu Nhận dạng cử hành vi trình xác định hiểu cử chỉ, động tác, hành vi từ liệu đa dạng hình ảnh, video, âm thanh, liệu vận động Các thuật toán nhận dạng hành vi, cử phổ biến: Convolutional Neural Networks (CNN) - Nhận dạng cử video, hình ảnh, Recurrent Neural Networks (RNN) - Nhận dạng cử video, liệu thời gian, Support Vector Machines (SVM) - Nhận dạng cử liệu không gian đặc trưng Ứng dụng nhận dạng sống:  Tương Tác Máy: Nhận dạng cử để tương tác với thiết bị điện tử máy tính  Y Tế: Theo dõi nhận dạng cử vận động để đánh giá sức khỏe chăm sóc  An Ninh: Nhận dạng hành vi đe dọa gây rối từ liệu video an ninh 1.1.2 Tổng quan ngôn ngữ ký hiệu Ngơn ngữ ký hiệu hình thức ngơn ngữ sử dụng cử bàn tay, biểu cảm khuôn mặt chuyển động thể để truyền đạt ý nghĩa người khiếm thính với với người bình thường Sự phát triển cơng nghệ khoa học giúp cho việc nhận dạng ngôn ngữ cử trở nên thuận tiện hiệu Hiện nay, nhiều nghiên cứu lĩnh vực tập trung vào việc phát triển hệ thống nhận dạng cử tay để giúp cho người khiếm thính giao tiếp với người bình thường cách dễ dàng Trong trình nghiên cứu phát triển hệ thống nhận dạng cử tay, có nhiều phương pháp sử dụng để thu thập liệu cử tay Một phương pháp phổ biến sử dụng găng tay liệu Tuy nhiên, phương pháp đòi hỏi người sử dụng phải sử dụng thiết bị đặc biệt, điều gây khó khăn việc thực cử tay cách tự nhiên Do đó, phương pháp sử dụng camera/webcam/Kinect 3D để thu thập liệu cử tay nghiên cứu phát triển Tuy nhiên, để tìm khung hình chứa cử tay cuối vấn đề khó khăn Để giải vấn đề này, nhiều nghiên cứu sử dụng phương pháp phân tích chuyển động giải thuật phát cử tay Sau thu thập liệu cử tay, giai đoạn mơ hình hóa cử Trong giai đoạn này, mơ hình tạo để biểu diễn cử tay dạng số liệu liệu hình ảnh Đây bước quan trọng để phân tích nhận dạng cử tay Giai đoạn trích chọn đặc trưng, đặc trưng quan trọng cử tay chọn lọc để tạo biểu diễn số liệu cử tay Các đặc trưng trích xuất từ đặc tính hình dạng, màu sắc, vị trí chuyển động ngón tay Cuối cùng, giai đoạn nhận dạng thực để xác định cử tay dựa mơ hình đặc trưng xác định trước Các phương pháp nhận dạng dựa kỹ thuật máy học SVM, KNN, CNN, Decision Tree hay Deep Learning Các kỹ thuật giúp tăng độ xác độ tin cậy hệ thống nhận dạng cử tay Ở Việt Nam, ngôn ngữ cử sử dụng rộng rãi cộng đồng người khiếm thính Tuy nhiên, chưa có nhiều nghiên cứu đề cập đến ngôn ngữ cử Tiếng Việt VSL (Vietnamese Sign Language) Vì vậy, chúng em đưa đề xuất hệ thống nhận dạng cử tay cho ngôn ngữ cử Tiếng Việt VSL Để đạt độ xác cao, hệ thống sử dụng số kỹ thuật xử lý ảnh để lọc nhiễu loại bỏ đối tượng khung hình Sau đó, đặc trưng trích xuất từ hình ảnh sau sử dụng để huấn luyện mơ hình nhận dạng chữ Kết thực nghiệm cho thấy hệ thống nhận dạng cử tay đề xuất đạt độ xác cao áp dụng ứng dụng thực tế giao tiếp tương tác người-máy 1.2 Mục tiêu toán Mục tiêu toán nhận dạng ký hiệu tay người khiếm thính nhằm xây dựng hệ thống đem lại hy vọng cho người khiếm thính sử dụng ngơn ngữ cử Tiếng Việt VSL để giao tiếp với người bình thường cách dễ dàng hiệu 1.3 Phương pháp tiếp cận Để phân tích liệu cử tay, phương pháp phổ biến bao gồm mạng nơron tích chập, thuật tốn SVM, thuật tốn K-Nearest Neighbors (KNN) Q trình phân tích dự báo số lượng nhà bán thường bao gồm bước sau:  Chuẩn bị liệu:  Thu thập liệu hình ảnh video ngơn ngữ ký hiệu tay từ người khiếm thính nguồn liệu khác  Gắn nhãn cho biểu tay cử liệu, xác định từ cụm từ tương ứng  Tiền xử lý liệu:  Chuyển đổi hình ảnh video thành định dạng phù hợp cho mạng CNN  Xây dựng mơ hình CNN:  Thiết kế kiến trúc mạng CNN phù hợp cho toán nhận dạng ký hiệu tay Kiến trúc bao gồm lớp tích chập để trích xuất đặc trưng lớp kết nối đầy đủ để phân loại Trong mơ hình CNN ngược lại Các layer liên kết với thông qua chế convolution Layer kết convolution từ layer trước đó, nhờ mà ta có 110 kết nối cục Nghĩa nơ-ron layer sinh từ filter áp đặt lên vùng ảnh cục nơ-ron layer trước Mỗi layer áp đặt filter khác nhau, thông thường có vài trăm đến vài nghìn filter Một số layer khác pooling/subsampling layer dùng để chắt lọc lại thơng tin hữu ích (loại bỏ thơng tin nhiễu) Trong suốt q trình huấn luyện, CNN tự động học thông số cho filter Ví dụ, nhiệm vụ phân lớp ảnh minh họa hình 2, CNN cố gắng tìm thơng số tối ưu cho filter tương ứng theo thứ tự raw pixel > edges > shapes > facial > high-level features Layer cuối dùng để phân lớp ảnh Hình 2.2: Minh hoạ kiến trúc CNN dùng phân loại ảnh CNN có tính bất biến tính kết hợp cục (Location Invariance and Compositionality) Với đối tượng, đối tượng chiếu theo góc độ khác (translation, rotation, scaling) độ xác thuật tốn bị ảnh hưởng đáng kể Pooling layer cho tính bất biến phép dịch chuyển (translation), phép quay (rotation) phép co giãn (scaling) Tính kết hợp cục cho ta cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao trừu tượng thơng qua convolution từ filter Đó lý CNN cho mơ hình với độ xác cao Tiếp theo, chúng em trình bày chi tiết lớp mơ hình 21 a) Convolutional Layer Layer nơi thể tư tưởng ban đầu CNN Thay kết nối tồn điểm ảnh, layer sử dụng tập lọc (filters) có kích thước nhỏ so với ảnh (thường 5×5 3×3) áp vào vùng ảnh tiến hành tính tích chập lọc giá trị điểm ảnh vùng cục Bộ lọc dịch chuyển theo giá trị bước trượt (stride) chạy dọc theo ảnh qt tồn ảnh Hình 2.3: Tính tích chập với lọc Như vậy, với ảnh 32×32 filter 3×3, ta có kết ảnh có kích thước 32×32 (với điều kiện thêm padding vào ảnh gốc để tính tích chập cho trường hợp filter quét biên cạnh) kết tích chập filter ảnh Với filter lớp ta có nhiêu ảnh tương ứng mà lớp trả truyền vào lớp Các trọng số filter ban đầu khởi tạo ngẫu nhiên học dần trình huấn luyện mơ hình Hình minh họa phép tính convolution với lọc có kích thước 3×3 b) Rectified Linear Unit (ReLU) Layer Layer thường cài đặt sau layer Convolution Layer sử dụng hàm kích hoạt f(x) = max(0, x) Nói cách đơn giản, layer có nhiệm vụ chuyển tồn giá trị âm kết lấy từ lớp Convolution thành giá trị Ý nghĩa cách cài đặt tạo nên tính phi tuyến cho mơ hình Tương tự mạng truyền thẳng, việc xây dựng dựa 22 phép biến đổi tuyến tính khiến việc xây dựng đa tầng đa lớp trở nên vơ nghĩa Có nhiều cách để khiến mơ hình trở nên phi tuyến sử dụng hàm kích hoạt sigmoid, tanh,… hàm f(x) = max(0, x) dễ cài đặt, tính tốn nhanh mà hiệu c) Pooling Layer Layer sử dụng cửa sổ trượt quét qua toàn ảnh liệu, lần trượt theo bước trượt (stride) cho trước Khác với layer Convolution, layer Pooling khơng tính tích chập mà tiến hành lấy mẫu (subsampling) Khi cửa sổ trượt ảnh, có giá trị xem giá trị đại diện cho thơng tin ảnh vùng (giá trị mẫu) giữ lại Các phương thức lấy phổ biến layer Pooling MaxPooling (lấy giá trị lớn nhất), MinPooling (lấy giá trị nhỏ nhất) AveragePooling (lấy giá trị trung bình) Xét ảnh có kích thước 32×32 layer Pooling sử dụng lọc có kích thước 2×2 với bước trượt stride 2, phương pháp sử dụng MaxPooling Bộ lọc trượt qua ảnh, với lần trượt có giá trị lớn giá trị nằm vùng cửa sổ 2×2 lọc giữ lại đưa vào ma trạn đầu Như vậy, sau qua layer Pooling, ảnh giảm kích thước xuống cịn 16×16 (kích thước chiều giảm lần) Hình 2.4: Tính tốn với phương pháp MaxPooling Pooling Layer có vai trị giảm kích thước liệu Với ảnh kích thước lớn qua nhiều Pooling Layer thu nhỏ lại nhiên giữ đặc trưng cần cho việc nhận dạng (thông qua cách lấy mẫu) Việc giảm kích thước liệu làm giảm lượng tham số, tăng hiệu tính tốn góp phần kiểm soát tượng khớp (overfitting) 23 d) Fully Connected (FC) Layer Layer tương tự với layer mạng nơ-ron truyền thẳng, giá trị ảnh liên kết đầy đủ vào nơ-ron layer Sau ảnh xử lý rút trích đặc trưng từ layer trước đó, liệu ảnh khơng cịn q lớn so với mơ hình truyền thẳng nên ta sử dụng mơ hình truyền thẳng để tiến hành nhận dạng 2.1.4 Hoạt động mơ hình CNN Mơ hình CNN hình thành cách kết nối layer nêu lại với Mơ hình bắt đầu với Convolutional Layer ReLU Layer thường cài đặt sau Convolutional Layerhoặc chí kết hợp hai layer thành layer Các layer Convolutional hay Pooling tùy theo kiến trúc mà ta muốn xây dựng Cuối Fully-Connected Layer để tiến hành phân lớp 24 CHƯƠNG 3: THỰC NGHIỆM 3.1 Bộ liệu nhận dạng ngôn ngữ ký hiệu Bộ liệu bao gồm 550 file ảnh biểu đầy đủ trường hợp nhận diện chữ E, L, F, V, B ngôn ngữ ký hiệu (mỗi chữ ứng với 110 ảnh train) Các ảnh ký hiệu tay tách nền, lọc nhiễu đưa ảnh trắng đen Hình 3.1: Bộ liệu nhận dạng ngôn ngữ ký hiệu 3.2 Tư tưởng thuật toán nhận diện thủ ngữ Bài toán làm theo bước sau: a Train  Ta chuẩn bị sẵn ảnh đầu vào ảnh bàn tay thực ký tự nói lưu thư mục Data Các ảnh gán nhãn đầy đủ tên file 25  Ta thực chuyển ảnh size 224 x224 đưa qua mạng VGG16 thêm vài layer Dense (Fully Connect) cuối lớp softmax để dự đoán kết đầu  Ta thực train mạng với khoảng 2000 ảnh train gần 300 ảnh test b Test  Ta thực mở Webcam khoanh vùng phát bàn tay vùng Gọi detection region  Người dùng bỏ tay khỏi vùng detection region nhấn phím B để máy thu nhận vùng Nếu muốn thu nhận lại nền, người dùng bấm phím R  Người dùng đưa tay vào vùng detection (sau capture nền) tạo thành hình ký tự Model hiển thị ký tự hình  Người dùng bấm Q để thoát 3.3 Tiền xử lý liệu Thực q trình resize ảnh kích thước 224x224 chuyển đổi thành mảng numpy Hình 3.2: Hàm xử lý ảnh resize 224x224 chuyển numpy array Thực xử lý liệu đầu vào, chuẩn hóa giá trị pixel ảnh chuyển đổi nhãn thành dạng one-hot encoding 26 Hình 3.3: Hàm xử lý liệu đầu vào Duyệt qua tất tệp ảnh thư mục xây dựng liệu huấn luyện nhãn từ tệp ảnh Hình 3.4: Hàm duyệt thư mục ảnh để train Sử dụng train_test_split để chia liệu thành tập huấn luyện tập kiểm thử với tỷ lệ 80/20 27 Hình 3.5: Chia liệu huấn luyện liệu test Lưu lại mơ hình có hiệu suất tốt tập kiểm thử Hình 3.6: Đặt checkpoint để lưu lại model tốt Những hàm đóng vai trò quan trọng việc tiền xử lý liệu, chuẩn bị liệu cho trình huấn luyện mơ hình CNN 3.4 Xây dựng thực nghiệm ứng dụng nhận dạng ngơn ngữ ký hiệu Xây dựng mơ hình:  Sử dụng mơ hình CNN xây dựng trước (base_model)  Thêm số lớp Fully Connected (Dense) lớp Dropout để tăng khả học sâu ngăn chặn overfitting  Kết hợp mơ hình sở lớp thêm để tạo mơ hình hồn chỉnh 28 Hình 3.7: Xây dựng mơ hình CNN Tiến hành huấn luyện lưu mơ hình: Hình 3.8: Train lưu mơ hình Tạo ứng dụng thực tế sử dụng mơ hình huấn luyện trước để nhận diện ký hiệu từ ngôn ngữ ký hiệu thông qua webcam hiển thị kết thời gian thực 29 30 31 3.5 Kết thực nghiệm Khi chạy chương trình, camera kích hoạt Nếu thứ okie cửa sổ webcam Thực bước sau:  Né đầu khỏi vùng khung hình xanh, khung hình trống, khơng có vật chuyển động Hình 3.9: Giao diện ban đầu chạy chương trình  Nhấn phím B để thu nhận  Sau đưa tay vào khu vực khung hình xanh tạo ký tự Máy hiển thị ký tự lên hình 32 Hình 3.10: Giao diện sau nhấn B Hình 3.11: Giao diện đưa tay lên khung nhận diện  Nhấn Q để thoát R để lấy lại (nếu kết nhận ko xác) Nhìn chung, kết chạy có độ xác cao Trong q trình thử nghiệm, nên dùng camera tốt chút để hạn chế nhiễu, ngồi nên thực hành mơi trường đủ ánh sáng để có kết tốt 33 KẾT LUẬN Thời gian làm đồ án chuyên ngành vừa qua trải nghiệm vô thú vị đáng giá với nhóm chúng em Chúng em tìm hiểu kỹ thuật khác trí tuệ nhân tạo nhằm giải toán nhận dạng ký hiệu tay người khiếm thính, qua khơng tích lũy kinh nghiệm chun mơn mà cịn học kĩ làm việc độc lập, quản lý thời gian Đây chắn hành trang quý giá nghiệp tương lai chúng em Chúng em tìm hiểu, nghiên cứu, ứng dụng mơ hình học máy tận dụng nghiên cứu công bố nhận dạng ký hiệu tay người khiếm thính để hồn thành đề tài Nhận dạng ký hiệu tay người khiếm thính sử dụng mạng nơ ron tích chập Ngồi ra, chúng em tự tìm kiếm thực nghiệm liệu dành cho toán nhận dạng ký hiệu tay người khiếm thính Dưới hướng dẫn thầy Nguyễn Mạnh Cường, chúng em tự thiết kế thuật tốn dựa mơ hình mạng nơ ron tích chập để giải toán nhận dạng ký hiệu tay người khiếm thính Đề tài cho thấy thành công bước đầu thu kết nhận dạng với độ xác tốt Tuy nhiên thời gian tài nguyên có hạn chế, nên chúng em phát triển đến nhận dạng chữ E, L, F, V, B ngôn ngữ ký hiệu Vì nên chúng em mong thầy đóng góp ý kiến để cải thiện đề tài phát triển tương lai Hy vọng nghiên cứu chúng em góp phần thúc đẩy đề tài liên quan tới hỗ trợ phát triển bệnh khiếm thính Chúng em xin gửi lời cảm ơn chân thành tới thầy giáo, Tiến sĩ Nguyễn Mạnh Cường tận tình hướng dẫn chúng em thực đề tài Chúng em xin chúc thầy luôn mạnh khỏe thành công nghiên cứu tới 34 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Anh: [1] Carreira, Joao, and Andrew Zisserman "Quo vadis, actionrecognition? a new model and the kinetics dataset." Inproceedings of the IEEE Conference on Computer Visionand Pattern Recognition, pp 6299-6308 2017 [2] Dai, Qian, Jiahui Hou, Panlong Yang, Xiangyang Li, FeiWang, and Xumiao Zhang "The sound of silence: end-to-end sign language recognition using smartwatch." InProceedings of the 23rd Annual International Conferenceon Mobile Computing and Networking, pp 462-464 2017 Website: [3] Mì AI, URL: https://miai.vn/, truy cập gần nhất: 4/1/2024 [4] Machine Learning bản, URL: https://machinelearningcoban.com/, truy cập gần nhất: 4/1/2024 35

Ngày đăng: 12/01/2024, 20:47

Xem thêm: