Nhận dạng cử chỉ bàn tay dùng mạng nơ ron

63 1.3K 4
Nhận dạng cử chỉ bàn tay dùng mạng nơ ron

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nhận dạng cử chỉ bàn tay dùng mạng nơ ron, đại học sư phạm kỹ thuật tp hcm, điện tử viễn thông, điện điện tử, lập trình xử lý ảnh, image processing, image.Nhận dạng các cử động của tay người là cách tự nhiên khi tương tác người – máy và ngày nay nhiều nhà nghiên cứu trong các học viện và ngành công ghiệp đang quan tâm đến hướng này. Nó cho phép con người tương tác với máy rất dễ dàng và thuận tiện mà không cần phải mang thêm bất kỳ thiết bị nào khác. Đã có rất nhiều ứng dụng dựa trên cử chỉ bàn tay như: Thiết kế 3D, điều khiển từ xa, ngôn ngữ ký hiệu…Nhận thấy tác dụng của nhận dạng cử chỉ nên nhóm quyết định chọn đề tài này để nghiên cứu

BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA ĐIỆN – ĐIỆN TỬ BỘ MÔN ĐIỆN TỬ VIỄN THÔNG ĐỒ ÁN TỐT NGHIỆP NGÀNH: ĐIỆN TỬ VIỄN THÔNG Đề tài: NHẬN DẠNG CỬ CHỈ BÀNG TAY DÙNG MẠNG NƠ-RON SVTH : NGUYỄN VĂN ĐOÀN- 09917406 NGUYỄN VĂN ĐÔNG- 09773885 TP. HỒ CHÍ MINH – 06/2014 CHƯƠNG 1 GIỚI THIỆU 1.1 Giới thiệu đề tài Ngày nay dưới sự phát triển rộng rãi của các ứng dụng công nghệ thông tin vào trong cuộc sống, việc tương tác giữa con người và thiết bị ngày càng trở nên quan trọng. Trước đây, bàn phím và chuột là các giao diện chính để giao tiếp giữa người và máy tính. Trong các lĩnh vực khác cần tới các thông tin 3D, chẳng hạn như trò chơi máy tính, robot và lĩnh vực thiết kế… các thiết bị cơ khí khác như bóng lăn, cần điều khiển hay các găng tay dữ liệu đã được sử dụng. Tuy nhiên, con người giao tiếp chủ yếu bởi “nghe” và “nhìn”, do đó một giao diện người – máy sẽ trực quan hơn nếu con người có thể điều khiển máy tính bằng giọng nói hay cử chỉ giống như khi tương tác giữa người với người trong thế giới thực mà không cần thông qua các thiết bị điều khiển khác như chuột hay bàn phím. Một ưu điểm khác là người dùng có thể giao tiếp từ xa mà không cần phải có tiếp xúc vật lý với máy tính. So với các hệ thống điều khiển bằng lệnh âm thanh, một hệ thống thị giác sẽ thích hợp hơn trong môi trường ồn ào hoặc trong trường hợp âm thanh bị nhiễu. Phát hiện vùng màu da là một công cụ rất hữu ích trong việc nhận dạng ảnh. Nó cho phép nhiều khu vực của một ảnh được loại bỏ một cách nhanh chóng và hiệu quả, mà không lãng phí thời gian để làm tương quan tốn kém hoặc các hình thức tính toán phân tích đắt tiền khác. 1.2 Mục tiêu đề tài - Tìm hiểu tổng quát về lý thuyết xử lý ảnh. - Tìm hiểu và mô phỏng các lệnh liên quan đến đề tài dùng phần mềm Matlab. - Tìm hiểu các phương pháp tiến hành nhận dạng cử chỉ. - Rèn luyện kỹ năng nghiên cứu tài liệu. 2 1.3 Lý do chọn đề tài Nhận dạng các cử động của tay người là cách tự nhiên khi tương tác người – máy và ngày nay nhiều nhà nghiên cứu trong các học viện và ngành công ghiệp đang quan tâm đến hướng này. Nó cho phép con người tương tác với máy rất dễ dàng và thuận tiện mà không cần phải mang thêm bất kỳ thiết bị nào khác. Đã có rất nhiều ứng dụng dựa trên cử chỉ bàn tay như: Thiết kế 3D, điều khiển từ xa, ngôn ngữ ký hiệu…Nhận thấy tác dụng của nhận dạng cử chỉ nên nhóm quyết định chọn đề tài này để nghiên cứu. 1.4 Giới hạn đề tài Do thời gian tiến hành nghiên cứu đề tài và tài liệu liên quan có hạn. Mục tiêu của đề tài này chỉ dừng lại ở mức độ tìm hiểu lý thuyết bản chất của phát hiện bàn tay dựa trên màu da và nhận dạng dùng mạng nơ-ron, sau đó mô phỏng để kiểm chứng kết quả nên còn nhiều hạn chế. 1.5 Bố cục của đồ án Chương 1: Giới thiệu đề tài Chương 2: Cơ sở lý thuyết ảnh Chương 3: Phát hiện bàn tay dựa trên màu da và nhận dạng cử chỉ dùng mạng nơ-ron Chương 4: Tiến trình thực hiện và kết quả Chương 5: Kết luận và hướng phát triển 3 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1 Những vấn đề cơ bản trong xử lý ảnh 2.1.1 Điểm ảnh Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Để xử lý bằng máy tính (số), ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng. Mỗi một điểm như vậy gọi là điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa độ (x, y). Định nghĩa: Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là một phần tử ảnh. Một file ảnh là tập hợp nhiều điểm ảnh được minh họa hình 2.1. 4 Hình 2.1 Mảng hai chiều của một file ảnh Vậy ảnh được xem như một ma trận tọa độ ảnh. Do đó hàm f(x,y) còn có thể biểu diễn dưới dạng ma trận như sau: f(x,y)= (2.1) Hay A = (2.2) Trong đó, a i,j = f(x=i,y=j)=f(i,j) , với M là số hàng, N là số cột. 2.1.2 Khái niệm ảnh số. Ảnh trong thực tế liên tục về không gian và độ sáng, để có thể xử lý ảnh ta cần biến đổi tín hiệu tương tự thành tín hiệu rời rạc thông qua quá trình lấy mẫu ( rời rạc về không gian), và lượng hóa thành phần tạo thành tập hợp phần tử ảnh gọi là quá trình số hóa. 5 Ảnh là tập hợp các điểm (phần tử ảnh) khi được số hóa. Khối lượng thông tin trong một ảnh là rất lớn (đến vài trăm mêga bít /ảnh). Bản chất các thông số ảnh có tính vector. Bất kỳ hình ảnh từ một máy quét hoặc từ một Camera số hay trong máy tính là một hình ảnh kỹ thuật số. Hình ảnh máy tính đã được “số hóa”, đây là quá trình chuyển đổi từ hình ảnh màu sắc thực tế thành các dữ liệu số bao gồm các hàng và cột của hàng triệu mẫu màu được đo từ hình ảnh ban đầu. Một máy ảnh kỹ thuật số dùng chip CCD (Change Coupled Device) đằng sau ống kính, CCD bao gồm một mạng lưới các điểm bắt sáng được phủ bằng lớp bọc màu (đỏ - Red, xanh lục – Green, xanh dương – Blue), mỗi điểm ảnh chỉ bắt một màu. Do đó khi chụp ảnh ( cửa sập mở), ánh sáng qua ống kính và được lưu lại trên bề mặt chip cảm biến dưới dạng điểm ảnh. Mỗi điểm ảnh có một mức điện áp khác nhau sẽ được chuyển đến bộ phận đọc giá trị theo từng hàng. Giá trị mỗi điểm ảnh sẽ được khuếch đại và được đưa vào bộ chuyển đổi tín hiệu tương tự sang tín hiệu số, cuối cùng đổ vào bộ xử lý để tái hiện lại hình ảnh đã chụp. chính quá trình đọc thông tin thực hiện theo từng hàng đã làm cho tốc độ xử lý ảnh chậm, thiếu hoặc thừa sáng. Đối với máy ảnh kỹ thuật số dùng chip CMOS tại các điểm bắt sáng có sẵn mạch điện hỗ trợ dễ dàng tích hợp ngay quá trình xử lý điểm ảnh. Với cấu trúc này, mỗi điểm ảnh sẽ được xử lý ngay tại chỗ và đồng loạt truyền tín hiệu số về bộ xử lý để tái hiện hình ảnh đã chụp nên tốc độ xử lý nhanh hơn rất nhiều. Cảm biến nhìn thấy màu sắc và độ sáng của từng khu vực nhỏ là lấy mẫu. Đó là giá trị màu sắc của từng khu vực được đo và ghi thành giá trị số đại diện cho màu sắc. Quá trình này được gọi là số hóa hình ảnh. Dữ liệu được tổ hợp thành các hàng và cột để giữ lại vị trí của từng khu vực hình ảnh. Mỗi giá trị dữ liệu đó chính là điểm ảnh. Các dữ liệu hình ảnh là bao gồm các giá trị màu RGB số trong một mạng lưới các hàngvà cột. Khi tất cả các dữ liệu ảnh được kết hợp lại và sao chép liên tiếp, 6 chính xác trật tự cột trên giấy in hoặc màn hình máy tính, não bộ con người nhận ra hình ảnh ban đầu. 2.1.3 Các định dạng ảnh cơ bản Ảnh thu được sau quá trình số hóa thường được lưu lại cho các quá trình xử lý tiếp theo hay gửi đi. Trong quá trình phát triển của kỹ thuật xử lý ảnh, tồn tại nhiều định dạng ảnh khác nhau từ ảnh đen trắng ( với định dạng IMG) ảnh đa cấp xám đến ảnh màu (BMP, GIF, JPEG…). Tuy các định dạng này khác nhau xong chúng đều tuân theo một cấu trúc chung nhất. Nhìn chung tệp ảnh bất kỳ thường bao gồm 3 phần : - Mào đầu tệp ( header) - Dữ liệu nén ( Data Compression) - Bảng màu ( Palette Color) a. Mào đầu tệp: là thành phần chứa các thông tin về kiểu ảnh, kích thước, độ phân giải, số bit dùng trong 1 pixel, cách mã hóa, vị trí bảng màu… b. Dữ liệu nén: Số liệu ảnh được mã hóa bởi kiểu mã hóa chỉ ra trong phần Header c. Bảng màu: Bản màu không nhất thiết phải có ví dụ khi ảnh là đen trắng. Nếu có bảng màu cho biết số màu dùng trong ảnh và bảng màu được sử dụng để hiển thị màu của ảnh. 2.1.4 Độ phân giải của ảnh Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng 7 cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không gian hai chiều. 2.1.5 Mức xám của ảnh Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại điểm đó. Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là mức phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng 1 byte biểu diễn: 2^8=256 mức, tức là từ 0 đến 255). Hình 2.2 Minh họa mức xám sau khi mã hóa 2.1.6 Ảnh nhị phân Là ảnh chỉ có 2 mức đen trắng phân biệt, tức dùng 1 bit mô tả 2 1 mức khác nhau. Nói cách khác, mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1. 8 Hình 2.3 Minh họa ảnh nhị phân sau khi mã hóa 2.1.7 Ảnh màu RGB Ảnh RGB còn gọi là ảnh “truecolor” do tính trung thực của nó. Ảnh này được biểu diễn bởi một ma trận ba chiều kích thước m x n x 3, với m x n là kích thước ảnh theo pixels. Ma trận này định nghĩa các thành phần màu red, green, blue cho mỗi điểm ảnh, các thành phần của nó có thể thuộc kiểu uint8, uint16, hoặc double. Ví dụ, điểm ảnh ở vị trí (10,5,1), (10,5,2), (10,5,3). Các file ảnh hiện nay thường sử dụng 8 bit cho một thành phần màu, nghĩa là mất 24 bit cho mỗi điểm ảnh (khoảng 16 triệu màu).Theo lý thuyết màu do Thomas đưa ra mọi màu đều có thể tổ hợp từ 3 màu cơ bản sau: Red : λ (R) = 700nm. Green : λ (G) = 546.1 nm. Blue : λ (B) = 435.8 nm. Cũng theo tổ chức quốc tế về chuẩn hóa màu CIE (Commision Internationaled Eclairage ) đã đưa ra một số tiêu chuẩn để biểu diễn màu. 9 Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu là 2 8*3 = 2 24 =16,7 triệu màu. Hình 2.4 Mô hình màu RGB Hình 2.5 Minh họa ảnh màu sau khi mã hóa 2.1.8 Chỉnh mức xám 10 [...]... nhất) + Tách lấy bàn tay 3.2 Nhận dạng sử dụng mạng Nơ- ron 3.2.1 Giới thiệu mạng Nơ- ron a Mạng Nơ- ron sinh học Nơ- ron là thành phần cơ bản của bộ não con người Sơ đồ cấu tạo của một nơ- ron sinh học gồm có ba thành phần chính được mô tả ở hình 3.2 27 Hình 3.2 Mô hình 2 Nơ- ron sinh học Thân nơ- ron (Cell body): nhân của nơ- ron được đặt ở đây Các nhánh (Dendrite): đây chính là các mạng dạng cây của các... Perceptron là mạng nơ- ron nhân tạo đơn giản nhất chỉ có một lớp nơ- ron ( lớp này có thể có một hoặc nhiều nơ- ron ) đây là mạng nơ- ron với kiến trúc truyền thẳng một lớp Hình 3.4 Mô hình mạng Perceptron 1 lớp Hình 3.5 Mạng perceptron Một mạng lưới các Perceptrons như vậy gọi là một mạng nơ- ron của Perceptrons Biểu thị của Perceptron đầu ra thứ i và đầu vào của nó là x li xni, mối quan hệ Perceptron là... pháp chỉ dựa trên cảm nhận chung của con người về các ngưỡng, chưa có một lý thuyết, giải thuật cụ thể thống nhất để cho kết quả tổng quát và chính xác nhất 24 CHƯƠNG 3 PHÁT HIỆN BÀN TAY DỰA TRÊN MÀU DA VÀ NHẬN DẠNG CỬ CHỈ DÙNG MẠNG NƠ -RON 3.1 Phát hiện bàn tay dựa trên màu da Nhận dạng ảnh là một trong những kỹ thuật quan trọng trong xử lý ảnh số Sự phát triển của máy tính, hệ thống nhúng, mạng N ron. .. ngõ vào Mặc dù mạng Perceptron chỉ là một tế bào nơ- ron đơn giản (tốt nhất, một mạng lưới đơn lớp), nhưng chỉ giải quyết được một số vấn đề tuyến tính đơn giản 3.2.3 Mạng nhiều tầng MLP 35 input hidden output Hình 3.11 Sơ đồ về một mạng nơ- ron 3 lớp Mô hình mạng nơ- ron ở trên gồm 3 lớp: Lớp nhập (input): nhận các input và phân phối chúng cho tất cả nơ- ron trong lớp ẩn Số lượng các nơ- ron trong lớp nhập... mạng N ron đã kéo theo nhiều ứng dụng dựa trên việc nhận dạng Một trong những ứng dụng đó là việc phát hiện và nhận diện cử chỉ bàn tay Kỹ thuật nhận diện cử chỉ bàn tay đã và đang được nghiên cứu trong những năm gần đây với nhiều giải thuật nhằm tăng tốc độ cũng như là tính chính xác của việc nhận diện Sử dụng không gian màu RGB để phát hiện bàn tay Trong không gian màu RGB, phương pháp xây dựng và xếp... ( fire ) đối với nơ- ron nhận Ngược lại, chúng là ức chế ( inhibitory ) nếu các kích thích truyền qua làm ngăn trở trạng thái kích hoạt ( fire ) của nơ- ron nhận 28 b Mạng Nơ- ron nhân tạo Nơ- ron nhận tạo là sự sao chép nơ- ron sinh học cũa não người,là một hệ thống bao gồm nhiều phần tử xử lý đơn giản (hay còn gọi là nơ- ron) hoạt động song song và được nối với nhau bởi các liên kết nơ- ron Mỗi liên kết... chế giữa các nơ- ron Nó có những đặc tính sau: Mỗi nơ- ron có một đầu vào, những kết nối ( synapse ) và một đầu ra ( axon ) Một nơ- ron có thể hoạt động (+35 mV ) hoặc không hoạt động ( -0,75 mV ) Chỉ có một đầu ra duy nhất của một nơ- ron được nối với các đầu vào khác nhau của nơ- ron khác Điều kiện để nơ- ron được kích hoạt hay không kích hoạt chỉ phụ thuộc những đầu vào hiện thời của nó Một nơ- ron trở nên... cách áp dụng thành công mạng nơ- ron nhân tạo vẫn thấp hơn nhiều những người sử dụng các phương pháp thống kê truyền thống… Mạng nơ- ron nhân tạo dựa trên việc mô phỏng cấp thấp hệ thống nơ- ron sinh học Trong tương lai với sự phát triển mô phỏng nơ- ron sinh học, chúng ta có thể có loại máy tính thông minh thật sự 3.2.2 Mạng Perceptron 30 a Cấu trúc cơ bản Kiến trúc mạng perceptron được giới thiệu bởi Frank... Mô tả tham số ( nhận dạng theo tham số)  Mô tả theo cấu trúc ( nhận dạng theo cấu trúc) Người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như : nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái, chữ số, chữ có dấu) 2.3 Các phương pháp xử lý ảnh số 2.3.1 Chuyển ảnh màu RGB thành ảnh mức xám ( Gray level) Ảnh gốc thường là ảnh màu 24 bit màu nên khó nhận dạng ta cần phải... gửi của nơi kết nối Điều này làm tăng hoặc giảm hiệu điện thế bên trong nhân của nơ- ron nhận nơ- ron nhận sẽ kích hoạt (fire) nếu điện thế vượt khỏi một ngưỡng nào đó và một xung (hoặc điện thế hoạt động ) với độ mạnh ( cường độ ) và thời gian tồn tại cố định được gửi ra ngoài thông qua axon tới phần nhánh của nó rồi tới các chổ nối synapse với các nơ- ron khác Sau khi kích hoạt, nơ- ron sẽ chờ trong một

Ngày đăng: 23/08/2015, 22:24

Từ khóa liên quan

Mục lục

  • 1.4 Giới hạn đề tài

    • b.Hàm hoạt hóa của perceptron

    • 3.2.3 Mạng nhiều tầng MLP

    • Hình 3.13 Sơ đồ khối của hệ thống huấn luyện

      • c.Xuất kết quả hệ thống nhận dạng cử chỉ bàn tay.

      • e. Đánh giá độ chính xác

        • 5.3 Hướng phát triển của đề tài

Tài liệu cùng người dùng

Tài liệu liên quan