Sử dụng mạng noron cho nhận dạng ký tự Tiếng Việ

79 554 1
Sử dụng mạng noron cho nhận dạng ký tự Tiếng Việ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CẢM ƠN Xin chân thành cảm ơn Thầy giáo, PGS.TS. Lê Bá Dũng đã tận tình chỉ dạy, hướng dẫn tôi trong suốt thời gian nghiên cứu và thực hiện luận văn. Tôi cũng xin chân thành cảm ơn các Thầy giáo Viện Công nghệ Thông tin và các Thầy giáo Trường Đại học sư phạm Hà Nội 2 đã giảng dạy, giúp đỡ trong suốt thời gian học tập. Xin cảm ơn tất cả các anh chị học viên Cao học khóa 15 - Khoa học máy tính, cảm ơn các cán bộ công chức, giảng viên Trường Đại học sư phạm Hà Nội 2 đã tạo điều kiện tốt cho tôi trong suốt trong hai năm học qua. Xin cảm ơn các bạn bè, đồng nghiệp, gia đình đã tạo mọi điều kiện thuận lọi cũng như đã chỉ bảo tôi rất nhiều trong thời gian thực hiện luận văn này để tôi có được kết quả như ngày hôm nay. Hà Nội, tháng 11/2013 Người viết luận văn Nguyễn Đức Thịnh LỜI CAM ĐOAN Tôi xin cam đoan đề tài luận văn “Sử dụng mạng noron cho nhận dạng ký tự tiếng Việt” là công trình nghiên cứu của bản thân tôi. Các số liệu, kết quả nghiên cứu nêu trong luận văn này là trung thực và không sao chép y nguyên từ một công trình nào khác. Tôi xin chịu trách nhiệm về luận văn của mình. 1 Hà Nội, tháng 11/2013 Người viết luận văn Nguyễn Đửc Thịnh MỤC LỤC Trang DANH MỤC CÁC TỪ TIÉNG ANH VIÉT TẮT ST T Từ viết tắt Từ viết tường minh 1 HMM Hiden Markov Model 2 LVQ Learning Vector Quantization 3 MLP Multi Layer Perception 4 OCR Optical Character Recognation 5 PDA Personal Digital Assistant 6 RFID Radio Frequency Identification 7 SOM Self Organizing Maps 8 SVM Support Vector Machine 2 DANH MỤC CÁC HÌNH • Hình 1.1. Mô hình потоп sinh học Hình 1.2. Mô hình một nơron Hình 1.3. Mạng truyền thẳng một lóp Hình 1.4. Mạng truyền thẳng nhiều lớp Hình 1.5. Mạng một lóp có nối ngược Hình 1.6. Mạng nhiều lóp có nối ngược Hình 1.7. Cấu trúc của mạng Kohonen Hình 1.8. Mạng Kohonen điển hình Hình 1.9. Huấn luyện mạng Kohonen Hình 2.1. Mô hình tổng quát của một hệ nhận dạng ký tụ' Hình 3.1. Quá trình tìm giới hạn ký tự Hình 3.2. Quá trình lấy mẫu xuống Hình 3.3. Quá trình ánh xạ từ ma trận điểm sang ma trận giá trị Hình 3.4. Quá trình huấn luyện mạng потоп kohonen Hình 3.5. Giao diện chương trình mô phỏng Hình 3.6. Nhận dạng ký tự N Hình 3.7. Nhận dạng ký tự Ô Hình 3.8. Nhận dạng ký tự Á 3 PHÀN MỞ ĐẦU Công nghệ thông tin ngày nay càng ngày càng trở lên quan trọng trong cuộc sống hàng ngày của chúng ta. Trong công nghệ thông tin, trí tuệ nhân tạo hiện nay đang được quan tâm rất nhiều của xã hội. Nó như là một giải pháp mang đến hy vọng mới mô phỏng được bộ não con người. Nghiên cứu và mô phỏng trí não, cụ thể là tế bào thần kinh (Neural) là một ước muốn từ lâu của nhân loại. Với khoảng 15 tỷ Neural ở não người, mỗi Neural có thế nhận hàng vạn tín hiệu từ khớp thần kinh và được coi là một cơ chế sinh vật phức tạp nhất. Bộ não con người có khả năng giải quyết rất nhiều vấn đề như: nghe, nhìn, nói, hồi ức thông tin, phân biệt, phân tích các mẫu dựa trên một số thông tin đã có. Neural thần kinh chính là yếu tố chính giúp chúng ta có thể làm nhũng công việc như vậy. Bộ não phân công công việc xủ lí cho hàng tỉ Neural có liên quan, điều khiển các mối liên hệ giữa các Neural đó. Neural không ngừng nhận và truyền thông tin lẫn nhau. Cơ chế hoạt động của Neural [1] bao gồm: liên kết (association), tổng quát hóa (generation), và tự tổ chức (Self Orgazation). Các Nơron tự liên kết với nhau thành mạng trong xử lý. Mỗi mạng gồm hàng vạn các phần tử Nơron khác nhau. Mỗi phần tử Nơron có khả năng liên kết với hàng nghìn các Nơron khác. 4 Hiện nay, mạng Nơron được đưa vào ứng dụng rộng rãi trong rất nhiều lĩnh vực. Và bài toán nhận dạng là bài toán sử dụng các tính năng của mạng Nơron nhiều nhất. Bài toán nhận dạng với sự trợ giúp của mạng Nơron ngày nay đã không còn dừng ở mức độ nghiên cứu nữa mà nó trở thành một lĩnh vực để áp dụng vào thực tế. Các bài toán nhận dạng được nghiên cứu nhiều nhất hiện nay tập trung vào nhận dạng mẫu hình học (vân tay, mặt người, hình khối ), nhận dạng tiếng nói và nhận dạng chữ viết. Chúng được ứng dụng trong rất nhiều lĩnh vực như y học, dự báo thời tiết, dự báo cháy rừng, , các lĩnh vực tự động hóa như điều khiển rô-bốt, điều khiển các thiết bị bằng giọng nói, Trong số các bài toán nhận dạng này, nhận dạng chữ viết đang được ứng dụng rất phổ biến. Nhận dạng chữ viết được ứng dụng trong quá trình tự động hóa các công việc văn phòng như nhập liệu, lưu trữ văn bản, sách báo, phân loại thư tín, , những công việc rất nhàm chán và đòi hỏi nhiều thời gian của con người. Nhận dạng bằng mạng Nơron đang được úng dụng trong hàng loạt lĩnh vực quan trọng của cuộc sống, phục vụ lợi ích trực tiếp và thiết thực cho công việc của con người. Mục đích của luận văn là: Trình bày các kết quả nghiên cứu lý thuyết phục vụ cho chủ đề: “Nhận dạng chữ viết tay Tiếng Việt sử 5 dụng mạng Nơron”. Tuy nhiên, do hạn chế về mặt thời gian cũng như độ phức tạp của bài toán mà trong khuôn khổ, thời lượng của luận văn, tôi chỉ đi sâu nghiên cứu và đưa ra một chương trình mô phỏng nhận dạng ký tự viết tay Tiếng Việt rời rạc trực tuyến sử dụng mạng Nơron Kohonen. CHƯƠNG 1 MỘT SỐ VẤN ĐỀ VỀ MẠNG NƠRON 1.1. Mạng Nơron sinh học Bộ não con người có khoảng 10 10 tế bào thần kinh liên kết chặt chẽ với nhau được gọi là các nơ-ron. Mỗi nơ-ron gồm có ba phần: Thân nơ-ron với nhân ở bên trong (soma), một đầu sợi trục thần kinh ra (axon) và một hệ thống tế bào hình cây (dendrite). Te bào hình cây có nhiệm vụ mang các tín hiệu điện tới các tế bào thân, tế bào thân sẽ thực hiện gộp (Sum) và phân ngưỡng (Thresholds) các tín hiệu đến. Sợi trục thần kinh làm nhiệm vụ đưa các tín hiệu thân ra ngoài. Trong thực tế có rất nhiều dây thần kinh vào và chúng bao phủ một diện tích rất lớn (0.25 mm 2 ) để nhận các tín hiệu từ các nơ-ron khác. Đầu thần kinh ra được rẽ nhánh nhằm chuyến giao tín hiệu từ thân nơ-ron tới nơ-ron khác. Các nhánh của đầu thần kinh được nối với các khớp thần kinh (synapse). Các khớp thần kinh này được nối với 6 thần kinh vào của các nơ-ron khác. Sự sắp xêp của các nơ-ron và mức độ mạnh yêu của các khóp thân kinh được quyêt định bởi quá trình hóa học phức tạp, sẽ thiết lập chức năng của mạng nơ-ron, các nơ-ron có thể sửa đổi tín hiệu tại các khớp, trong các nơ-ron nhân tạo được gọi là trọng số. Có thể nói, mạng nơ-ron sinh học hoạt động chậm hon rất nhiều so với các linh kiện điện tử (10‘ 3 giây so với 10‘ 9 giây), nhưng bộ não có thể thực hiện nhiều công việc nhanh hon rất nhiều so với máy tính thông thường. Do cấu trúc song song của mạng nơ-ron sinh học thể hiện toàn bộ các nơ-ron thực hiện đồng thời tại một thời điểm. Mạng nơ-ron nhân tạo cũng có được đặc điếm này. Các mạng nơ-ron nhân tạo chủ yếu thực nghiệm trên các máy tính mạnh có vi mạch tích hợp rất lớn, các thiết bị quang, bộ xử lý song song. Điều này cũng giải thích tại sao những nghiên cứu khoa học về mạng nơ-ron nhân tạo có điều kiện phát triển cùng với sự phát triến về kỹ thuật công nghệ phần cứng máy tính. Có nhiều loại nơ-ron khác nhau về kích thước và khả năng thu phát tín hiệu. Tuy nhiên, chúng có cấu trúc và nguyên lý hoạt động chung. Hình vẽ (1.1) là một hình ảnh đon giản hoá của một loại nơ-ron 7 như vậy. [3] Hình 1.1. Mô hình nơ-ron sinh học Hoạt động của nơ-ron sinh học có thể mô tả tóm tắt như sau: Mỗi nơ-ron nhận tín hiệu vào từ các tế bào thần kinh khác. Chúng tích họp các tín hiệu vào, khi tổng tín hiệu vượt quá một ngưỡng nào đó chúng tạo tín hiệu ra và gửi tín hiệu này tới các nơ-ron khác thông qua dây thần kinh. Các nơ-ron liên kết với nhau thành mạng. Mức độ bền vững của các liên kết này xác định một hệ số gọi là trọng số liên kết. 1.2. Mạng Nơ-ron nhân tạo 1.2.1. Nơ-ron nhân tạo 8 Đe mô phỏng các tế bào thần kinh và các khóp nối thần kinh của bộ não con người, mạng nơ-ron nhân tạo có các thành phần có vai trò tương tự làcác nơ-ron nhân tạo và kết nối giữa chúng (kết nối này gọi là weights). Nơ-ron là một đơn vị tính toán có nhiều đầu vào và một đầu ra, mỗi đầu vào đến từ một khớp nối thần kinh (synapse). Đặc trưng của nơ-ron là một hàm kích hoạt phi tuyến chuyển đối một tổ hợp tuyến tính của tất cả các tín hiệu đầu vào thành tín hiệu đầu ra. Một nơ-ron nhân tạo là một đon vị tính toán hay đon vị xử lý thông tin cơ sở cho hoạt động của một mạng nơ-ron. Các thành phần cơ bản của một mô hình nơ-ron.[ 1] - Trọng số và tổng tín hiệu đầu vào: Mỗi nơ-ron có rất nhiều dây thần kinh vào, nghĩa là mỗi nơ-ron có thể tiếp nhận đồng thời nhiều tín hiệu. Giả sử tại nơ-ron i có N tín hiệu vào, mỗi tín hiệu vào s được gán một trọng so W. tương ứng. Ta ước lượng tổng tín hiệu đi vào nơ-ron neí.theo một số dạng sau: (i) Dạng tuyến tính: N netị= Ị\\)j.Sj 7=1 (ii) Dạng toàn phương: 9 (1.1) N net i = ị. w ij s j (iii) Dạng mặt cầu: (1.3) Trong đó: p và w j = \,N lần lượt là tâm và bán kính mặt cầu 1 0 (1.2) [...]... Delta cho mạng nhiều lớp Đối với mạng truyền thẳng thường sử dụng luật truyền ngược để chỉnh trọng với tín hiệu chỉ đạo từ bên ngoài và người ta gọi mạng này là mạng lan truyền ngược + Học không có tín hiệu chỉ đạo' Luật học này sử dụng đầu ra của mạng làm cơ sở đế hiệu chỉnh các trọng số liên kết Hay trong luật này chính là tín hiệu ra của mạng Điển hình là luật Hebb (1949) thường dùng cho các mạng tự. .. đầu vào net cho tín hiệu đầu ra out được gọi là hàm kích hoạt Hàm này có đặc điếm là không âm và bị chặn, dùng đế giới hạn biên độ đầu ra của nơ-ron Có nhiều dạng hàm kích hoạt, người ta thường sử dụng một hàm kích hoạt chung cho toàn mạng Một số hàm kích hoạt thường được sử dụng: 1) Hàm đồng nhất (Linear function, Identity function) g(x) = x Neu coi các đầu vào là một đơn vị thì chúng sẽ sử dụng hàm... Luật Hebb giải thích việc chỉnh trọng trong phạm vi cục bộ của mạng mà không cần tín hiệu chỉ đạo từ bên ngoài Hopíĩeld cũng cải tiến luật Hebb cho các mạng tự liên kết thành 16 dạng khác nhau theo kiếu luật Hebb, luật đối Hebb, luật Hopíĩeld Như vậy, ứng với mỗi nhóm mạng thường áp dụng một luật học nhất định Nếu tồn tại hàng chục loại mạng khác nhau thì các luật học dùng trong mạng nơ-ron có thể tăng... mang lại cho mạng nơ-ron khả năng tính toán rất lớn, trong đó không có nơ-ron nào mang thông tin riêng biệt Ví dụ: Hình 1.2 là một mô hình mạng thông dụng ■ Các hình trạng của mạng Hình trạng mạng được định nghĩa bởi: số lớp (layers), số đơn vị trên mỗi lóp, và sự liên kết giữa các lóp đó Các mạng thường được chia làm hai loại dựa trên cách thức liên kết các đon vị: 1.2.2.1 Mạng truyền thẳng - Mạng truyền... hơn Mạng nơ-ron xây dựng lại cấu trúc bộ não thì phải cần có khả năng nhận biết dữ liệu thông qua tiến trình học, YỚi các thông số tự do của mạng có thế thay đối liên tục bởi nhũng thay đối của môi trường và mạng nơ-ron ghi nhớ giá trị đó Trong quá trình học, giá trị đầu vào được đưa vào mạng và theo dòng chảy trong mạng tạo thành giá trị đầu ra Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng. .. Hàm này có đặc tính tương tự hàm sigmoid Hàm làm việc tốt đối với các úng dụng có đầu ra yêu cầu trong khoảng [-1,1] Đồ thị hàm sigmoid lưỡng cực Các hàm chuyển của các đơn vị ẩn (hidden units) là cần thiết để biểu diễn sự phi tuyến vào trong mạng - Nút bias: Là một nút thêm vào nhằm tăng khả năng thích nghi của mạng nơ-ron trong quá trình học Trong các mạng nơ-ron có sử dụng bias, mỗi nơ-ron có thể... (1.5) In • a [0, neàx . 3.4. Quá trình huấn luyện mạng потоп kohonen Hình 3.5. Giao diện chương trình mô phỏng Hình 3.6. Nhận dạng ký tự N Hình 3.7. Nhận dạng ký tự Ô Hình 3.8. Nhận dạng ký tự Á 3 PHÀN MỞ ĐẦU Công nghệ. luận văn Nguyễn Đức Thịnh LỜI CAM ĐOAN Tôi xin cam đoan đề tài luận văn Sử dụng mạng noron cho nhận dạng ký tự tiếng Việt” là công trình nghiên cứu của bản thân tôi. Các số liệu, kết quả nghiên. đưa ra một chương trình mô phỏng nhận dạng ký tự viết tay Tiếng Việt rời rạc trực tuyến sử dụng mạng Nơron Kohonen. CHƯƠNG 1 MỘT SỐ VẤN ĐỀ VỀ MẠNG NƠRON 1.1. Mạng Nơron sinh học Bộ não con người

Ngày đăng: 29/06/2015, 12:03

Từ khóa liên quan

Mục lục

  • LỜI CẢM ƠN

  • LỜI CAM ĐOAN

  • MỤC LỤC

    • Trang

    • DANH MỤC CÁC HÌNH

      • PHÀN MỞ ĐẦU

        • CHƯƠNG 1 MỘT SỐ VẤN ĐỀ VỀ MẠNG NƠRON

        • 1.1. Mạng Nơron sinh học

        • y= ^,,y2l-.y

          • Hình 1.5. Mạng một lóp có nối ngược

            • 1.3. Đặc trưng của mạng nơron.

              • 1.4. Mạng KOHONEN.

              • 1.4.1. Giói thiệu về mạng Nơron Kohonen.[l]

              • Hình 1.9: Huấn luyện mạng Kohonen (SOM)

                • 1.4.4. Kết luận.

                • 3.1. Bài toán

                • 3.2. Xác định các tham số của mạng cho nhận dạng ký tự.

                • liu

                  • 3.3.2. Huấn luyện mạng nơron Kohonen

Tài liệu cùng người dùng

Tài liệu liên quan