Tiểu luận môn Máy học và ứng dụng TÌM HIỂU VỀ MẠNG NEURON NHÂN TẠO VÀ ỨNG DỤNG TRONG NHẬN DẠNG KÝ TỰ QUANG HỌC

31 1.1K 0
Tiểu luận môn Máy học và ứng dụng TÌM HIỂU VỀ MẠNG NEURON NHÂN TẠO VÀ ỨNG DỤNG TRONG NHẬN DẠNG KÝ TỰ QUANG HỌC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÀI THU HOẠCH MÔN MÁY HỌC ĐỀ TÀI TÌM HIỂU VỀ MẠNG NEURON NHÂN TẠO VÀ ỨNG DỤNG TRONG NHẬN DẠNG KÝ TỰ QUANG HỌC GVHD: PGS.TS Vũ Thanh Nguyên SVTH: Nguyễn Hải Yến MSSV: CH1301074 t Máy học PGS.TS Vũ Thanh Nguyên TP Hồ Chí Minh, ngày 22 tháng 03 năm 2014 LỜI NÓI ĐẦU Từ đời, máy tính nhanh chóng phát triển đóng vai trị quan trọng nghiên cứu khoa học kỹ thuật đời sống Nhưng máy tính dù có mạnh đến đâu nữa, làm việc theo chương trình hoạch định sẵn lập trình viên Nó khơng có khả liên tưởng, kết nối việc với việc khác, quan trọng hết khả sáng tạo người Vì lý đó, mạng nơron nhân tạo (Artificial Neural Networks ) đời từ mục đích cố gắng mơ hoạt động trí tuệ người.Từ đời, mạng neuron nhanh chóng phát triển lĩnh vực nhận dạng, dự đoán, phân loại, giảm nhiễu, … Trong phạm vi thu hoạch em xin trình bày “Ứng dụng mạng neuron nhân tạo giải toán dự đoán phân loại “ Em xin gửi lời cảm ơn chân thành đến trường Đại học Công Nghệ Thông Tin TP.HCM tạo điều kiện cho em tiếp cận với môn học “Máy học ” Em xin cảm ơn Thầy PGS.TS Vũ Thanh Nguyên truyền đạt kiến thức có định hướng giúp em hoàn thành thu hoạch Mặc dù cố gắng thu hoạch em khó tránh khỏi thiếu sót em mong Thầy góp ý nhận xét để thu hoạch hoàn thiện SVTH : CH1301074 – Nguyễn Hải Yến Máy học PGS.TS Vũ Thanh Nguyên MỤC LỤC  LỜI NÓI ĐẦU .2 Chương TỔNG QUAN VỀ MẠNG NƠ-RON NHÂN TẠO Chương 20 NHẬN DẠNG KÝ TỰ QUANG HỌC 20 SVTH : CH1301074 – Nguyễn Hải Yến Máy học PGS.TS Vũ Thanh Nguyên Chương TỔNG QUAN VỀ MẠNG NƠ-RON NHÂN TẠO 1.1 Giới thiệu mạng nơ-ron nhân tạo 1.1.1 Bắt nguồn từ động sinh học Theo nhà nghiên cứu sinh học não, hệ thống thần kinh người bao gồm khoảng 100 tỷ tế bào thần kinh, thường gọi nơ-ron Chức tế bào nơ-ron liên kết với để tạo nên hệ thống thần kinh điều khiển hoạt động thể sống Các tế bào nơ-ron truyền tín hiệu cho thơng qua dây thần kinh vào ra, tín hiệu có dạng xung điện tạo từ q trình phản ứng hố học phức tạp Mỗi nơ-ron vừa đơn vị lưu trữ vừa đơn vị xử lý Não người cỗ máy học hồn hảo Mặc dù tốc độ tính tốn số học chậm máy tính, thời gian trao đổi thông tin nơ-ron 10 -3 giây ( chậm so với máy tính 10 -10 giây ) người đưa định phức tạp nhanh chóng cách đáng ngạc nhiên ( 10 -1 giây để nhận người thân mình) Hình :Minh họa não người mạng nơ-ron thần kinh SVTH : CH1301074 – Nguyễn Hải Yến Máy học PGS.TS Vũ Thanh Ngun 1.1.2 Mơ hình mạng nơ-ron nhân tạo (ANN: Artificial Neuron Network) Mạng nơ-ron nhân tạo hệ thống xử lý thông tin xây dựng sở tổng qt hố mơ hình tốn học nơ-ron sinh học mô theo chế làm việc não người Mạng nơ-ron nhân tạo thể thông qua ba thành phần bản: mô hình nơ-ron, cấu trúc liên kết nơ-ron, phương pháp học áp dụng cho mạng nơ-ron a Mơ hình nơ-ron Việc xử lý thơng tin nơ-ron xem gồm hai phần: xử lý tín hiệu vào (input) đưa tín hiệu (output) Tương ứng với phần vào nơron hàm tương tác f, hàm kết hợp thông tin truyền tới nơ-ron tạo thành thông tin đầu vào tổng hợp (gọi net input) nơ-ron Một nơ-ron thứ i mạng thường có hàm fi dạng tuyến tính sau : - xj : Tín hiệu vào - wij : trọng số tương ứng - : giá trị ngưỡng i Thao tác thứ hai nơ-ron tính giá trị đầu tương ứng với giá trị đầu vào f thơng qua hàm kích hoạt hay cịn gọi hàm chuyển g(f) Một số hàm chuyển thường sử dụng: − Hàm bước nhảy − Hàm dấu SVTH : CH1301074 – Nguyễn Hải Yến Máy học PGS.TS Vũ Thanh Nguyên − Hàm Sigmoid b Cấu trúc liên kết nơ-ron Mạng nơ-ron nhân tạo gồm nơ-ron liên kết có trọng số chúng Sau mơ hình số mạng nơ-ron nhân tạo − Mạng ANN có nút có phản hồi − Mạng ANN truyền thẳng lớp − Mạng ANN truyền thẳng nhiều lớp SVTH : CH1301074 – Nguyễn Hải Yến Máy học PGS.TS Vũ Thanh Nguyên − Mạng ANN quy hồi lớp c Phương pháp học áp dụng cho mạng nơ-ron Có hai vấn đề cần học mạng nơ-ron nhân tạo học tham số (parameter learning) học cấu trúc (structure learning) Học tham số việc thay đổi trọng số liên kết nơ-ron mạng, học cấu trúc việc điều chỉnh cấu trúc mạng bao gồm thay đổi số lớp nơ-ron, số nơ-ron lớp cách liên kết chúng Hai vấn đề thực đồng thời tách biệt Phương pháp học chia làm ba loại : • Học có giám sát (Supervisit Learning) :(học có thầy) Đây cách học từ mẫu liệu mà kỹ thuật máy học giúp hệ thống xây SVTH : CH1301074 – Nguyễn Hải Yến Máy học PGS.TS Vũ Thanh Nguyên dựng cách xác định lớp liệu Hệ thống phải tìm mơ tả cho lớp (đặc tính mẫu liệu) Người ta sử dụng luật phân loại hình thành trình học phân lớp để sử dụng dự báo lớp liệu sau Thuật toán học có giám sát gồm tập liệu huấn luyện M cặp: S = {(xi, cj)| i=1,…,M; j=1,…,C} Các cặp huấn luyện gọi mẫu, với xi vector n-chiều gọi vector đặc trưng, cj lớp thứ j biết trước Thuật toán máy học giám sát tìm kiếm khơng gian giả thuyết có thể, gọi H Đối với hay nhiều giả thuyết, mà ước lượng tốt hàm xác f : x  c Đối với cơng việc phân lớp xem giả thuyết tiêu chí phân lớp.Thuật tốn máy học tìm giả thuyết cách khám phá đặc trưng chung ví dụ mẫu thể cho lớp.Kết nhận thường dạng luật (Nếu thì) Khi áp dụng cho mẫu liệu mới, cần dựa giả thuyết có để dự báo phân lớp tương ứng chúng Nếu khơng gian giả thuyết lớn, cần tập liệu huấn luyện đủ lớn nhằm tìm kiếm hàm xấp xỉ tốt f • Học khơng giám sát (UnSupervisit Learning) : học khơng có thầy Đây việc học từ quan sát khám phá Hệ thống khai thác liệu ứng dụng với đối tượng khơng có lớp định nghĩa trước, mà để phải tự hệ thống quan sát mẫu nhận mẫu Hệ thống dẫn đến tập lớp, lớp có tập mẫu khám phá tập liệu Học khơng giám sát cịn gọi học từ quan sát khám phá Trong trường hợp có ít, hay gần khơng có tri thức liệu đầu vào, hệ thống học không giám sát khám phá SVTH : CH1301074 – Nguyễn Hải Yến Máy học PGS.TS Vũ Thanh Nguyên phân lớp liệu, cách tìm thuộc tính, đặc trưng chung mẫu hình thành nên tập liệu Một thuật tốn máy học giám sát ln biến đổi thành thuật tốn máy học khơng giám sát (Langley 1996) Đối với toán mà mẫu liệu mô tả n đặc trưng, người ta chạy thuật tốn học giám sát n-lần, lần với đặc trưng khác đóng vai trị thuộc tính lớp, mà tiên đốn Kết n tiêu chí phân lớp (n phân lớp), với hy vọng n phân lớp • Học tăng cường (Hybrid Learning) Học nửa giám sát thuật tốn học tích hợp từ học giám sát học không giám sát Việc học nửa giám sát tận dụng ưu điểm việc học giám sát học không giám sát loại bỏ khuyết điểm thường gặp hai kiểu học 1.1.3 Ứng dụng mạng nơ-ron nhân tạo Đặc trưng mạng nơ-ron nhân tạo khả học xử lý song song Nó gần mối quan hệ tương quan phức tạp yếu tố đầu vào đầu trình cần nghiên cứu học việc kiểm tra độc lập thường cho kết tốt Sau học xong, mạng nơ-ron nhân tạo tính tốn kết đầu tương ứng với số liệu đầu vào Về mặt cấu trúc, mạng nơ-ron nhân tạo hệ thống gồm nhiều phần tử xử lý đơn giản hoạt động song song Tính ANN cho phép áp dụng để giải tốn lớn Mơ hình mạng nơ-ron nhân tạo cho phép liên kết có trọng số phần tử phi tuyến (các nơ-ron đơn lẻ) tạo nên dạng hàm tổng hợp từ hàm thành phần Do vậy, sau trình điều chỉnh liên kết cho phù hợp (quá trình học), phần tử phi tuyến tạo nên hàm phi tuyến phức tạp có khả xấp xỉ hàm biểu diễn q trình cần nghiên cứu SVTH : CH1301074 – Nguyễn Hải Yến Máy học PGS.TS Vũ Thanh Nguyên Ứng dụng mạng nơ-ron nhân tạo giải toán phân lớp : phân loại chất lượng sản phẩm, nhận dạng người, nhận dạng tiếng nói, chữ viết Ứng dụng giải tốn dự báo: dự báo gía vàng, giá chứng khoán, dự báo thiên tai Ứng dụng mạng nơ-ron nhân tạo giải tốn tìm xấp xỉ tối ưu,… 1.2 Mạng nơ-ron lan truyền thẳng nhiều lớp 1.2.1 Mạng perceptron lớp Mạng perceptron lớp mạng truyền thẳng lớp vào lớp khơng có lớp ẩn Trên lớp có nhiều nơ-ron Mơ hình mạng nơ-ron lớp sử dụng hàm ngưỡng đóng vai trị hàm chuyển Do đó, tổng tín hiệu vào lớn giá trị ngưỡng giá trị đầu nơ-ron 1, trái lại Ngay từ mạng Perceptron lớp đề xuất sử dụng để giải toán phân lớp Một đối tượng nơ-ron i phân vào lớp A Tổng thông tin đầu vào : Trong wij trọng số liên kết từ nơ-ron j tới nơ-ron i , xj đầu vào từ nơ-ron j, θ ngưỡng nơ-ron i Trong trường hợp trái lại đối tượng phân vào lớp B Việc huấn luyện mạng dựa phương pháp học có giám sát với tập mẫu học {(x(k), d(k))}, k= 1,2, …, p Trong d(k) = [d 1(k), d2(k), …, dn(k)]T đầu quan sát tương ứng với đầu vào x(k) = [x1(k), x2(k), …, xm(k)]T (với m số đầu vào, n số đầu p cặp mẫu đầu vào - đầu dùng cho việc học) Như mong sau trình học, đầu tính tốn y (k) = [y1(k), y2(k), …, yn(k)]T với đầu mẫu học d(k) SVTH : CH1301074 – Nguyễn Hải Yến 10 Máy học PGS.TS Vũ Thanh Nguyên Lan truyền thẳng Cập nhật lỗi SVTH : CH1301074 – Nguyễn Hải Yến 17 Máy học PGS.TS Vũ Thanh Nguyên Cập nhật trọng số mạng SVTH : CH1301074 – Nguyễn Hải Yến 18 Máy học PGS.TS Vũ Thanh Nguyên 1.3.3 Đánh giá thuật toán lan truyền ngược Ngồi thành cơng giải thuật học lan truyền ngược, cịn có số khía cạnh làm cho giải thuật trở nên chưa bảo đảm lúc tốt Khó khăn chủ yếu trình huấn luyện lâu Có thể nhịp độ học động lực khơng tối ưu Sự sai sót việc huấn luyện nói chung xuất từ hai nguồn: mạng liệt cực tiểu địa phương • Mạng liệt: xảy trọng số điều chỉnh tới giá trị lớn Tổng đầu vào đơn vị ẩn đơn vị đầu mà đạt giá trị cao (hoặc dương âm), qua hàm kích hoạt sigmoid, đơn vị có giá trị kích hoạt gần gần Giá trị hiệu chỉnh trọng số gần 0, q trình huấn luyện đến trạng thái dừng ảo • Cực tiểu địa phương: bề mặt sai số mạng phức tạp đầy đồi thung lũng Bởi hạ độ dốc, mạng bị mắc bẫy cực tiểu địa phương có nhiều cực tiểu thấp gần bên cạnh Những phương pháp thống kê giúp để tránh bẫy này, chúng làm chậm Một phương án khác tăng thêm số lượng đơn vị ẩn Như làm việc không gian sai số nhiều chiều, nên hội gặp bẫy nhỏ Tuy nhiên việc tăng có giới hạn trên, vượt qua giới hạn này, hội mắc bẫy lại tăng lên SVTH : CH1301074 – Nguyễn Hải Yến 19 Máy học PGS.TS Vũ Thanh Nguyên Chương NHẬN DẠNG KÝ TỰ QUANG HỌC 2.1 Phát biểu tốn • Đầu vào : Các liệu đầu vào phải qua xử lý đạt chuẩn yêu cầu trước đưa vào nhận dạng Các yêu cầu liệu đầu vào file ảnh dạng văn có định dạng *.bmp, dạng file ảnh chuẩn, có kiểu màu pixel đen trắng, để việc tiến hành nhận dạng xác.Các file ảnh qua giai đoạn tiền xử lý : xử lý ảnh nhiễu, ảnh đa sắc , lọc ảnh • Đầu mong muốn : file text chứa ký tự Unicode tương ứng mà chương trình mong muốn huấn luyện mạng học thuộc Số ký tự đầu mong muốn phải tương ứng với số kí tự ảnh đầu vào cần huấn luyện 2.2 Xác định cấu trúc mạng Mạng nơ-ron xây dựng theo phương pháp học có giám sát Lựa chọn mạng nơ-ron truyền thẳng sử dụng thuật toán lan truyền ngược với cấu trúc sau: • Số nơ-ron lớp đầu vào : 150 nơ-ron Giải thích : Việc huấn luyện cho mạng học vòng lặp duyệt qua ký tự ảnh giúp mạng noron nhớ nhận dạng ký tự ảnh này.Với vòng lặp, ký tự đưa vào giảng dạy cho mạng nơron học.Trong trình này, ký tự phân tích chuyển tỉ lệ vào ma trận nhị phân 15 x 10 Ứng với điểm lưới ma trận tuyến tính hóa tạo tương ứng với nơ-ron đầu vào.Vì ma trận tạo 15x10=150 noron đầu vào Lưu ý : Việc chọn số lượng noron đầu vào hay nói cách khác việc chọn tỉ lệ ma trận đầu vào cho kí tự quan trọng − Nếu số lượng nơ-ron lớn dẫn đến việc :  Nhận dạng kí tự có font chữ nhỏ trung bình bị sai khơng xác SVTH : CH1301074 – Nguyễn Hải Yến 20 Máy học PGS.TS Vũ Thanh Nguyên  Chương trình viết phải duyệt qua nhiều vịng lặp dẫn đến chương trình bị chậm, gây tình trạng bị đứng máy chạy − Nếu số lượng nơ-ron nhỏ :  Việc phân tích kí tự ảnh thơng thường lớn dẫn đến sai số lớn , vậy, việc nhận dạng kí tự thiếu tính xác  Qua kiểm nghiệm, dựa nhiều tài liệu, nhận thấy giá trị 150 nơ-ron đầu vào phù hợp để nhận dạng với kiểu kí tự ảnh có font chữ trung bình, phổ biến Các kí tự ảnh có chiều cao trung bình 70 pixel chiều rộng khoảng 54 pixel • Số nơ-ron lớp ẩn : 500 nơ-ron Việc lựa chọn giá trị dựa thực nghiệm tài liệu chuyên nhận dạng kí tự quang học Số nơ-ron định từ kết tối ưu giá trị lỗi sở q trình huấn luyện • Số nơ-ron đầu : 16 nơ-ron 16 nơ-ron tương ứng với 16 bit nhị phân mã Unicode.Từ16 nơ-ron ta tổng hợp chuyển thành 16 bit nhị phân, sau chuyển thành kí tự Unicode Sau hình ảnh minh họa cấu trúc mạng : SVTH : CH1301074 – Nguyễn Hải Yến 21 Máy học 2.3 2.3.1 PGS.TS Vũ Thanh Nguyên Phương pháp thuật toán nhận dạng ký tự Phương pháp xử lý liệu ( nhận dạng kí tự) : Là q trình phân tích văn ảnh thành kí tự Việc phân tích dựa việc nhận dạng pixel màu ký tự ảnh với liệu đầu vào xử lý chuyển thành định dạng *.bmp có pixel điểm đen RGB(0,0,0) điểm trắng RGB(255, 255, 255) Q trình phân tích văn ảnh thực hai bước : - bước tách dòng văn ; - bước tách kí tự a Bước tách dịng văn Thuật tốn : Bắt đầu từ điểm ảnh (x, y) file ảnh (0,0), gán số dòng xét lines =0; SVTH : CH1301074 – Nguyễn Hải Yến 22 Máy học i PGS.TS Vũ Thanh Nguyên Xác định giới hạn dòng : Quét hết chiều rộng ảnh, giá trị y ( chạy x

Ngày đăng: 21/05/2015, 12:49

Từ khóa liên quan

Mục lục

  • LỜI NÓI ĐẦU

  • Chương 1.

  • TỔNG QUAN VỀ MẠNG NƠ-RON NHÂN TẠO

  • Chương 2.

  • NHẬN DẠNG KÝ TỰ QUANG HỌC

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan