Phân tích cấu trúc và nhận dạng biểu mẫu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ ĐỖ THANH CAO PHÂN TÍCH CẤU TRÚC VÀ NHẬN DẠNG BIỂU MẪU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cần Thơ - 2010 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ ĐỖ THANH CAO PHÂN TÍCH CẤU TRÚC VÀ NHẬN DẠNG BIỂU MẪU Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn: TS TRẦN CAO ĐỆ Cần Thơ - 2010 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Phân tích cấu trúc nhận dạng biểu mẫu” công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Tác giả Đỗ Thanh Cao i LỜI CẢM TẠ Để hoàn thành luận văn nhận hướng dẫn khoa học tiến sĩ Trần Cao Đệ, giảng viên Khoa Công nghệ Thông tin Truyền thông trường Đại học Cần Thơ Thầy có nhiều định hướng, gợi mở cách giải vấn đề cho tốt, nhờ vượt qua nhiều khó khăn lúc thực Lời cám ơn xin gửi đến Thầy, cảm thấy thật may mắn làm việc với Thầy Bên cạnh đó, xin cám ơn gia đình ủng hộ tinh thần dành cho nhiều thời gian để nghiên cứu Tiếp theo, xin cám ơn đồng nghiệp Bộ môn Tin học giúp làm nhiều việc lẻ phải làm Xin cám ơn Ban Giám hiệu trường Đại học An Giang tạo điều kiện cho học nâng cao trình độ Sau cùng, xin chân thành cám ơn giảng viên Khoa Khoa Công nghệ Thông tin Truyền thông trường Đại học Cần Thơ cung cấp nhiều kiến thức quý báo trình theo học chương trình cao học Khoa Xin cám ơn bạn Huỳnh Phước Hải, Phạm Thiên Ân Nguyễn Chế Linh nhiệt tình giúp thu thập mẫu chữ viết tay Chân thành cám ơn Đỗ Thanh Cao ii MỤC LỤC Chương 1:TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU 13 1.1.Giới thiệu 13 1.2.Hệ thống xử lí biểu mẫu tự động .14 1.2.1.Số hóa biểu mẫu giấy .15 1.2.2.Phân tích biểu mẫu 15 1.2.3.Nhận dạng biểu mẫu 16 1.2.4.Nhận dạng liệu viết tay .17 1.3.Phạm vi đề tài 18 1.3.1.Mô hình hóa biểu mẫu (form modeling) 19 1.3.1.1.Đăng ký biểu mẫu (form registration) 19 1.3.1.2.Mô hình biểu mẫu (form template) 19 1.3.2.Phân tích biểu mẫu 20 1.3.3.Nhận dạng biểu mẫu 20 1.3.4.Nhận dạng liệu viết tay .21 1.4.Bố cục luận văn 21 Chương 2:BIỂU MẪU VÀ TRÍCH XUẤT ĐƯỜNG THẲNG TỪ ẢNH BIỂU MẪU .23 2.1.Tổng quan biểu mẫu 23 2.1.1.Khái niệm biểu mẫu 23 2.1.2.Lợi ích biểu mẫu 23 2.1.3.Các kiểu vùng nhập biểu mẫu 24 2.1.4.Kiểu liệu chứa biểu mẫu 26 2.1.4.1.Thông tin in sẵn 26 2.1.4.2.Thông tin điền vào 26 2.2.Trích xuất đường thẳng từ biểu mẫu (Line Extraction) 26 2.2.1.Phương pháp trích đường thẳng .28 2.2.2.Phương pháp DSCC (Directional Single-Connected Chain) 29 2.2.2.1.Định nghĩa DSCC 29 2.2.2.2.Nối DSCC 31 2.2.2.3.Một số phương pháp nâng cao hiệu giải thuật 34 2.3.Thực nghiệm 35 Chương 3:PHÂN TÍCH BIỂU MẪU 39 3.1.Giới thiệu 39 3.1.1.Phân tích biểu mẫu trắng 41 3.1.2.Phân tích biểu mẫu điền 42 3.2.Nhóm đường thẳng vào loại ô nhập (Line Grouping) 42 3.2.1.Đặt vấn đề 42 3.2.2.Các kiểu giao hai đường thẳng ngang dọc 43 3.2.3.Phương pháp trích xuất cấu trúc vùng nhập 47 3.2.3.1.Dạng chữ nhật 48 3.2.3.2.Dạng cưa 49 3.2.3.3.Dạng đường thẳng 51 3.2.3.4.Một số phương pháp nâng cao hiệu giải thuật trích xuất cấu trúc .51 3.3.Trích xuất nhãn với Tesseract VietOCR 52 3.3.1.Tesseract 53 3.3.2.VietOCR 54 3.3.3.Trích nhãn (Label Extraction) 54 3.4.Thực nghiệm 56 iii Chương 4:MÔ HÌNH HÓA VÀ NHẬN DẠNG BIỂU MẪU 59 4.1.Mô hình hóa biểu mẫu .59 4.1.1.Nội dung 59 4.1.1.1.Thông tin chung .59 4.1.1.2.Thông tin nhãn .60 4.1.1.3.Thông tin cấu trúc ô nhập 60 4.1.2.Cấu trúc 62 4.1.3.Lưu trữ .63 4.1.3.1.XML DOM 63 4.1.3.2.Các phần tử (thẻ) XML tập tin mô hình 64 4.1.3.3.Kết hợp thông tin ô nhập nhãn tương ứng 67 4.2.Nhận dạng biểu mẫu 69 4.2.1.Phương pháp nhận dạng biểu mẫu 69 4.2.2.Nhận dạng biểu mẫu từ khóa 71 4.3.Thực nghiệm 75 4.3.1.Mô hình hóa: 75 4.3.2.Nhận dạng biểu mẫu 76 4.3.2.1.Mô tả tập liệu 76 4.3.2.2.Phương pháp kiểm chứng 76 Chương 5:NHẬN DẠNG KÝ TỰ VIẾT TAY OFFLINE VỚI SVM 78 5.1.Giới thiệu 78 5.2.Nhận dạng ký tự viết tay 78 5.2.1.Đặt vấn đề 78 5.2.2.Mô hình nhận dạng 79 5.2.2.1.Tiền xử lí 79 5.2.2.2.Trích xuất đặc trưng 80 5.3.Phương pháp huấn luyện nhận dạng 82 5.4.Thực nghiệm 82 5.4.1.Mô tả tập liệu 82 5.4.2.Huấn luyện nhận dạng 82 5.4.3.Kết .82 Chương 6:KẾT LUẬN .84 6.1.Những kết đạt 84 6.1.1.Trích xuất đường thẳng 84 6.1.2.Trích xuất cấu trúc vùng nhập 84 6.1.3.Mô hình hóa biểu mẫu .84 6.1.4.Nhận dạng biểu mẫu 84 6.1.5.Nhận dạng ký tự viết tay 85 6.2.Hướng phát triển đề tài 85 iv DANH MỤC HÌNH Hình 1.1: Hệ thống xử lí biểu mẫu tự động 13 Hình 1.2: Phân tích cấu trúc ô nhập 14 Hình 1.3: Nhận dạng biểu mẫu 15 Hình 1.4: Nhận dạng ký tự viết tay .16 Hình 1.5: Sơ đồ hoạt động hệ thống 17 Hình 1.6: Tạo mô hình biểu mẫu 18 Hình 1.7: Nhãn ô nhập biểu mẫu 19 Hình 2.1: Kiểu ô nhập dạng ô ký tự 23 Hình 2.2: Kiểu ô nhập đánh dấu 24 Hình 2.3: Kiểu ô nhập dạng đường thẳng 24 Hình 2.4: Quy trình trích xuất đường thẳng .26 Hình 2.5: Dạng tổng quát đường thẳng ảnh .27 Hình 2.6: DSCC ngang (nguồn [13]) 29 Hình 2.7: Minh họa việc trích DSCC ngang (Nguồn: [13]) 30 Hình 2.8: Khoảng cách hai đường thẳng (co-line distance) (Nguồn: [1]) 31 Hình 2.9: Các ô nhập đồng dạng, có kích thước tương đương 35 Hình 2.10: Các ô nhập không đồng dạng có kích thước khác 35 Hình 2.11: Các ô nhập đồng dạng có kích thước khác biểu mẫu chứa logo 36 Hình 2.12: Các ô nhập đồng dạng có kích thước khác 36 Hình 2.13: Ô nhập dạng đường thẳng không liền nét 37 Hình 2.14: Lỗi trích đường thẳng .37 Hình 3.1: Phân tích biểu mẫu trắng (blank form) .39 Hình 3.2: (a) cấu trúc đóng, (b) cấu trúc mở 41 Hình 3.3: Các kiểu giao hai đường thẳng ngang dọc .42 Hình 3.4: Cấu trúc ba phần đường thẳng ngang (Nguồn: [12]) 44 Hình 3.5: Sắp xếp đường thẳng theo thứ tự 46 Hình 3.6: Ma trận chứa giá trị giao đường thẳng 47 Hình 3.7: Thứ tự duyệt ma trận giao điểm để xác định cấu trúc chữ nhật 47 Hình 3.8: Thứ tự duyệt ma trận giao điểm để xác định cấu trúc "răng cưa" 49 Hình 3.9: Lỗi đường thẳng dọc cấu trúc 50 Hình 3.10: Lỗi đường thẳng ngang dọc cuối cấu trúc 51 Hình 3.11: Lỗi đường thẳng ngang dọc đầu cấu trúc 51 Hình 3.12: Kết trích xuất cấu trúc vùng nhập 56 Hình 3.13: Kết trích xuất cấu trúc vùng nhập (tiếp theo) 56 Hình 3.14: Nhận dạng phần văn ảnh biểu mẫu 57 Hình 3.15: Nhận dạng văn phần ảnh biểu mẫu 57 Hình 4.1: Thông tin nhãn vùng nhập 59 Hình 4.2: (a) đặc trưng ô nhập chữ nhật, (b) đặc trưng dãy ô nhập liền nhau.59 Hình 4.3: Đặc trưng ô nhập dạng "răng cưa" .60 Hình 4.4: Đặc trưng đường thẳng 60 Hình 4.5: Đặc trưng biểu diễn dạng tài liệu (document tree) .61 Hình 4.6: Tương quan vị trí nhãn cấu trúc ô nhập 66 Hình 4.7: Vị trí nhãn so với vùng nhập .67 Hình 4.8: Tính độ tương đồng (khớp) biểu mẫu mô hình biểu mẫu .71 Hình 4.9: Công cụ mô hình hóa biểu mẫu 74 Hình 4.10: Hai biểu mẫu có cấu trúc gần giống 75 Hình 5.1: Mô hình nhận dạng ký tự viết tay (Nguồn: [38]) .78 Hình 5.2: Chuẩn hóa ảnh (Nguồn: [38]) .78 v Hình 5.3: Chọn đặc trưng theo trọng số vùng (Nguồn: [38]) 79 Hình 5.4: Trích chọn biểu đồ chiếu ngang, dọc đường chéo (Nguồn: [38]) 79 Hình 5.5: Trích chọn khối bên chữ (Nguồn: [38]) .80 Hình 5.6: Biểu đồ so sánh kết tỷ lệ nhận dạng 82 vi DANH MỤC BẢNG Bảng 3.1: Định nghĩa loại giao điểm đường thẳng ngang dọc 43 Bảng 3.2: Công thức xác định loại giao điểm 45 Bảng 4.1: Mô tả loại cấu trúc vùng nhập 63 Bảng 4.2: Thông tin chung mô hình 64 Bảng 4.3: Đặc trưng loại vùng nhập 64 Bảng 4.4: Các thẻ chứa thông tin chung 65 Bảng 4.5: Các thẻ chứa thông tin vùng nhập 65 Bảng 5.1: Kết phân loại tập ký tự tiếng Việt (89 lớp) 80 vii TÓM TẮT ĐỀ TÀI Biểu mẫu (form) dùng nhiều giao dịch hành thương mại Vấn đề đặt chuyển nội dung viết/in biểu mẫu giấy thành dạng máy đọc (ASCII, unicode chẳng hạn) Vấn đề liên quan đến nghiên cứu lĩnh vực: Phân tích & nhận dạng biểu mẫu (form analysis and recognition), phân tích cấu trúc tài liệu (document analysis), nhận dạng chữ in nhận dạng chữ viết tay (OCR) Có thể chia trình hiểu nội dung biểu mẫu theo ba bước Bước phân tích xây dựng cấu trúc biểu mẫu dùng, tức phân tích xây dựng mô hình biểu mẫu (form template) dạng sở liệu, chứa tập tin XML chẳng hạn Bước nhận diện biểu mẫu cho biểu mẫu điền thông tin (filled form) Cuối áp dụng mô hình biểu mẫu tương ứng với biểu mẫu điền thông tin để cắt lấy phần ảnh tương ứng với trường (field) biểu mẫu mang xử lí nhận dạng chữ viết/chữ in Luận văn đề cập đến hai bước trình “hiểu” biểu mẫu nêu Trước tiên, loại biểu mẫu (cụ thể form trống, chưa điền thông tin) phân tích mô tả cấu trúc tập tin XML, mô hình biểu mẫu Có thể coi mẫu biểu mẫu danh sách trường (ô để điền thông tin), trường có tên nhãn hay từ khoá kèm với toạ độ trường Ngoài có thông tin khác để trợ giúp trình nhận dạng chữ viết trường, chẳng hạn nội dung điền vào số (chiffre) hay kí tự mẫu tự (alphabet) Như vậy, form đặc trưng danh sách từ khoá diễn giải cho trường in biểu mẩu Việc nhận dạng chữ in (các từ in biểu mẫu) thực công cụ nguồn mở Tesseract Bước nhận dạng biểu mẫu dựa tập từ khoá này, cụ thể đo độ tương đồng từ khoá đặc trưng cho biểu mẫu với tập hợp từ (in) nhận dạng biểu mẫu điền thông tin quan tâm Vấn đề nhận dạng chữ viết tay trình bày, thực nghiệm tập liệu tiếng Việt tự xây dựng Từ khoá: phân tích biểu mẫu (form analysis), nhận dạng biểu mẫu (form recognition), phân tích tài liệu (document analysis), nhận dạng chữ in (OCR), trích xuất đường thẳng (line detection), nhận dạng chữ viết tay (handwriting recognition), xử lí biểu mẫu (form processing), máy học vectơ hỗ trợ (SVM), viii 5.3 Phương pháp huấn luyện nhận dạng Ảnh ký tự viết tay chuẩn hoá trích xuất đặc trưng ghi vào tập liệu huấn luyện kiểm tra theo chuẩn Weka [41] Quá trình huấn luyện nhận dạng sử dụng gói thư viện LibSVM [40] dùng hàm nhân RBF với tham số C γ thay đổi để chọn kết phân loại tốt Do liệu tập huấn luyện tập kiểm tra riêng biệt nên nghi thức kiểm tra 10-fold cross sử dụng Trong nghi thức kiểm tra k-fold cross, liệu chia ngẫu nhiên làm k phần lấy (k-1) phần làm tập liệu huấn luyện, phần làm tập kiểm tra, độ xác phân loại tính tổng số phần tử phân loại (của k lần chạy) chia cho tổng số phần tử tập liệu 5.4 5.4.1 Thực nghiệm Mô tả tập liệu Tập liệu viết tay offline sử dụng đề tài tự xây dựng, thu thập từ 234 người viết khác nhau, đa số bạn sinh viên Mỗi người viết theo mẫu (xem phần phụ lục) sau xử lý, trích xuất thành ký tự riêng lẻ, rời rạc Các ký tự chữ in hoa, có dấu không dấu, tổng cộng 89 lớp 5.4.2 Huấn luyện nhận dạng Các ký tự trước đưa vào hệ thống nhận dạng tiền xử lý, chuẩn hóa 16x16, ký tự trích xuất thành 222 đặc trưng trình bày tiến hành phân loại SVM dùng hàm nhân RBF Việc phân loại tiến hành với cặp tham số C=101 104 γ= 10-1 10-4 để chọn kết phân loại tốt Phần mềm Weka sử dụng để huấn luyện kiểm tra 5.4.3 Kết Một số kết trình bày Bảng 5.1 81 Bảng 5.1: Kết phân loại tập ký tự tiếng Việt (89 lớp) Cặp tham số C γ Tỷ lệ C=10 γ=1 69.00% C=100 γ=0.1 69.59% C=1000 γ=0.01 68.73% C=10000 γ=0.001 68.50% C=100000 γ=0.0001 68.23% C=100000 γ=0.0001 C=1000 γ=0.01 C=10 γ=1 67.50% 68.00% 68.50% 69.00% 69.50% 70.00% Hình 5.6: Biểu đồ so sánh kết tỷ lệ nhận dạng Qua bảng kết cho thấy tập liệu ký tự viết tay tiếng Việt chữ hoa có kết phân loại cao với cặp tham số C = 100 γ = 0.1 82 Chương 6: 6.1 KẾT LUẬN Những kết đạt Chúng đề hướng tiếp cận để mô hình hóa nhận dạng biểu mẫu, với loại biểu mẫu thiết kế không hướng đến mục đích xử lí máy tính Một số kết đạt sau: 6.1.1 Trích xuất đường thẳng Chúng chọn cài đặt giải thuật phù hợp (giải thuật DSCC) dùng trích xuất đường thẳng biểu mẫu Giải thuật làm việc tốt biểu mẫu chứa liệu hình ảnh (logo chẳng hạn), ô nhập có kích thước bé ký tự in hoa, kể đường thẳng nghiêng 6.1.2 Trích xuất cấu trúc vùng nhập Chúng chọn hướng tiếp cận dựa ma trận giao điểm đường thẳng ngang dọc đề xuất giải thuật trích xuất cấu trúc hiệu ô nhập dạng chữ nhật, “răng cưa” đường thẳng Giải thuật khắc phục số lỗi trích xuất đường thẳng sai nhờ nội suy từ tính chất giao vị trí đường thẳng 6.1.3 Mô hình hóa biểu mẫu Với việc chọn cấu trúc vùng nhập nhãn làm đặc trưng mô hình hóa, phương pháp mô hình hóa mô hình hóa nhiều loại biểu mẫu Việc dùng cấu trúc liệu tài liệu để biểu lưu trữ văn XML, mô hình biểu mẫu dể xử lí, mở rộng cập nhật nhiều môi trường (platform) khác Ngoài đề xuất phương pháp ghép nhãn với vùng nhập tương ứng 6.1.4 Nhận dạng biểu mẫu Chúng đề xuất phương pháp hướng tiếp cận nhận dạng biểu mẫu từ khóa dùng công cụ Tesseract OCR Kết nhận dạng tốt 83 6.1.5 Nhận dạng ký tự viết tay Chúng xây dựng tập liệu ký tự offline tiếng Việt có dấu chọn phương pháp nhận dạng dùng SVM Tỷ lệ nhận dạng cao 6.2 Hướng phát triển đề tài • Nâng cao kết trích xuất đường thẳng hai khía cạnh: tỷ lệ tốc độ, biểu mẫu có điền thông tin • Hạn chế sai sót việc trích kết sau biểu mẫu nhận dạng biểu mẫu cần xử lí có độ lệch định so với vị trí lưu mô hình Tức cần có thao tác canh chỉnh tọa độ vùng nhập khớp với tọa độ mô hình tốt, trước liệu trích xuất đưa vào hệ thống nhận dạng • Dùng giải thuật trích xuất đường thẳng để xử lí chống nghiêng (deskew) biểu mẫu • Kết trích xuất cấu trúc vùng nhập dùng toán phân loại tài liệu, xem tài liệu có phải biểu mẫu không • Phục hồi nét viết tay bị viết chồng lên cấu trúc ô nhập • Cải tiến mô hình nhận dạng ký tự viết tay độ xác tốc độ, mở rộng sang loại liệu viết tay liên tục 84 TÀI LIỆU THAM KHẢO Y Zheng, C Liu, and X Ding Form frame line detection with directional single-connected chain In ICDAR’01: Proceedings of the Sixth International Conference on Document Analysis and Recognition, page 699, Washington, DC, USA IEEE Computer Society 2001 Juan-Carlos Perez-Cortes, Luis Andreu, Joaquim Arlandis A ModelBased Field Frame Detection for Handwritten Filled-in Forms das, pp.362368, The Eighth IAPR International Workshop on Document Analysis Systems, Nara, Japan 2008 Wang, D and Srihari, S N., Analysis of form images, Proc ICDAR 91, 181191, Saint Malo, France, 1991 Yu, B., Jain A.K A generic system for form dropout IEEE Trans PAMI, 18(11):1127-1132, 1996 R.Casey, D.Ferguson, K.Mohiuddin, and E.Walach Intelligent forms processing system Mach Vision Appl., 5(3): 143-155, 1992 S Mandal, S P Chowdhury, A K Das Fully automated identification and segmentation of form document Form Processing Computer Vision and Graphics International Conference, ICCVG 2004, Warsaw, Poland, September 2004, Proceedings 2004 Fan, Kuo-Chin and Chang, Mei-Lin Form document identification using line structured based features In 14th Int Conf on Pattern Recognition ICPR’98, Brisbane, Australia 1998 D Niyogi, S N Srihari, and V Govindaraju Analysis of printed forms In Handbook of Character Recognition and Document Image Analysis Chapter 19 World Scientific Publishing Co., Singapore, 1997 X Ye, C.Suen and M.Cheriet A generic system to extract and clean handwritten data from business forms In Prof Int Workshop on Frontiers in handwriting Recognition, pp.63-72, Amsterdam 2000 10 Dipti Deodhare, NNR Ranga Suri R Amit Preprocessing and Image Enhancement Algorithms for a Form-based Intelligent Character Recognition System International Journal of Computer Science and 85 Applications Vol II, No II, pp.131-144, 2005 11 Trupin E La Reconnaissance d'Images de Documents : Un Panorama Revue Traitement du Signal : Traitement automatique des documents, 22,3,159-189 2005 12 Pei-Yi Wang Table-Form Classification Using Field Clustering Features and Four Directional Adjacency Trees Master's Thesis, National Central University, Taiwan, 2000 13 Yefeng Zheng Handwriting identification, matching, anh indexing in noise documents images Ph.D Thesis, University of Maryland, 2005 14 Yaakov Navon, Ella Barkan and Boaz Ophir A Generic Form Processing Approach for Large Variant Templates Proceedings of the 2009 10th International Conference on Document Analysis and Recognition, pp 311315, Barcelona 2009 15 Abhishek Gattani, Maitrayee Mukerji and Hareish Gur A Fast Multifunctional Approach for Document Image Analysis Proceedings of the Seventh International Conference on Document Analysis and Recognition Volume 2, pp 1178 2003 16 Xingyuan, L., Doermann, D., Oh, W., Gao, W A robust method for unknown forms analysis In Proceedings of the 5th ICDAR, Bangalore (India), September 1999 p 531-534 1999 17 S Mandal, S P Chowdhury, A K Das Fully automated identification and segmentation of form document Form Processing Computer Vision and Graphics, pp 953–961, Netherlands, 2006 18 Wenyin Liu and Dov Dori From Raster to Vectors: Extracting Visual Information from Line Drawings Pattern Analysis and Application, No.2, pp10-21, 1999 19 Jiun-Lin Chen, Hsi-Jian Lee An Efficient Algorithm for Form Structure Extraction Using Strip Projection Pattern Recogniton, Vol.31, No.9, pp 1353-1368, 1998 20 R Smith An overview of the Tesseract OCR engine International Conference on Document Analysis and Recognition Vol.2, no.9, pp.629-633 2007 86 21 T M Breuel The OCRopus Open Source OCR System Proceedings SPIE DRR XVI, 2008 22 http://www.vndocr.com/home/ 23 http://en.wikipedia.org/wiki/Optical_character_recognition 24 http://vietocr.sourceforge.net/ 25 http://code.google.com/p/tesseract-ocr/ 26 S.V Rice, F.R Jenkins, T.A Nartker The Fourth Annual Test of OCR Accuracy Technical Report 95-03, Information Science Research Institute, University of Nevada, Las Vegas,July 1995 27 R Kasturi, L O’Gorman, V Govindaraju Document Image Analysis: A Primer Sadhana, 27(1) : 3-22, 2002 28 http://vi.wikipedia.org/wiki/XML 29 http://www.isoc-vn.org/www/w3c/XML-in-10-points-vn.html 30 http://www.xul.fr/en-xml.html 31 http://vi.wikipedia.org/wiki/DOM 32 http://en.wikipedia.org/wiki/Approximate_string_matching 33 http://www.merriampark.com/ld.htm#JAVA 34 R Casey, D Ferguson, K Mohiuddin, and E Walach Intellingent forms processing, MachineVision Applications, 5(3):143–155 1992 35 Fan, Kuo-Chin and Chang, Mei-Lin Form document identification using lines tructured based features In 14th Int Conf on Pattern Recognition ICPR’98, Brisbane, Australia 1998 36 Duygulu, P and Atlay, V A hierarchical representation of form documents foridentification and retrieval In SPIE, Electronic Imaging 2000, Document Recognition and Retrieval VII, San Jose, USA 2000 37 S L Taylor, R Fritzson, and J A Pastor Extraction of data from preprinted forms Machine Visionand Applications, 5(3):211–222 1992 38 Phạm Anh Phương Ngô Quốc Tạo Một giải pháp cho toán nhận dạng ký tự viết tay tiếng Việt Kỷ yếu Hội thảo Công Nghệ Thông Tin Quốc Gia lần XII, Đồng Nai, tháng 08 2009 87 39 V Vapnik, The Nature of Statistical Learning Theory, 1995 40 Chang, C C., Lin, C J., LIBSVM: A library for support vector machines, 2001, http://www.csie.ntu.edu.tw/~cjlin/libsvm 41 Remco R Bouckaert et al WEKA Manual for Version 3-6-0 University of Waikato, Hamilton, New Zealand 2008 88 PHỤ LỤC A Cài đặt sử dụng Tesseract OCR Thông tin chung: • Trang chủ Teseract: http://code.google.com/p/tesseract-ocr/ • Tác giả: Ray Smith (http://research.google.com/pubs/author4479.html) • Phiên dùng đề tài: Tesseract 2.01 (được đánh giá phiên chạy ổn định Linux) • Phiên hành: 2.04 • Ngôn ngữ: C/C++ Cài đặt sử dụng: Windows Không có file cài đặt cho Windows Chỉ có file thực thi windows: tesseract-2.04.exe.tar.gz File build VC++ express 2008 bảo đảm Nếu chạy tuyệt, không bạn phải cài Visual C++ Express 2008 với service pack build lại từ mã nguồn Bạn thử tesseract-2.01.exe.tar.gz, build với VC++6, trường hợp phiên windows cũ chạy tốt hơn, lưu ý phiên Tesseract cũ Nếu bạn build từ mã nguồn, (cho đến phiên v2.04) file dsw dsp cho VC++6, platform đề nghị để build từ mã nguồn VC++ Express 2008, file lại không tương thích với phiên VC++ Express trước , kể VC++ Express 2005 Chú ý file thực thi build trình biên dịch có kích thước nhỏ hơn, chạy nhanh cho tính xác cao Tính phiên 2.04: file thực thi biên dịch với liên kết tĩnh, có khả làm việc không xác nhiều hệ thống windows File thực thi phải nằm thư mục với tessdata Câu lệnh sau: tesseract [-l ] 89 Đối với việc giao tiếp với ứng dụng khác, có thư viện liên kết động kèm với file thực thi, tốt bạn nên tự biên dịch Thư viện liên kết động không biên dịch cho C-Runtime tĩnh, bạn phải cần đến VC++ Express 2008 để chạy Thư viện liên kết động cập nhật để làm việc với ảnh không thuộc loại ảnh nhị phân Đối với hệ điều hành khác Bạn phải cho hệ điều hành biết thư mục liệu bạn đâu Bạn phải thực hai bước sau: Để di chuyển liệu đến vị trí qui định: /configure make make install Hoặc: export TESSDATA_PREFIX="thư mục chứa tessdata/" Dù trường hợp lệnh thực là: tesseract [-l ] Chú ý: có file tesseract.spec dùng để tạo file rpm Nó làm việc với hệ điều hành bạn bạn biết cách thực Tesseract dùng đến thư viện libtiff (www.libtiff.org) Không có thư viện libtiff, Tesseract đọc file G3 TIFF không bị nén Các hướng dẫn cho việc sử dụng công cụ huấn luyện soạn riêng http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract hướng dẫn liên quan đến việc test tìm thấy http://code.google.com/p/tesseractocr/wiki/TestingTesseract Hệ thống tập tin mã nguồn: ccmain Mã nguồn cấp cao Chương trình nằm file tesseractmain.cpp 90 training Mã nguồn cấp cao cho công cụ huấn luyện testing Nơi chứa đoạn script cho phần testing gốc phân cấp kết thông báo lỗi display Là “nhà biên tập” để xem xét thao tác cấu trúc wordrec Bộ nhận dạng mức từ textord Là module tổ chức văn thành dòng từ classify Bộ phân loại ký tự mức thấp ccstruct Các lớp chứa thông tin trang xử lý viewer Là phần client hệ thống xem xét dạng client-server Tuy nhiên, tại, phần server chưa có image Lớp ảnh hàm xử lý dict Mã mô hình ngôn ngữ cutil Mã nguồn cho file vào/ra, danh sách, heap,… ccutil Mã nguồn cho danh sách, cấp phát nhớ, v.v lấy từ mã C++ cũ Chúng viết thêm hàm thực chức lấy tọa độ từ kết OCR hai tập tin baseapi.h baseapi.cpp, hai tập tin nằm thư mục ccmain 91 PHỤ LỤC B Cài đặt sử dụng VietOCR Thông tin chung: • Trang chủ: vietocr.sourceforge.net/ • Tác giả: Quân (nguyenq@users.sf.net) • Diễn đàn trao đổi: http://vietunicode.sourceforge.net/forum/ • Ngôn ngữ: Java/.NET Cài đặt sử dụng: Phiên Java đòi hỏi Java Runtime Environment, 6.0 Cho Linux, bạn cài đặt JRE từ Libraries (multiverse) repository qua Synaptic Package Manager từ terminal, sau: sudo apt-get install sun-java6-jre sun-java6-plugin Tesseract language data packages nằm Graphics (universe) repository Chúng cài qua Synaptic từ lệnh sau: sudo apt-get install tesseract-ocr tesseract-ocr-vie Files đặt /usr/bin /usr/share/tesseract-ocr/tessdata, thứ tự Mặt khác, Tesseract xây dựng cài từ mã nguồn, chúng đặt /usr/local/bin /usr/local/share/tessdata Bạn cần định directory Tesseract executable từ Settings menu VietOCR VietOCR thiết kế để nhận biết tập tin language data địa điểm đó; nhiên, trường hợp tessdata để vào directory khác với directory đề cập, bạn cần đặt biến môi trường TESSDATA_PREFIX environment variable, ví dụ: export TESSDATA_PREFIX=/usr/local/share/ (hoặc tương đương) trong.profile bạn setenv để đặt biến môi trường Hãy ý đường dẫn tới directory phải kết với ký tự / 92 Phiên NET cần Microsoft NET Framework 2.0 Redistributable Nếu bạn gặp FileLoadException với message "Could not load file or assembly 'tessnet2, Version=2.0.4.0, Culture=neutral, PublicKeyToken=null' or one of its dependencies This application has failed to start because the application configuration is incorrect Reinstalling the application may fix this problem (Exception from HRESULT: 0x800736B1)" chạy VietOCR.NET, xin cài đặt Microsoft Visual C++ 2008 SP1 Runtime (x86, x64) Để sử dụng mã nguồn VietOCR cần download phiên có chứa mã nguồn, đóng gói net.sourceforge.vietocr 93 PHỤ LỤC C Ví dụ mô hình biểu mẫu Ảnh biểu mẫu: Mô hình XML: 94 PHỤ LỤC D Phiếu thu thập mẫu ký tự viết tay 95 [...]... 1.2: Phân tích cấu trúc ô nhập Tùy theo nhu cầu mà chọn loại thông tin cần phân tích, trích xuất và phương pháp phân tích phù hợp Những thông tin của biểu mẫu được trích xuất từ giai đoạn 14 phân tích được dùng như các đặc trưng dùng trong việc mô hình hóa biểu mẫu, nhận dạng biểu mẫu, và cũng được dùng trong giai đoạn trích xuất dữ liệu của hệ thống nhận dạng dữ liệu, như nhận dạng chữ viết tay điền vào... mẫu để nhận dạng Biểu mẫu là một loại ảnh tài liệu (document image) đặc biệt và phương pháp so khớp được dùng phổ biến để nhận dạng [11] Hình 1.3: Nhận dạng biểu mẫu Để có thể dùng phương pháp so khớp, thông tin về loại biểu mẫu được biểu diễn dưới dạng mô hình biểu mẫu (form prototype, form template) Mỗi mô hình 15 biểu mẫu chứa các thông tin đặc trưng một biểu mẫu, được biểu diễn bằng những cấu trúc. .. trắng (blank form – biểu mẫu chưa được điền thông tin) sẽ được dùng để mô hình hóa 1.3.2 Phân tích biểu mẫu Phân tích biểu mẫu là quá trình trích xuất các thông tin ghi trên biểu mẫu từ tập ảnh của nó Phân tích là khâu quan trọng nhất của quá trình xử lí biểu mẫu Mục đích chính của việc phân tích biểu mẫu là trích xuất các thông tin cần quan tâm trên biểu mẫu như: ký tự (nhãn), cấu trúc ô nhập (loại... toán xử lí biểu mẫu tổng quát, tức các biểu mẫu khi xử lí hệ thống không yêu cầu thay đổi hình thức và nội dung có sẵn của nó Giải quyết lớp bài toán (2) là mục đích của đề tài này Xử lí biểu mẫu Biểu mẫu trắng Trích xuất nhãn vùng nhập Biểu mẫu đã điền Trích đặc trưng cấu trúc vùng nhập Nhận dạng biểu mẫu Cơ sở dữ liệu mẫu biểu mẫu Kết hợp nhãn và thông tin vùng nhập Trích xuất dữ liệu Nhận dạng dữ liệu... chữ viết tay điền vào biểu mẫu chẳng hạn 1.2.3 Nhận dạng biểu mẫu Tùy theo nhu cầu thu thập thông tin, mỗi cơ quan, đơn vị sẽ có những loại biểu mẫu tương ứng, số loại biểu mẫu thường nhiều Mỗi loại biểu mẫu chỉ được dùng cho một mục tiêu thu thập thông tin cụ thể và có cấu trúc xác định Muốn trích xuất dữ liệu chính xác từ biểu mẫu phải xác định được loại biểu mẫu (nhận dạng) Nhận dạng sai thì việc trích... thông tin trên biểu mẫu, gồm các thông tin in sẵn (preprinted data) và thông tin đã điền vào (filled data) 1.2 Hệ thống xử lí biểu mẫu tự động Hình 1.1: Hệ thống xử lí biểu mẫu tự động Hệ thống xử lí biểu mẫu tự động có các chức năng chính (Hình 1.1): • Số hóa biểu mẫu giấy (digitalization of form) • Phân tích biểu mẫu (form analysis) 13 • Nhận dạng biểu mẫu (form recognition) • Nhận dạng dữ liệu viết... cao và ngược lại 1.2.2 Phân tích biểu mẫu Do tất cả thông của biểu mẫu đều được biểu diễn dưới dạng ảnh (image) Để có thể “hiểu” nội dung trên biểu mẫu thì ảnh này phải được phân tích (form image analysis) Phân tích ảnh biểu mẫu có nhiệm vụ trích xuất (capture) các thông tin trên biểu mẫu Các thông tin này gồm: cấu trúc các ô nhập (xem hình 1.2), chữ viết in, ký hiệu đặc biệt, màu sắc, lưu đồ, biểu. .. của quá trình xử lí biểu mẫu Mức độ tự động hóa của hệ thống phụ thuộc rất lớn vào chức năng nhận dạng biểu mẫu Nhận dạng biểu mẫu là định danh (identification) một ảnh thuộc một loại biểu mẫu nào đó trong tập hợp nhiều loại biểu mẫu (xem hình 1.3) Việc nhận dạng sẽ dựa vào thông tin đặc trưng của biểu mẫu: như mã vạch (barcode), màu sắc (color), ký hiệu đặc biệt (symbol), cấu trúc vùng nhập, từ khóa,... khớp để nhận dạng biểu mẫu, đặc trưng là bộ từ khóa (keywords) Cách làm này giúp giảm chi phí in biểu mẫu và dể dàng bổ sung một loại biểu mẫu mới vào hệ thống Tập hợp các nhãn trích xuất từ biểu mẫu trắng được chọn làm đặc trưng hay được xem như bộ từ khóa của biểu mẫu đó Mỗi biểu mẫu sẽ có bộ từ khóa khác nhau, đặc trưng cho một biểu mẫu Việc nhận dạng dựa trên bộ từ khóa này Quá trình nhận dạng có... sau: biểu mẫu cần nhận dạng sẽ được trích các từ khóa, các từ khóa này được so khớp với bộ từ khóa từng loại biểu mẫu trong cơ sở dữ liệu biểu mẫu Nếu độ tương đồng lớn hơn một ngưỡng nào đó thì biểu mẫu đó được nhận dạng Trình nhận dạng ký tự in Tesseract tiếp tục được dùng trong giai đoạn nhận dạng biểu mẫu 1.3.4 Nhận dạng dữ liệu viết tay Các ký tự của thông tin viết tay đều biểu diễn dưới dạng ... dung biểu mẫu theo ba bước Bước phân tích xây dựng cấu trúc biểu mẫu dùng, tức phân tích xây dựng mô hình biểu mẫu (form template) dạng sở liệu, chứa tập tin XML chẳng hạn Bước nhận diện biểu mẫu. .. trình nhận dạng ký tự Tesserract (xem mục 3.3) Hình 3.1: Phân tích biểu mẫu trắng (blank form) 39 Có hai hướng phân tích: phân tích cấu trúc vùng nhập nhãn vùng nhập biểu mẫu trắng hay biểu mẫu. .. thống nhận dạng liệu, nhận dạng chữ viết tay điền vào biểu mẫu chẳng hạn 1.2.3 Nhận dạng biểu mẫu Tùy theo nhu cầu thu thập thông tin, quan, đơn vị có loại biểu mẫu tương ứng, số loại biểu mẫu

Phân tích cấu trúc và nhận dạng biểu mẫu

Thông tin tài liệu

Từ khóa liên quan

Mục lục

Cần Thơ - 2010

Cần Thơ - 2010

Đỗ Thanh Cao

Bảng 5.1: Kết quả phân loại trên tập ký tự tiếng Việt (89 lớp) 80

Keywords: form analysis, form recognition, document analysis, OCR, line detection, handwriting recognition, form processing, SVM,....

Chương 1: TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

1.1. Giới thiệu

1.2. Hệ thống xử lí biểu mẫu tự động

1.2.1. Số hóa biểu mẫu giấy

1.2.2. Phân tích biểu mẫu

1.2.3. Nhận dạng biểu mẫu

1.2.4. Nhận dạng dữ liệu viết tay

1.3. Phạm vi của đề tài

1.3.1. Mô hình hóa biểu mẫu (form modeling)

1.3.1.1. Đăng ký biểu mẫu (form registration)

1.3.1.2. Mô hình biểu mẫu (form template)

1.3.2. Phân tích biểu mẫu

1.3.3. Nhận dạng biểu mẫu

1.3.4. Nhận dạng dữ liệu viết tay

1.4. Bố cục của luận văn

Chương 2: BIỂU MẪU VÀ TRÍCH XUẤT ĐƯỜNG THẲNG TỪ ẢNH BIỂU MẪU

2.1. Tổng quan về biểu mẫu

2.1.1. Khái niệm biểu mẫu

2.1.2. Lợi ích của biểu mẫu

2.1.3. Các kiểu vùng nhập của biểu mẫu

2.1.4. Kiểu dữ liệu chứa trong biểu mẫu

2.1.4.1. Thông tin in sẵn

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan