Tìm hiểu phương pháp phân tích bảng bên trong tài liệu ảnh

69 280 0
Tìm hiểu phương pháp phân tích bảng bên trong tài liệu ảnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lêi c¶m ¬n Trong quá trình làm luận văn vừa qua, dưới sự giúp đỡ và chỉ bảo nhiệt tình của PGS TS Ngô Quốc Tạo – Viện Công nghệ Thông tin – Viện khoa học Việt Nam, luận văn của đã được hoàn thành Mặc dù đã cố gắng không ngừng cùng với sự tận tâm của thầy hướng dẫn song thời gian và khả vẫn còn nhiều hạn chế nên luận vă khó tránh khỏi những thiếu sót quá trình làm luận văn Để hoàn thành được luận văn này Em xin bày tỏ lòng biết ơn sâu sắc tới PGS TS Ngô Quốc Tạo - người thầy đã tận tình giúp đỡ em suốt quá trình tìm hiểu, xây dựng và phát triển luận văn này Em xin chân thành cảm ơn các thầy, cô giáo Viện Công nghệ Thông tin – Viện khoa học Việt Nam đã giảng dạy và hướng dẫn em suốt năm học qua Em cũng xin cảm ơn ban lãnh đạo khoa và toàn thể thầy cô giáo khoa Công Nghệ thông tin – Đại Học Thái Nguyên đã tạo điều kiện tốt nhất giúp em học tập và hoàn thành luận văn này Và cuối cùng cũng xin cảm ơn gia đình, các bạn nhóm luận văn và toàn thể các học viên lớp Cao học K6 đã động viên, quan tâm và giúp đỡ thời gian qua Cuối cùng rất mong nhận được sự chỉ dẫn, góp ý của các thầy cô và các bạn để luận văn của được hoàn thiện CHƯƠNG 1: MỞ ĐẦU Nhận dạng xử lý ảnh lĩnh vực mang tính khoa học công nghệ Ở Việt Nam Nhận dạng xử lý ảnh ngành khoa học mẻ so với nhiều ngành khoa học khác tốc độ phát triển nhanh Sự đời tạo kỹ thuật quan trọng ảnh hưởng trực tiếp đến lĩnh vực như: Tivi, truyền thông, kỹ xảo đồ hoạ… Cùng với sự phát triển đó có những nhu cầu thực tế đặt thách thức các nhà khoa học máy tính càng nhiều Những công việc, những bài toán được xử lý theo lối cổ truyền không theo kịp tốc độ phát triển của công nghệ ngày Một những bài toán đó chính là các tài liệu được lưu trữ các chất liệu cổ truyền giấy, gỗ, vải với khối lượng khổng lồ, chứa đựng rất nhiều tri thức của nhân loại lại không có độ bền vĩnh cửu, khó xử lý và lưu trữ Một bài toán khác là ngày công việc văn phòng liên quan nhiều đến các tài liệu không đơn thuần là tài liệu chữ mà tài liệu có nhiều thành phần bảng biểu, ảnh Tất cả các tài liệu đó nếu tiếp tục lưu trữ theo phương pháp cổ truyền thì rất phức tạp và khó xử lý Vậy làm thế nào để chuyển đổi những kho tàng tri thức vào máy tính để lưu trữ, xử lý dễ dàng, thuận tiên và nhanh gọn Một lĩnh vực của khoa học nhân dạng là Phân tích tài liệu ảnh đã đời nhằm biểu diễn thông tin các tài liệu ảnh dưới dạng có cấu trúc Hệ phân tích nhận dạng tài liệu ảnh có mục đích chuyển đổi tự động thông tin lưu trữ tài liệu giấy thành biểu diễn dạng cấu trúc mà truy xuất, thay đổi máy tính Quy trình xử lý hệ phân tích tài liệu bắt đầu việc lấy liệu, tài liệu từ giấy in quét qua máy quét để lưu trữ máy tính dạng tệp liệu ảnh Một tài liệu ảnh cách biểu diễn trực quan trang tài liệu in tạp chí, thư, trang báo, mẩu thư hay vẽ kỹ thuật, v.v Một tài liệu ảnh bao gồm chuỗi ký tự, hình vẽ, ảnh, v.v Bên cạnh việc chuyển toàn nội dung tài liệu sang tài liệu điện tử cần phải bảo toàn cấu trúc định dạng tài liệu Mục tiêu hệ phân tích tài liệu ảnh hoàn chỉnh chuyển tài liệu lưu trữ giấy sang dạng biểu diễn có thứ tự cấu trúc nội dung Tài liệu chuyển sang phải có khả thay đổi, soạn thảo lưu trữ nội dung tài liệu truy cập cấu trúc thay phải truy cập dạng mẫu ảnh Có số lượng lớn ứng dụng hệ phân tích tài liệu ảnh ứng dụng lĩnh vực như: dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, v.v Mục đích luận văn nghiên cứu kỹ thuật nhận dạng bảng và trích chọn đối tượng của tài liệu ảnh Kỹ thuật “Phân tích bảng – T-Recs” là nghiên cứu chính Với tư tưởng “Phương pháp phân tích bảng” không xem xét đến loại đường phân cách để xác định cấu trúc bảng Thay vào phương pháp tập trung vào việc nhận biết từ khối logic (chẳng hạn từ cột liệu cho vào khối) Phương pháp không tìm đặc trưng để phân biệt hai vùng liệu (hai cột) khác mà tìm đặc trưng để tìm từ khối logic từ xây dựng cấu trúc riêng theo phương pháp tiếp cận bottom - up 1.1 Cơ sở nghiên cứu mục đích luận văn Ảnh đối tượng phức tạp đường nét, dung lượng điểm ảnh, độ sáng tối, môi trường để thu nhận ảnh phong phú kéo theo nhiễu Trong nhiều khâu phân tích ảnh việc đơn giản hoá phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận xử ảnh theo cách người Trong bước xử lý nhiều khâu xử lý theo phương pháp trí tuệ người Những hệ thống nhận dạng cấu trúc không đơn giản chuyển tài liệu in thành tài liệu điện tử mà xây dựng trình xử lý kết hợp chẳng hạn như: tự động chép nội dụng, đánh mục phân loại Do việc quan trọng kèm theo nội dung tài liệu phải trích chọn cấu trúc kèm với nội dung Nhận dạng bảng toán nhận dạng cấu trúc bảng có trang tài liệu ảnh, bao gồm việc nhận dạng cột, dòng ô có chứa liệu bảng Nhận dạng đối tượng ảnh toán nhằm phân tách đối tượng ảnh trang tài liệu ảnh có chứa hỗn hợp đối tượng chuỗi ký tự đối tượng ảnh như: sơ đồ, hình vẽ, ảnh …v.v Mặc dù có nhiều kỹ thuật hệ thống nhận dạng cấu trúc Tuy nhiên nghiên cứu vấn đề tiếp tục phát triển chất lượng, độ xác, tính hiệu phương pháp công bố trước chưa hoàn chỉnh cần phải cải tiến chúng Luận văn trình bày kỹ thuật nhận dạng cấu trúc bảng bên tài liệu ảnh T-Recs đề xuất số phương pháp khắc phục hạn chế thuật toán T-Recs để hoàn thiện phương pháp phân tích bảng 1.2 Tổ chức luận văn Luận văn trình bày thành chương phụ lục Chương Trình bày tóm tắt sở nghiên cứu mục đích cách tổ chức luận văn Chương Tổng quan về hệ phân tích tài liệu ảnh và các thành phần chính hệ phân tích tài liệu ảnh: Lấy dữ liệu, xử lý ảnh, trích chọn đặc trưng, nhận dạng đối tượng ảnh và nhận dạng văn bản Chương trình bày toán phân tách văn ảnh cách riêng rẽ Trong chương thuật toán phân tách văn ảnh trình bày dựa vào việc phân tích thành phần liên thông (CCs) Chương trình bày phương pháp phân tích bảng ( T-Recs) dựa hình chữ nhật bao quanh từ đầu cấu trúc logic khối văn bản, cụ thể với bảng nhận dạng cấu trúc cột ô bảng liệu Phân tích mặt hạn chế thuật toán - trường hợp nhận dạng chưa xác cột liệu bảng luận văn đưa thuật toán khắc phục mặt hạn chế Chương Chương trình thử nghiệm minh họa phân tích bảng trang tài liệu ảnh CHƯƠNG 2: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH 2.1 Tài liệu ảnh Hình ảnh đối tượng chụp lại thân đối tượng Ảnh hình thành qua hệ thống ảnh Tài liệu ảnh file ảnh số hóa thu cách: quét trang tài liệu, chụp ảnh, máy fax, từ vệ tinh, file ảnh lưu trữ máy tính Ảnh tài liệu có nhiều loại: đen trắng, ảnh màu, ảnh đa cấp xám, …v.v 2.2 Hệ phân tích trang tài liệu Hệ phân tích trang tài liệu: Là một hệ thống bao gồm những thuật toán và các kỹ thuật áp dụng cho tài liệu ảnh để lấy thông tin mà máy tính đọc hiểu từ điểm liệu ảnh Một lĩnh vực thu được nhiều thành công nhất phân tích tài liệu ảnh Nhận dạng Ký tự Quang học (OCR), phần mềm có khả nhận, chuyển đổi các ký tự từ loại tài liệu dạng ảnh sang tài liệu dưới dạng text OCR giúp người dùng có khả soạn thảo tìm kiếm nội dung tài liệu Thành phần có hệ phân tích tài liệu: Mục đích hệ phân tích tài liệu có khả nhận dạng đối tượng văn bản, đối tượng ảnh tài liệu ảnh có khả trích chọn thông tin mà người dùng mong muốn Chúng ta chia hệ phân tích tài liệu thành hai phần Phần thứ xử lý văn bản, liên quan đến việc xử lý đối tượng văn bản: ký tự, chuỗi ký tự, từ Xử lý văn bao gồm công việc sau: xác định độ nghiêng tài liệu (độ nghiêng hay độ xiên tài liệu ảnh tài liệu đặt không thực quét vào từ máy quét), tìm cột, đoạn văn bản, dòng văn bản, từ cuối nhận dạng văn (có thể thêm thuộc tính loại phông chữ, kích thước phông chữ) phương pháp nhận dạng ký tự quang học (OCR) Phần thứ hai xử lý đối tượng ảnh đối tượng tạo từ đường kẻ sơ đồ, đường kẻ phân tách đoạn văn bản, hình vẽ, lôgô công ty… Sau áp dụng kỹ thuật phân tích ảnh văn bản, đối tượng cần nhận dạng tài liệu ảnh trích biểu diễn dạng tài liệu định dạng khác, chẳng hạn word, html… Ta có thể tóm tắt quá trình xử lý của hệ phân tích tài liệu theo sơ đồ Hình 2.1 [8]: Xử lý tài liệu Xử lý văn Nhận dạng ký tự quang học Văn Phân tích cấu trúc trang Xử lý đối tượng ảnh Xử lý đường kẻ Xử lý vùng ký tự đặc biêt Xác định độ nghiêng, Đường thẳng, Vùng tô dòng văn bản, khối đường cong, văn bản, đoạn văn góc Hình 2.1 Sơ đồ quá trình xử lý tài liệu Tại lại phải phân tích tài liệu? Những bài toán phần giới thiệu đã đề cập, ta hãy xem xét kỹ về bài toán điển hình để thấy được sự cần thiết của việc phân tích tài liệu - Lượng tri thức vô giá của nhân loại với số lượng lớn được lưu trữ các thư viện cổ điển dưới các chất liệu giấy, vải, gỗ vẫn còn tồn tại rất nhiều, việc các tài liệu bị thông tin, thiếu thông tin, số lượng hạn chế hay chí tài liệu bị thoái hoá theo thời gian vấn đề phổ biến Vì chúng cần phải khôi phục chỉnh sửa bằmg kỹ thuật phân tích tài liệu - Ngày các văn phòng hiện đại các công việc đều được giải quyết dựa vào máy tính Các tài liệu văn bản với nhiều đối tượng (chữ, hình ảnh, các sơ đồ) được tạo nhiều máy tính khác nhau, phần mềm khác đó có thể là các định dạng của các tài liệu đó là không tương thích với nhau, kích thước cũng khác Như vậy cần một hệ phân tích tài liệu giúp nhận dạng loại tài liệu, trích chọn phần chức có thể chuyển từ định dạng máy tính sang định dạng khác - Một bài toán khác được đề cập máy phân loại thư tự động dùng để phân loại, xếp thư nhận dạng địa thư Những máy có từ thập kỷ trước, ngày yêu cầu cao xử lý nhiều thư hơn, nhanh yêu cầu độ xác cao Những bài toán tạo thách thức động lực cho phát triển giải pháp tương lai hệ phân tích tài liệu Hình 2.2 mô tả các bước xử lý cho một hệ phân tích tài liệu [8] Sau dữ liệu(tài liệu ảnh) được đưa vào, tài liệu ảnh trải qua bước xử lý điểm ảnh phân tích đặc trưng sau phần nhận dạng văn phần nhận dạng ảnh được tách hai chức riêng rẽ Trang tài liệu Thu nhận dữ liệu Xử lý điểm ảnh Phân tích đặc trưng Phân tích nhận dạng đối tượng văn bản Phân tích nhận dạng đối tượng ảnh Mô tài liệu Hình 2.2 Sơ đồ quá trình phân tích trang tài liệu Các hệ phân tích tài liệu ngày phát triển hiển nhiên chúng có hệ xử lý tài liệu Chẳng hạn như, hệ thống OCR sử dụng rộng rãi để lưu trữ, tìm kiếm trích dẫn từ tài liệu lưu trữ giấy Các kỹ thuật phân tích cách bố trí trang tài liệu giúp nhận dạng biểu mẫu (form) riêng biệt, hay định dạng trang tài liệu cho phép lưu tài liệu Các sơ đồ đưa vào từ ảnh hay vẽ tay thay đổi, soạn thảo lại chúng Sử dụng máy tính chuyển tài liệu viết tay thành tài liệu điện tử lưu trữ máy tính Các tài liệu lưu trữ thư viện, tài liệu kỹ thuật công ty chuyển đổi sang thành tài liệu điện tử nhằm nâng cao hiệu quả, thuận tiện việc lưu trữ dễ dàng mang đến quan hay mang nhà Mặc dù tài liệu ngày xử lý lưu trữ nhiều máy tính thực tế có nhiều hệ thống khác mà tài 10 liệu giấy phương tiện làm việc hiệu chắn tài liệu giấy phương tiện làm việc với vài thập kỷ Vấn đề tích hợp tài liệu giấy vào máy tính xử lý Sau ta tìm hiểu ngắn gọn bước xử lý của một hệ phân tích tài liệu ảnh 2.3 Thu nhận dữ liệu ảnh Các dữ liệu các trang tài liệu giấy thường quét qua máy quét đưa vào máy tính dạng file ảnh, chúng bao gồm điểm ảnh (pixels) được lưu trữ Với ảnh nhị phân giá trị điểm ảnh hoặc ,với ảnh đa cấp xám ảnh màu giá trị điểm ảnh nằm khoảng đến 255 với giá trị R, G, B từ đến 255 Ở độ phân giải thông thường có 120 điểm ảnh centimet với trang có kích thước 20 x 30 cm tạo ảnh với 2400 x 3600 điểm ảnh Do thấy tài liệu ảnh bao bồm liệu thô (giá trị điểm ảnh) chúng sử dụng kỹ thuật phân tích thích hợp để lấy thông tin cần thiết 2.4 Tiền xử lý điểm ảnh Bước hệ phân tích tài liệu thực số thao tác xử lý tài liệu ảnh thu để chuẩn bị cho bước phân tích tiếp theo Chẳng hạn thao tác: chọn ngưỡng để chuyển ảnh đa cấp xám, ảnh màu dạng ảnh nhị phân, giảm nhiễu để loại bỏ liệu không liên quan, phân đoạn để phân tách thành phần khác ảnh cuối làm mảnh hay dò biên để dễ dàng xác định vùng, đặc trưng thích hợp đối tượng cần quan tâm Sau bước xử lý trên, liệu thường biểu diễn dạng nén lại dùng mã hoá CC biểu diễn dạng véctơ 55 từ mô tả cho nội dung ô bảng Những từ thuật toán phân đoạn khởi tạo tách thành khối riêng Vì trước tiên cần phải tìm xem từ bị phân tách có nằm môi trường bảng hay không, chúng có tương ứng với ô (cell) bảng hay không có cần phải xem xét chúng với toàn cột có bảng Để đạt điều bước qua khối chỗ có hai nhiều khối nằm kề theo chiều ngang ta cho có bảng ta đánh giá cấu trúc lề bao gồm điểm lề (margin points) Cấu trúc lề nắm giữ thông tin giới hạn theo chiều dọc cột bảng chứa hàng loạt điểm lề Các điểm lề ranh giới bên trái, bên phải tất khối (các cột bảng) nằm liền kề Một điểm lề tạo trường hợp có điểm không nằm khoảng đưa Các điểm nắm giữ thông tin liệu chúng bị chặn đường biên khối bên trái hay bên phải không (vì ta gọi chúng điểm lề bên trái, bên phải) Số lượng dòng khối mà có liên quan đến cặp điểm lề trái phải gọi số lượng quan hệ (reference counter) điểm Một khoảng trắng rộng theo chiều dọc hay khối bao phủ toàn độ rộng tài liệu đóng lại cấu trúc lề đánh giá Hình 4.13 Nhận biết từ bị phân tách dựa vào điểm phân lề Bước điểm lề tất khối xem xét Nếu số lượng quan hệ điểm lề bên trái bên phải khối không đạt giới hạn đưa ra, khối này trộn với 56 khối láng giềng tương ứng theo phía mà xuất phạm vi quy định Tác dụng kỹ thuật nhận biết từ phân tách mà không thích hợp với cột xung quoanh Hình 4.13 mô tả việc đánh giá điểm lề kết thu dựa vào phân tích kỹ thuật 4.4 Phân tích khối Trong thông thường tất khối loại thể cho cấu trúc văn là: đoạn văn ô bảng, khối loại biểu diễn cột bảng bao gồm ô khác Để đưa cấu trúc biểu diễn mức cao từ tập hợp loại khối trên, cần phân chia khối loại thành ô bảng Kết trình áp dụng cho Hình 4.11 kết đưa Hình 4.14 Hình 4.14 Tách khối loại thành ô bảng Trong trường hợp khối loại láng giềng với khối loại ta cần tách khối loại thành ô bảng, ta cần phân đoạn dòng cho khối loại đồng thời ta tách ô cho khối loại Hình 4.15 mô tả ví dụ việc tách ô bảng với hai cột Pos Nmb cột thuộc khối loại 1, cột Description khối loại Hình 4.15 Tách khối loại thành hàng bảng 57 Đầu tiên phân đoạn khối loại để tách hàng bảng Các hàng bảng phân cách với đường kẻ (Hình 4.15 bên trái) Các đường kẻ đồng thời chia thành hàng cho khối loại 4.5 Xác định cấu trúc cột, hàng Sau tiến hành phân đoạn tất khối (để tách ô bảng), cần khai thác thêm thông tin từ khối này, xác định thêm khối có khả tạo thành bảng đặt khối tương ứng với cột hàng thích hợp Để làm việc sử dụng lại hệ thống ước lượng điểm lề phần 4.3.3 Nhóm từ bị phân tách việc nhận biết từ bị phân tách Các khối láng giềng nằm theo chiều ngang tạo cấu trúc lề bao gồm danh sách điểm lề Trong duyệt qua điểm lề từ trái qua phải nhận lần chuyển từ điểm lề phải sang trái xác định đường phân cách hai cột bảng tính số lượng cột bảng Trong trường hợp có khối trải dài qua nhiều đường phân cách hai cột thi ta coi khối (hay ô) chứa nhiều cột Trong chương trình bày phương pháp nhận dạng bảng T-Recs, phương pháp nhận dạng bảng với tốc độ nhanh hiệu Chương trình bày cải tiến thuật toán phân đoạn khởi tạo (T–Recs) T G Kieninger đề xuất trước nhằm giúp cho thuật toán phân đoạn cột cách xác Một số bước xử lý khối sau phân đoạn thêm vào nhằm khắc phục hạn chế thuật toán phân đoạn khởi tạo Hơn T-Recs cho thấy nhiều ưu điểm bật so với phương pháp nhận dạng bảng khác, đặc biệt nhận dạng bảng không dựa vào dấu hiệu phân cách bảng 58 Mặc dù thuật toán đề thách thức, số vấn đề tồn mà thuật toán chưa phân tích Trường hợp thứ việc tách khối loại (không nằm khối loại 1) thành hàng bảng Thuật toán đề phương pháp tách hàng dựa vào khối loại Trường hợp thứ hai, thuật toán thường nhận dạng sai dòng tiêu đề thư, chẳng hạn địa thư, ngày gửi v.v thuật toán thường nhận dạng chúng bảng liệu Do cải tiến phương pháp nhận dạng trường hợp cần thiết để thuật toán nhận dạng tất loại bảng Một thách thức lớn phương pháp nhận dạng bảng T-Recs khả nhận dạng môi trường bảng trang tài liệu, thông thường T-Recs thực đoạn văn trang tài liệu việc phân tích đoạn văn để xem có tồn bảng không Trong trường hợp bảng liệu đoạn văn nằm liền kề khác biệt lớn (chẳng hạn không coi hai đoạn văn riêng biệt) khó để xác định bảng 59 CHƯƠNG CHƯƠNG TRÌNH THỬ NGHIỆM VÀ MINH HỌA THUẬT TOÁN T-RECS++ Phần mô tả chương trình thử nghiệm T-Recs++ nhận dạng bảng thuật toán T-Recs++ mô tả 4.2.2 Chương trình gồm hai phần chính: • Phần quét qua toàn ảnh để nhận dạng xây dựng hình bao từ có ảnh • Phần thứ hai dựa vào hình bao thu từ phần thuật toán T-Recs++ để nhận dạng cột có bảng trang tài liệu ảnh 5.1 Mô tả chương trình Chương trình thử nghiệm dừng lại phần nhận dạng cột có bảng Vì khả hạn chế và thời gian không nhiều nên bước xử lý nhằm khắc phục lỗi hay bước tách cột bảng thành dòng chưa đưa vào chương trình Chương trình áp dụng nhận dạng bảng chúng đường kẻ Chương trình hoạt động bao gồm bước sau: Bước 1: Tài liệu ảnh tải vào chương trình việc người sử dụng chọn tệp ảnh nhị phân (bmp) để mở Khi tài liệu ảnh quét để nhận dạng số dòng văn có tài liệu Bước 2: Sau tài liệu quét để nhận dạng số dòng văn có tài liệu Chương trình thực quét qua tất dòng, dòng nhận dạng ký tự nhận dạng từ dòng Từ xây dựng hình bao cho từ dòng 60 Bước 3: Dựa vào thông tin hình bao từ, chương trình xây dựng từ nằm khối thuật toán T-Recs++ Thuật toán quét từ xuống nhận biết đoạn văn khác nhau, sau thực thuật toán T-Recs++ đoạn văn khác Cách nhận biết đoạn văn khác dựa vào khoảng trắng dòng văn Và kết chương trình đưa ảnh bao gồm từ thuộc khối (một cột) Chương trình có tham số cần phải thiết lập, tham số số điểm ảnh lớn hai ký tự từ, tham số phụ thuộc vào kích cỡ phông chữ Tham số giúp xác định ký tự thuộc từ Dựa vào tham số để chương trình nhận biết hai ký tự cách khoảng nhóm chúng lại làm từ Giao diện chương trình được chia thành phần chính mô tả Hình 5.1 Phần cho biết thông tin toạ độ, chiều rộng, chiều cao, hình dạng ký tự hiển thị phía nhận dạng, phần gồm các nút mở tệp, đặt tham số và khung chứa ảnh Phần chứa các nút lệnh nhận dạng Hình 5.1 Giao diện chương trình T-Recs 61 Nhấn vào nút Mở tệp ảnh để chọn ảnh nhị phân để mở Nhấn vào nút Đặt tham số để thiết lập tham số số điểm ảnh tối đa hai ký tự (được đặt mặc định 5) Nhấn vào nút XD hình bao để nhận dạng hình bao cho từ ảnh đồng thời chương trình vẽ môt hình chữ nhật nhỏ bao từ Nhấn vào nút Nhận dạng để nhận dạng cột có bảng ảnh Nút Ký tự cho phép nhận dạng ký tự ảnh 5.2 Một số kết quả Với đoạn văn thông thường, T-Recs++ xây dựng khối Hình 5.1 kết nhận dạng đoạn văn thông thường Hình 5.2 Nhận dạng khối văn bản với T-Recc++ Với tài liệu ảnh là một bản thông báo Hình 5.3 Một kết nhận dạng phức tạp Các trường hợp có dòng văn hay có ký tự cách trùng lặp dễ dàng xử lý để nhận biết môi trường bảng 62 Hình 5.3 Nhận dạng tài liệu ảnh dạng thông báo với T-Recs++ Một trường hợp khác có tồn môi trường bảng Hình 5.4 Đầu tiên chương trình nhận thấy ảnh có ba đoạn văn thực thuật toán T-Recs++ đoạn văn Mặc dù hai đoạn văn phía bảng có ký tự cách trùng lặp vị trí, thuật toán nhận dạng đoạn văn có nhiều cột liệu Trong tệp ảnh Hình 4.4 có đoạn văn thứ tư môi trường bảng thuật toán nhận dạng xác cột bảng 63 Hình 5.4 Nhận dạng môi trường bảng với T-Recs++ Trên là một kết quả thực nghiệm của thuật toán T-Recs++ Mặc dù đã với tài liệu có môi trường bảng chương trình đã nhận dạng được song chỉ dừng lại ở việc nhận dạng được các cột có thể có của bảng Sau là một số kết luận và ý kiến đề xuất để tiếp tục phát triển luận văn 64 KẾT LUẬN VÀ ĐỀ XUẤT Luận văn đã trình bày phương pháp phân tích bảng bên tài liệu ảnh và một số khái niệm, kỹ thuật lĩnh vực xử lý ảnh Nhận dạng bảng, nhận dạng biểu mẫu nhận dạng ảnh toán điển hình nhận dạng cấu trúc đối tượng đặc biệt tài liệu ảnh Trong khuôn khổ mình, luận văn vào nghiên cứu hai thuật toán để nhận dạng bảng đối tượng ảnh tài liệu ảnh kỹ thuật Nhận dạng đối tượng ảnh nhằm phân tách riêng rẽ hai thành phần văn ảnh tài liệu Có nhiều hướng nghiên cứu khác đề phân tách văn ảnh, hướng nghiên cứu đưa nhiều phương pháp phân tách hiệu phân tách hai đối tượng văn ảnh dựa vào phân tích thành phần liên thông Thuật toán nhận dạng bảng đề cập luận văn dựa thuật toán T-Recs G Kieninger đề xuất, nhiên bước thực mà Kieninger đưa nhiều hạn chế nhận dạng sai số trường hợp Luận văn đưa cải tiến bước thực thuật toán, đặt tên T-Recs++ Một số thuật toán nhận dạng bảng trước dựa dấu phân cách ô bảng, chẳng hạn đường kẻ, khoảng trắng v.v Tuy nhiên T-Recs++ phương pháp nhận dạng bảng không dựa dấu hiệu phân cách nào, kể trường hợp khoảng cách hai cột bảng cách khoảng cách hẹp Đó ưu điểm bật thuật toán Trong khối văn thuật toán nhận dạng xác cột liệu có bảng Một vấn đề tồn thuật toán khả nhận dạng dòng bảng, thuật toán việc nhận dạng dòng bảng phụ thuộc vào khối loại Trong trường hợp bảng bao gồm khối loại hai phương pháp tách dòng bảng nhận dạng phải dựa vào dấu hiệu phân tách Kết thực nghiệm cho 65 thấy thuật toán T-Recs++ có khả nhận dạng xác gần hoàn toàn cột có bảng, kể trường hợp khoảng cách cột bảng hẹp Kết thực nghiệm cho thấy độ xác việc nhận dạng cột bảng từ 92% đến 96% Một số lỗi nhận dạng xuất trường hợp trùng lặp ký tự cách vị trí dòng văn bản, số từ nằm vị trí bất thường đoạn văn tạo thành cột hay trường hợp dòng đơn v.v Các nghiên cứu thực nghiệm ở áp dụng với ảnh nhị phân, nhiên với tư tưởng bước thực hai thuật toán nhận dạng bảng trình bày áp dụng ảnh đa cấp xám ảnh màu 66 TÀI LIỆU THAM KHẢO 67 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] [2] Ngô Quốc Tạo: “Bài giảng xử lý ảnh” Đỗ Năng Toàn, Phạm Việt Bình: “Giáo trình xử lý ảnh” Tiếng Anh [1] [2] [3] [4] [5] [6] [7] [8] [9] D Rus and K Summers, “Using White Space for Automated Document Structuring”, Technical Report TR 94-1452, Department of Computer Science, Cornell University, 1994 D X Le, G R Thoma, and H.Wechsler “Classification of binary document images into textual or nontextual data blocks using neural network models” Machine Vision and Applications, 8:289_304, 1995 D.N Ying, E.J Wang, L Ye, W Li, and Y Wang, “A Study on Automatic Input and Recognition of Engineering Drawing,” Proc CAD/GRAPHICS, pp 478-481, Hangzhou, China, 23-26 Sept 1991 Fletcher A, Kasturi R 1988 A robust algorithm for text string separation from mixed text /graphics images IEEE Trans Pattern nal Machine Intell PAMI-10: 910–918 H Luo and I Dinstein “Using Directional Mathematical Morphology for Separation of Character Strings from Text/Graphics Image” In Shape, Structure and Pattern Recognition (Postproceedings of IAPR Workshop on Syntactic and Structural Pattern Recognition, Nahariya, Israel), pages 372_381 World Scientific, 1994 H Yamada et al., “MAP: Multi-Angled Parallelism for Feature Extraction From Topographical Maps,” Pattern Recognition, vol 24, no 6, pp 479-488, 1991 K Y Wong, R G Casey, and F M Wahl “Document Analysis System” IBM Journal of Research and Development, 26(6):647_656, 1982 Kasturi, O’Gorman, Govindaraju: “Document image analysis: A primer”, 2002 Nartker T A, Rice S V, Kanai J 1994 OCR Accuracy UNLV’s Second Annual Test Technical Journal INFORM, University of Nevada, Las Vegas 68 [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] O’Gorman L 1993 The document spectrum for structural page layout analysis IEEE Trans Pattern Anal Machine Intelli AMI-15: 1162– 73 Pavlidis T, Zhou J 1991 Page segmentation by white streams Proc 1st Int Conf on Document Analysis and Recognition ICDAR), St Malo, France, pp 945–953 Q Yuan, C L Tan: “Text Extraction from Gray Scale Document Images Using Edge Information” In Proceedings of the Sixth International Conference on Document Analysis and Recognition (ICDAR’01) 2001, IEEE S, Baumann, M Malburg, H.-G Hein, R Hoch, T Kieninger, and N Kuhn, “Document analysis at DFKI, part 2: Information extraction,” DFKI Research Report RR-95-03, German Research Center for Artificial Interligence (DFKI), Kaiserlautern, March 1995 T Kaneko “Line Structure Extraction from Line-Drawing Images” Pattern Recognition, 25(9):963_973, 1992 T Pavlidis and J Zhou “Page Segmentation and Classification” CVGIP: Graphical Models and Image Processing, 54(6):484_496, November 1992 Z Lu, “Detection of Text Regions from Digital Engineering Drawings”, IEEE Transactions on PAMI, 20(4):431:439, April 1998 M A Rahgozar, Z Fan, and E V Rainero, “Tabular document recognition”, in Proc Of the SPIE Conference on Document Recognition, 1994 E Green and M Krishnamoorthy, “Recognition of table using table grammars”, in Proc of the 4-th Symposium on Document Analysis and Information Retrieval – SDAIR95, Las Vegas, Nevada, 1995 Thomas G.Kieninger, “Table Structure Recognition Based On Robust Block Segmentation”, 1998 69 Phụ lục ... dùng có khả soạn thảo tìm kiếm nội dung tài liệu Thành phần có hệ phân tích tài liệu: Mục đích hệ phân tích tài liệu có khả nhận dạng đối tượng văn bản, đối tượng ảnh tài liệu ảnh có khả trích chọn... cạnh việc chuyển toàn nội dung tài liệu sang tài liệu điện tử cần phải bảo toàn cấu trúc định dạng tài liệu Mục tiêu hệ phân tích tài liệu ảnh hoàn chỉnh chuyển tài liệu lưu trữ giấy sang dạng biểu... Bước hệ phân tích tài liệu thực số thao tác xử lý tài liệu ảnh thu để chuẩn bị cho bước phân tích tiếp theo Chẳng hạn thao tác: chọn ngưỡng để chuyển ảnh đa cấp xám, ảnh màu dạng ảnh nhị phân,

Ngày đăng: 16/04/2017, 17:29

Mục lục

  • Lêi c¶m ¬n

    • 2.4.4. Làm mảnh và xác định vùng

    • 2.6.1. Xác định góc nghiêng của văn bản

    • 2.7. Nhận dạng ký tự quang học (OCR)

      • 2.7.1. Thuật toán OCR

        • 2.7.1.1. Trích chọn đặc trưng

        • 2.8. Phân tích các đối tượng ảnh trong tài liệu

        • 3.1. Tổng quan về phân tách văn bản – ảnh

        • 3.3. Thuật toán phân tách văn bản - ảnh

          • 3.3.2. Phân tích các thành phần liên thông của nét bút

          • 3.3.3. Kết hợp các nét ký tự tạo thành các chuỗi văn bản

          • 3.3.4. Thực hiện các phép toán hình thái

          • 3.3.6. Biểu diễn cấu trúc thông tin của các chuỗi văn bản

          • 4.2. Thuật toán phân đoạn khởi tạo

            • 4.2.1. Trường hợp thuật toán nhận dạng sai cột

            • 3. Tạo một khối mới Bi

            • 5. Tìm tất cả các từ Wj nằm theo chiều ngang ở các dòng trước và những dòng kế tiếp (thuộc đoạn văn bản), sao cho:

            • 4.2.3. Những ưu điểm của thuật toán

            • 4.2.4. Những mặt hạn chế của thuật toán khởi tạo

            • 4.3. Các bước xử lý khối sau khi phân đoạn

              • 4.3.1. Trộn các khối phân đoạn sai

              • 4.3.2. Phân tách các cột bị trộn vào một khối

              • 4.3.3. Nhóm các từ bị phân tách

              • 4.4. Phân tích khối

                • 5.1. Mô tả chương trình

Tài liệu cùng người dùng

Tài liệu liên quan