Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

65 700 0
Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

4 CHƯƠNG 1 GIỚI THIỆU TỔNG QUÁT VỀ HỆ PHÂN TÍCH ẢNH TÀI LIỆU 1.1 Tổng quan về hệ phân tích ảnh tài liệu Ảnh tài liệu sau khi được quét lưu trữ vào máy tính thì nó được cấu thành từ những điểm ảnh, nhiệm vụ của chúng ta là phải trích chọn được những thông tin đặc trưng từ nó sao cho máy tính có thể “đọc” “hiểu” được các thành phần này. Để làm được điều này người ta phải áp dụng các thuật toán kết hợp cùng với những kỹ thuật cả về phần cứng phần mềm máy tính, sự tích hợp này là yếu tố chính tạo thành một hệ phân tích ảnh tài liệu. Sau khi tạo được hệ phân tích ảnh, người ta tiến hành quá trình xử lý ảnh gồm việc thao tác lên ảnh đầu vào để cuối cùng cho ảnh đầu ra với kết quả đạt được những mục tiêu đã định trước đó. Cụ thể là kết quả của ảnh đầu ra có thể là một kết luận về sự nhận dạng hoặc là một ảnh đã được xử lý tốt hơn. Một trong những công nghệ khá phổ biến hiện nay được áp dụng để nhận dạng văn bản là công nghệ nhận dạng ký tự bằng quang học (Optical Character Recognition-OCR). Cơ chế chủ yếu của nó là nhận dạng ký tự trên nền định dạng ảnh tài liệu chuyển sản phẩm nhận dạng được sang kiểu tập tin văn bản. Từ đó OCR có thể giúp chúng ta thao tác trên văn bản như tạo, sửa đổi, xóa bỏ, tìm kiếm, thay thế nội dung của tài liệu. Như vậy, mục tiêu của hệ phân tích ảnh tài liệuphát hiện ra được các đối tượng khác nhau trong một ảnh tài liệu như chữ đánh máy, chữ viết bằng tay, hình ảnh, văn bản chia thành hàng, cột, v.v. Đồng thời hệ phân tích này còn phải trích xuất được những thành phần trong ảnh tài liệu mà chúng ta mong muốn để phục vụ cho những mục đích nghiên cứu ứng dụng khác nhau. đặc biệt trong bài luận này là trọng tâm nhấn mạnh đến việc phát hiện được bảng biểu (detect table) trong ảnh tài liệu. Trên cơ sở đặc điểm chung của một ảnh tài liệu thường có chứa hai loại đối tượng chính là văn bản hình ảnh cũng như đa số các công nghệ nhận dạng được áp dụng hiện nay, chúng ta có thể thấy rằng một hệ phân tích ảnh tài liệu thực hiện hai nhiệm vụ chính (xem hình 1.1). Nhiệm vụ thứ nhất là phải xử lý các đối tượng hình ảnh được cấu thành từ hình vẽ, đường kẻ, dấu vân tay, khuôn mặt, những nốt đen lớn, biểu đồ,…Và nhiệm vụ thứ hai là phải xử lý các đối tượng văn bản cấu thành từ chữ viết như ký tự, từ, chuỗi ký tự, chữ viết tay. Việc phát hiện độ nghiêng (tilt) của tài liệu (độ nghiêng của văn bản xuất hiện khi chúng ta quét ảnh 5 tài liệu từ máy quét đã đặt không chuẩn xác các vị trí của nó), phát hiện các phông chữ, độ lớn chữ, từ, cụm từ, dòng văn bản, đoạn văn bản các cột văn bản là những công việc quan trọng cần thiết để thực hiện việc phát hiện văn bản được ứng dụng công nghệ OCR như đã đề cập. Sau khi thực hiện thành công hai nhiệm vụ chính, hệ phân tích ảnh tài liệu sẽ trích chọn những thông tin cần thiết đã phát hiện được, đưa vào một tài liệu ở một định dạng khác như tập tin văn bản (word) hoặc ngôn ngữ hiển thị siêu văn bản (Hyper Text Markup Language-HTML). Việc đầu tư tài chính, công nghệ, con người cùng các yếu tố liên quan để thiết kế ứng dụng hệ phân tích ảnh tài liệu là rất cần thiết vô cùng quan trọng. Nó giúp chúng ta giải quyết rất nhiều vấn đề trong thực tế khi mà số lượng các dữ liệu lớn. Con người tiếp nhận xử lý thông tin nhờ vào các giác quan, nhưng có thể nói trong đó có khoảng 80% là thu nhận bằng mắt. Một vài ví dụ điển hình có thể minh chứng rằng thực sự cần thiết để sở hữu một hệ thống phân tích ảnh tài liệu nào đó. Thứ nhất, ta là người phải nhập điểm số cho hàng trăm nghìn sinh viên trong một trường đại học được gửi về từ các giáo viên giảng dạy, theo cách làm truyền thống thì tại phòng xử lý điểm phải có ít nhất một người ngồi đọc điểm cùng với một người gõ vào máy tính. Việc này vừa tốn thời gian, tốn chi phí nhân công, ít khách quan lại dễ xảy ra sai sót do yếu tố con người. Thay vào đó, nhà trường có thể thiết kế phiếu điểm giao cho giảng viên trong đó đã có sẵn các giá trị từ 1 đến 10 cho mỗi sinh viên chỉ việc chấm điểm theo cách tô đen vào vị trí điểm số mà sinh viên đạt được. Cuối cùng bảng điểm này được quét để máy tính phát hiện điểm số một cách tự động nhờ vào chấm đen mà giảng viên đã tô đậm thông qua một hệ nhận dạng ảnh tài liệu, theo đó sẽ khắc phục được những nhược điểm của cách làm truyền thống. Thứ hai là, tại một doanh nghiệp sản xuất kinh doanh với số nhân công hàng chục ngàn người làm việc trong ngày, trong các công đoạn chấm công có việc kiểm tra sự có mặt của nhân viên vào đầu giờ cuối giờ làm. Với phương pháp truyền thống doanh nghiệp phải cử ra rất nhiều người để theo dõi các nhân viên còn lại việc vào ra khỏi công ty phải đúng giờ. Việc này đã được khắc phục nhằm đem lại sự thuận lợi, chính xác ít tốn kém bằng cách sử dụng một máy chấm công bằng vân tay, trong đó tích hợp công nghệ xử lý so sánh dấu vân tay bảo đảm công tác thống kê số giờ làm mà không cần sự theo dõi trực tiếp của con 6 người. Trong đó, máy chấm công bằng dấu vân tay ứng dụng hệ phân tích ảnh tài liệu. Hệ phân tích ảnh tài liệu đã được sử dụng trong vài thập kỷ qua, đặc biệt là trong ngành kinh doanh ngân hàng, bưu điện, thư viện,…ứng dụng để máy tính đọc mã vạch hoặc lưu trữ tài liệu ở dạng điện tử, vào cuối những năm 1980 1990 thì đã phát triển nhanh chóng. Lý do chủ yếu của việc phát triển này là tốc độ ngày càng lớn chi phí thấp hơn của phần cứng máy tính. Kể từ khi máy fax trở nên phổ biến, chi phí của máy quét quang học cho các tài liệu đầu vào giảm xuống đã giúp các doanh nghiệp nhỏ cũng như mỗi cá nhân có cơ hội được sử dụng những công nghệ này. Mặc dù ảnh tài liệu có chứa một lượng tương đối lớn dữ liệu, thì ngay cả máy tính cá nhân hiện nay cũng đã có tốc độ đủ để xử lý chúng. Bộ nhớ máy tính bây giờ không những đủ cho các hình ảnh tài liệu lớn, mà quan trọng hơn, bộ nhớ quang học bây giờ cũng đủ để lưu trữ khối lượng lớn dữ liệu. Điều này dẫn đến ngày càng phát triển công nghệ nhận dạng xử lý ảnh tài liệu. Sự bổ sung cần thiết cho những cải tiến phần cứng là những tiến bộ đang được thực hiện trong việc phát triển các thuật toán phần mềm phân tích ảnh tài liệu. Trong đó công nghệ OCR có khả năng nhận dạng văn bản với độ chính xác lên đến khoảng 90%, bên cạnh đó nhiều phương pháp nhận dạng ảnh tài liệu khác cũng được cải tiến gần như Xử lý Ảnh tài liệu Xử lý Văn bản Xử lý đối tượng ảnh Nhận dạng ký tự Quang học Phân tích bố trí trang Xử lý đường kẻ Xử lý biểu tượng vùng Văn bản Phát hiện độ nghiêng, dòng, khối đoạn văn bản Đường thẳng, góc các đường cong Lấp đầy các khu vực Hình 1.1: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc trong mỗi vùng của ảnh. Nguồn: Gorman(2009), tác giả dịch thuật (7/2012). 7 tương tự. Theo đó, các tài liệu viết tay hoặc tài liệu đã được in ấn hay những hình ảnh có thể được chuyển thành tài liệu điện tử trên máy tính để thuận tiện trong việc lưu trữ, quản lý, chỉnh sửa biên soạn lại. Tuy nhiên, tài liệu giấy cho đến nay vẫn đang phát huy vai trò truyền thống của nó do tính chất trực quang, dễ thao tác, phổ biến được rộng rãi đối với mọi đối tượng sử dụng. Vì vậy, chúng ta phải tìm cách giải quyết vấn đề là sử dụng công nghệ các thuật toán để tích hợp dữ liệu dưới dạng ảnh tài liệu vào trong bộ nhớ phần cứng để xử lý bằng máy tính. Sau khi đã tạo ra dữ liệu, máy tính phải thực hiện các bước xử lý cơ bản như xử lý điểm ảnh, phân tích các thành phần đặc trưng, phân tách từng thành phần phát hiện riêng biệt là phát hiện hình ảnh phát hiện văn bản. Hình 1.2. Một trình tự để phân tích ảnh tài liệu, cùng với các ví dụ về các kết quả trung gian, kết quả cuối cùng kích thước của dữ liệu. Nguồn: Gorman (2009), tác giả dịch thuật (7/2012). Trang Tài liệu Xử lý mức điểm ảnh Thu thập dữ liệu 7,500x10 đặc trưng ký tự Hai sơ đồ, một biểu tượng công ty, các hình ảnh khác. Mô tả tài liệu 1.500 ký tự, 10 đoạn văn, một tiêu đề chính,… Phân tích nhận dạng văn bản Phân tích mức đặc trưng Phân tích nhận dạng hình ảnh 10 7 điểm ảnh 500x5 đặc trưng đường thẳng đường cong 10 x 5 đặc trưng vùng 7.500 hình bao ký tự, mỗi hộp có kích thước 15x20 điểm ảnh 500 đường kẻ các đường cong, độ dài từ 20 đến 2.000 điểm ảnh 10 khu vực khác nhau được tô, từ 20x20 đến 200x200 điểm ảnh 8 Hình 1.2 mô phỏng một chuỗi các bước trong phân tích hình ảnh tài liệu phổ biến. Các phần tiếp theo sẽ trình bày vắn tắt một số bước cơ bản này. Sau khi thu thập dữ liệu, hình ảnh trải qua xử lý cấp độ điểm ảnh phân tích tính năng, sau đó mỗi loại đối tượng văn bản hình ảnh được phát hiện xử lý riêng. Thu thập dữ liệu được thực hiện trên một tài liệu giấy thường bằng cách quét quang học. Các dữ liệu sau đó được lưu trữ trong một tập tin hình ảnh, gọi là điểm ảnh, được lấy mẫu trong một mô hình mạng lưới xuyên suốt ảnh tài liệu (Gorman – 2009). 1.2 Quá trình thu nhận ảnh tài liệu Ảnh tài liệu thường được thu thập bằng cách quét quang học thông qua máy quét hoặc bằng cách sao chép hình ảnh những đoạn phim kỹ thuật số từ máy chụp hoặc máy quay phim (camera) rồi được lưu trữ vào máy tính dưới dạng một tập tin ảnh gồm có các yếu tố hình ảnh, hoặc điểm ảnh, đó là “nguyên liệu” đầu vào để phân tích ảnh tài liệu sau này. Dữ liệu lúc này được tập hợp là các điểm ảnh (pixels) được mô phỏng thành tập hợp của một lưới các điểm ảnh (a grid pattern) (Gorman - 2009). Các thiết bị thu nhận ảnh tài liệu có hai loại chính tương ứng với hai loại ảnh thông dụng Vector Raster. Theo đó, quá trình thu nhận ảnh tài liệu thực hiện các công đoạn chính gồm việc biến đổi năng lượng quang học thành năng lượng điện gọi là cảm biến tổng hợp năng lượng điện thành ảnh gọi là quá trình lượng tử hóa (Đỗ Năng Toàn-2008). Với ảnh nhị phân thì cường độ điểm ảnh có thể nhận một trong hai giá trị OFF (0) hoặc ON (1) (Hình 1.3). Đối với ảnh đa cấp xám thì cường độ điểm ảnh nhận giá trị từ 0 đến 255 với ảnh màu thì giá trị điểm ảnh nhận 3 kênh là R, G, B từ 0 đến 255 giá trị màu sắc. Thí dụ, với một trang ảnh tài liệu có kích thước 30x40 cm có 140 điểm ảnh trong 1 centimet thì tạo được ảnh với 4200x5600 điểm ảnh. Từ đó cho thấy rằng một ảnh tài liệu thông thường là tập hợp của các giá trị điểm ảnh mà người ta đã dùng các bộ cảm biến hoặc máy quét để biến tín hiệu quang thành tín hiệu điện liên tục, rồi thì khắc phục hiện tượng chồng phổ, thực hiện lượng tử hóa cùng với các công đoạn kỹ thuật khác cuối cùng sẽ trích chọn được các thông tin phù hợp. 9 1.3 Các bước xử lý điểm ảnh của ảnh tài liệu Một số bước quan trọng trong quá trình xử lý điểm ảnh của hệ phân tích ảnh tài liệu cần phải được thực hiện để làm cơ sở cho các quá trình phân tích nhận dạng về sau. Cụ thể, người ta thường thực hiện các công việc gồm tăng giảm độ sáng bằng cách cộng thêm cho mỗi giá trị của điểm ảnh một giá trị nguyên c nào đó, nếu giá trị c lớn hơn 0 thì ảnh sáng lên, ngược lại nếu giá trị c nhỏ hơn 0 thì ảnh sẽ tối đi. Tiếp đến là việc chọn tách ngưỡng để chuyển ảnh màu hoặc ảnh đa cấp xám về ảnh nhị phân, hay các thành phần trong ảnh tài liệu không cần quan tâm đến có thể được loại trừ bằng việc giảm nhiễu (noise reduction) một số bước còn lại là phân đoạn, dò biên để xác định các vùng, các đặc trưng đối tượng phù hợp. Sau khi đã thực hiện các công đoạn vừa rồi, thì người ta thường nén các dữ liệu bằng các phương pháp mã hóa chuỗi (chain coding) biểu diễn ở dạng vectơ. 1.3.1 Phương pháp nhị phân Đối với ảnh tài liệu dạng đa cấp xám có thông tin vốn là nhị phân như văn bản hoặc hình ảnh thì mục tiêu là phải chọn được một ngưỡng để tách thông tin nền thông tin ảnh thành hai phần riêng biệt. Vì vậy phương pháp nhị phân thường được ưu tiên thực hiện trước. Song việc chọn được một ngưỡng thích hợp để tách thông tin ảnh tài liệu thành hai phần như vậy không phải là việc dễ dàng sẽ càng khó khăn hơn đối với chúng ta khi gặp phải những thông tin ảnh mà độ tương phản giữa giá trị điểm ảnh nền giá trị điểm ảnh văn bản là thấp. Khi đường nét của văn bản quá mỏng hoặc khi quét ảnh tài liệu không đủ cường độ sáng thích hợp thì cũng Hình 1.3. Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON OFF các điểm ảnh, ON điểm ảnh được hiển thị ở đây là "X". Nguồn Gorman (2009). 10 gây ra những khó khăn trong quá trình tìm ngưỡng. Vì vậy, người ta đã áp dụng nhiều phương pháp tách ngưỡng để khắc phục khó khăn trên. Trong đó phương pháp tách ngưỡng tự động thường được áp dụng. Cụ thể, giá trị ngưỡng α trong kỹ thuật tách ngưỡng thường cho bởi người sử dụng. Kỹ thuật tìm, tách ngưỡng tự động nhằm tìm ra ngưỡng α một cách tự động dựa vào histogram theo nguyên lý trong vật lý là vật thể tách làm hai phần nếu tổng độ lệch trong từng phần là tối thiểu (Đỗ Năng Toàn-2008). Cũng phải lưu ý trong quá trình tách ngưỡng khi chuyển ảnh màu thành ảnh đen trắng được ứng dụng khi quét nhận dạng văn bản có thể xảy ra sai sót nền thành ảnh hoặc ảnh thành nền, dẫn đến ảnh bị đứt nét hoặc kết dính (Hình 1.4). Hình 1.4: Mô phỏng phương pháp nhị phân ảnh. (a): Biểu đồ Histogram của ảnh đa cấp xám ban đầu. (b): ngưỡng thấp. (c): ngưỡng phù hợp. (c): ngưỡng cao. Nguồn: Gorman (2009). 11 1.3.2 Phương pháp khử nhiễu ảnh Trong quá trình thu nhận ảnh tài liệu, có hai loại nhiễu cơ bản là nhiễu hệ thống (nhiễu này có quy luật nên có thể khử bằng các phép biến đổi) nhiễu ngẫu nhiên (những dạng vết bẩn không rõ nguyên nhân nên có thể khắc phục bằng các phép lọc). Nguyên nhân chủ yếu gây ra nhiễu là do quá trình sao chép ảnh (photocopy) hay quá trình quét ảnh hoặc chuyển qua máy Fax. Giảm nhiễu nhằm mục đích loại bỏ các tính năng không liên quan để tránh trường hợp gây ra lỗi trong các bước xử lý tiếp theo cũng như giảm dung lượng lưu trữ giảm được thời gian xử lý. Ảnh nhị phân thường xuất hiện một số loại nhiễu kích thước nhỏ gọi là nhiễu xung, nhiễu đốm hay chỉ một loại bụi bẩn nào đó, thuật ngữ tiếng anh thường gọi là salt-and-pepper noise, tức là mô tả điểm nhiễu như hạt muối hoặc hạt tiêu. Để khử nhiễu, người ta thường sử dụng một số phương pháp như các phép toán hình thái học, trong đó nghiên cứu về cấu trúc hay hình học topo của đối tượng trong ảnh tài liệu. Phần lớn các phép toán của “Hình thái” được định nghĩa từ hai phép toán cơ bản là phép toán “giãn nở” (Dilation) phép toán “co” (Erosion). Giả sử ta có đối tượng X phần tử cấu trúc mẫu B trong không gian hai chiều, ký hiệu Bx là dịch chuyển của B tới vị trí x. Khi đó, phép “giãn nở” của X theo mẫu B là hợp của tất cả các Bx với x thuộc X. phép “co” của X theo B là tập hợp tất cả các điểm x sao cho Bx nằm trong X. Như vậy có thể thấy rằng phép “co” ảnh sẽ làm giảm kích thước của vùng mang thông tin ảnh trong vùng mang thông tin nền, phép “giãn nở” ảnh thực hiện điều ngược lại làm cho vùng mang thông tin ảnh trong vùng mang thông tin nền tăng lên. Người ta thực hiện tuần tự việc “co” “giãn nở” ảnh nhiều lần bằng cách kết hợp các phép toán này. Một vài phương pháp kết hợp như vậy có tên là phép toán mở (OPEN) phép toán đối xứng của nó là phép toán đóng (CLOSE). Phép toán mở của X theo cấu trúc B là tập hợp các điểm của ảnh X sau khi đã co giãn nở liên tiếp theo B. Kết quả mà phép toán mở mang lại là làm nhẵn vùng biên của đối tượng, làm đứt vùng eo nhỏ từ đó khử được những vùng điểm nhiễu nhỏ. Theo đó, kết quả của phép toán đóng là làm nhẵn vùng biên, các lỗ hổng nhỏ được loại trừ các kẽ hở không đáng kể giữa các đối tượng được hàn gắn lại (Hình 1.5). 12 1.3.3 Phân khúc các đặc tính Để phục vụ cho các bước xử lý ảnh tài liệu về sau, một trong những công đoạn khá quan trọng là phải tiến hành phân khúc (còn được gọi là phân đoạn- segmentation) các đặc tính cơ bản có chứa trong hình ảnh thu nhận được. Cụ thể, việc phân khúc được tiến hành với hai tiến trình chính. Thứ nhất là tách riêng biệt giữa các lớp của ảnh tài liệu, gồm lớp hình ảnh lớp văn bản đối với trường hợp dữ liệu đầu vào có chứa cả hình ảnh văn bản. Thứ hai là tiếp tục thực hiện các tiến trình phân tích trên các lớp vừa được tách ra. Với lớp hình ảnh thì phân định rõ các đối tượng hình vẽ, đường kẻ, biểu tượng cũng như các loại hình ảnh khác. Còn đối với lớp văn bản thì tiến hành xác định các ký tự, từ, đoạn văn, chia cột văn bản,…Một số hướng tiếp cận phương pháp phân khúc các đặc tính ảnh như dựa trên không gian đặc trưng, không gian ảnh hoặc là dựa trên mô hình vật lý. Hiện nay một số phương pháp phân khúc thường được áp dụng như phương pháp phân khúc Hình 1.5: Mô phỏng sự kết hợp giữa các phép toán hình thái học ứng dụng vào việc khử một vài loại nhiễu cơ bản. Nguồn: Gorman (2009). 13 yếu của B.G. Prasad hoặc phân khúc dựa trên ngưỡng cục bộ thích nghi. Giả sử ảnh đầu vào là một trang sách, trong đó có cả chữ viết được chia thành các đoạn chia ra hai cột, đồng thời có cả hình ảnh minh họa, thì lúc này việc phân khúc ảnh sẽ thực hiện tách riêng hình ảnh văn bản. Tiếp đến là văn bản sẽ được tách thành các đoạn, các cột, các chuỗi, còn hình ảnh thì được tách thành các biểu tượng, đường kẻ các đối tượng ảnh khác. Như vậy, tài liệu ảnh sau khi được thực hiện phân khúc sẽ quản lý được các đối tượng rất nhỏ như các phần cơ bản của ảnh. 1.3.4 Tìm xương phát hiện biên Tìm xương của ảnh là việc biểu diễn ảnh dưới dạng những đường trục trung tâm của đối tượng ảnh. Đây là kỹ thuật làm giảm bớt các điểm ảnh lân cận có cùng bản chất nhưng vẫn bảo đảm tính liên kết liên thông của mỗi đối tượng ảnh. Xương được coi như là hình dạng cơ bản của một đối tượng, người ta có thể lấy lại được các thông tin về hình dạng nguyên bản của một đối tượng thông qua xương của nó. Việc tìm được xương của đối tượng ảnh sẽ giúp chúng ta giảm bớt tốn kém vì không cần thiết phải lưu trữ những thông tin không quan trọng trong quá trình xử lý sau này, cũng như có thể đồng bộ hóa việc lưu trữ các đối tượng ảnh tương tự nhau ví dụ như những đoạn thẳng có thể vẽ với độ dày mỏng khác nhau nhưng khi lưu trữ biểu diễn thì các đoạn này là giống nhau nhờ vào việc biểu diễn xương của chúng. Hình 1.6 biểu diễn ảnh nguyên bản bên trái xương tương ứng của chúng phía bên phải. Đã có nhiều thuật toán được phát triển trong việc tìm xương nhằm từng bước khắc phục việc mất mác thông tin trong quá trình thực hiện. Người ta chia thành hai loại thuật toán tìm xương là tìm xương dựa trên làm mảnh (thinning) tìm xương không dựa trên làm mảnh. Thuật toán làm mảnh là quá trình lặp duyệt kiểm tra tất cả các điểm thuộc đối tượng. Trong mỗi lần lặp tất cả các điểm của đối tượng sẽ được kiểm tra: Nếu chúng thỏa mãn điều kiện xóa nào đó tủy thuộc vào mỗi thuật toán thì nó sẽ bị xóa đi. Quá trình được lặp lại cho đến khi không còn điểm biên nào được xóa. Đối tượng được bóc dần lớp biên cho đến khi nào bị thu mảnh lại chỉ còn các điểm biên. Người ta thường sử dụng thuật toán làm mảnh song song thuật toán làm mảnh tuần tự. Nếu tìm xương không dựa trên làm mảnh thì để tách được xương của đối tượng, người ta sử dụng đường biên của đối tượng nhờ vào trục trung vị thông qua hai bước cơ bản: Bước thứ nhất. tính khoảng . đích nghiên cứu và ứng dụng khác nhau. Và đặc biệt trong bài luận này là trọng tâm nhấn mạnh đến việc phát hiện được bảng biểu (detect table) trong ảnh tài. đỉnh” và “vùng lõm” để ứng dụng vào việc phát hiện nghiêng. Cụ thể, với ảnh tài liệu có góc nghiêng là 0 thì vùng đỉnh của phép chiếu nghiêng một bên thể hiện

Ngày đăng: 18/12/2013, 14:29

Hình ảnh liên quan

Hình 1.1: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 1.1.

Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu được phân chia theo cấp bậc Xem tại trang 3 của tài liệu.
tương tự. Theo đó, các tài liệu viết tay hoặc tài liệu đã được in ấn hay những hình ảnh có thể được chuyển thành tài liệu điện tử trên máy tính để thuận tiện trong việc  lưu trữ, quản lý, chỉnh sửa và biên soạn lại - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

t.

ương tự. Theo đó, các tài liệu viết tay hoặc tài liệu đã được in ấn hay những hình ảnh có thể được chuyển thành tài liệu điện tử trên máy tính để thuận tiện trong việc lưu trữ, quản lý, chỉnh sửa và biên soạn lại Xem tại trang 4 của tài liệu.
Hình 1.3. Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON và - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 1.3..

Một hình ảnh nhị phân của chữ "e" được thực hiện lên ON và Xem tại trang 6 của tài liệu.
Hình 1.4: Mô phỏng phương pháp nhị phân ảnh. (a): Biểu đồ Histogram của ảnh đa cấp xám ban đầu - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 1.4.

Mô phỏng phương pháp nhị phân ảnh. (a): Biểu đồ Histogram của ảnh đa cấp xám ban đầu Xem tại trang 7 của tài liệu.
Hình 1.5: Mô phỏng sự kết hợp giữa các phép toán hình thái học ứng dụng vào - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 1.5.

Mô phỏng sự kết hợp giữa các phép toán hình thái học ứng dụng vào Xem tại trang 9 của tài liệu.
Hình 1.9 mô tả một thí dụ về kết quả phân tích cấu trúc một trang ảnh tài liệu, trong đó nội dung và cách thức sắp xếp thông tin quy định trình bày cho trang  - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 1.9.

mô tả một thí dụ về kết quả phân tích cấu trúc một trang ảnh tài liệu, trong đó nội dung và cách thức sắp xếp thông tin quy định trình bày cho trang Xem tại trang 16 của tài liệu.
Hình ảnh thể hiện cấu trúc Hình ảnh thể hiện chức năng của các khối  - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

nh.

ảnh thể hiện cấu trúc Hình ảnh thể hiện chức năng của các khối Xem tại trang 17 của tài liệu.
Hình 1.10a: Mô tả những nét chữ viết tay không nắn nót dẫn đến rất khó - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 1.10a.

Mô tả những nét chữ viết tay không nắn nót dẫn đến rất khó Xem tại trang 19 của tài liệu.
Hình 1.10b: Mô tả chữ viết tay với thói quen viết liền nét giữa số 4 và số 2 - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 1.10b.

Mô tả chữ viết tay với thói quen viết liền nét giữa số 4 và số 2 Xem tại trang 19 của tài liệu.
trong bảng chữ cái. Thay vào đó, một hệ thống tổng hợp trích xuất một số tính năng của mỗi hình ảnh ký tự và cố gắng phân loại sự giống nhau của vectơ tính năng này  với một lớp đặc trưng (character class) - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

trong.

bảng chữ cái. Thay vào đó, một hệ thống tổng hợp trích xuất một số tính năng của mỗi hình ảnh ký tự và cố gắng phân loại sự giống nhau của vectơ tính năng này với một lớp đặc trưng (character class) Xem tại trang 21 của tài liệu.
Hình 1.11b: Mô phỏng một số tính năng của ảnh ký tự được trích chọn. - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 1.11b.

Mô phỏng một số tính năng của ảnh ký tự được trích chọn Xem tại trang 22 của tài liệu.
văn bản và hình ảnh. Mặc dù thuật toán này có thể xử lý trường hợp kết dính văn bản với văn bản hoặc kết dính văn bản với đối tượng hình ảnh trong một chừng mực  nhất định, nhưng nó cũng bị hạn chế khi gặp phải những ảnh tài liệu có quá nhiều  tính năng đ - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

v.

ăn bản và hình ảnh. Mặc dù thuật toán này có thể xử lý trường hợp kết dính văn bản với văn bản hoặc kết dính văn bản với đối tượng hình ảnh trong một chừng mực nhất định, nhưng nó cũng bị hạn chế khi gặp phải những ảnh tài liệu có quá nhiều tính năng đ Xem tại trang 30 của tài liệu.
Hình 2.2: Ảnh tài liệu chứa chuỗi văn bản và hình ảnh. Nguồn: Zhaoyang (1998) - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 2.2.

Ảnh tài liệu chứa chuỗi văn bản và hình ảnh. Nguồn: Zhaoyang (1998) Xem tại trang 31 của tài liệu.
Bảng 2.1: Số liệu thống kê về số điểm ảnh và giá trị mật độ điểm ảnh (Nguồn: Zhaoyang, “Detection of Text Regions From Digital Engineering Drawings”-1998) - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Bảng 2.1.

Số liệu thống kê về số điểm ảnh và giá trị mật độ điểm ảnh (Nguồn: Zhaoyang, “Detection of Text Regions From Digital Engineering Drawings”-1998) Xem tại trang 32 của tài liệu.
Hình 2.3: Mô phỏng biểu đồ tần suất của các giao điểm. Nguồn: Zhaoyang (1998)Hình 2.2c  - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 2.3.

Mô phỏng biểu đồ tần suất của các giao điểm. Nguồn: Zhaoyang (1998)Hình 2.2c Xem tại trang 33 của tài liệu.
Hình 2.5: Minh họa phương pháp kéo giãn để phát hiện các đoạn thẳng nghiêng. (a): ảnh nguyên bản ban đầu; (b): góc α = +22.5o; (c): góc α = +45o ; (d): góc α = +67.5 o - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 2.5.

Minh họa phương pháp kéo giãn để phát hiện các đoạn thẳng nghiêng. (a): ảnh nguyên bản ban đầu; (b): góc α = +22.5o; (c): góc α = +45o ; (d): góc α = +67.5 o Xem tại trang 36 của tài liệu.
bước thực hiện xử lý sau này. Hình 2.6 minh họa việc tô đen các điểm ảnh trắng nằm  xen  kẽ  giữa  những  điểm  ảnh  đen  thỏa  mãn  một  giá  trị  cho  trước  là  tham  số  TS5 - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

b.

ước thực hiện xử lý sau này. Hình 2.6 minh họa việc tô đen các điểm ảnh trắng nằm xen kẽ giữa những điểm ảnh đen thỏa mãn một giá trị cho trước là tham số TS5 Xem tại trang 39 của tài liệu.
Đầu vào: Vùng bao quanh hình chữ nhật của các từ; Đầu ra: Các từ được liệt kê vào từng khối lô-gíc;  - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

u.

vào: Vùng bao quanh hình chữ nhật của các từ; Đầu ra: Các từ được liệt kê vào từng khối lô-gíc; Xem tại trang 46 của tài liệu.
Thí dụ việc phát hiện khối chưa tuyệt đối được cụ thể hóa như trong hình 3.3. Khi thực hiện các bước của thuật toán thì kết quả ta có được hai khối độc lập,  khối  thứ  nhất  có  ba  từ  “Miễn ”,  “sẽ”,  “hạnh”;  khối  thứ  hai  có  ba  từ  “cưỡng”,  “khô - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

h.

í dụ việc phát hiện khối chưa tuyệt đối được cụ thể hóa như trong hình 3.3. Khi thực hiện các bước của thuật toán thì kết quả ta có được hai khối độc lập, khối thứ nhất có ba từ “Miễn ”, “sẽ”, “hạnh”; khối thứ hai có ba từ “cưỡng”, “khô Xem tại trang 48 của tài liệu.
Hình 3.4: Mô tả kết quả thuật toán đã được điều chỉnh nhận dạng khối - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 3.4.

Mô tả kết quả thuật toán đã được điều chỉnh nhận dạng khối Xem tại trang 51 của tài liệu.
- Xuất phát điểm của quá trình phát hiện bảng là một từ bất kỳ nào đó và thuật toán tiến hành tìm kiếm trên các dòng còn lại để tạo được khối, như vậy nếu  gặp một ảnh tài liệu chỉ có một dòng văn bản duy nhất mà không hề có môi trường  - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

u.

ất phát điểm của quá trình phát hiện bảng là một từ bất kỳ nào đó và thuật toán tiến hành tìm kiếm trên các dòng còn lại để tạo được khối, như vậy nếu gặp một ảnh tài liệu chỉ có một dòng văn bản duy nhất mà không hề có môi trường Xem tại trang 53 của tài liệu.
Hình 3.6: Trường hợp: (a)-trộn được thành 1 khối; (b)-không trộn được - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 3.6.

Trường hợp: (a)-trộn được thành 1 khối; (b)-không trộn được Xem tại trang 55 của tài liệu.
Hình 3.7: (a): Tách các cột nhỏ trong cột lớn; (b): Trộn các khối nhỏ vào khối lớn - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 3.7.

(a): Tách các cột nhỏ trong cột lớn; (b): Trộn các khối nhỏ vào khối lớn Xem tại trang 57 của tài liệu.
Hình 3.9: (a) Phân tích khối thuộc lớp thứ nhất thành cấu trúc cá cô của bảng                 (b) Ô thuộc lớp thứ hai được phân tích nhờ vào ô thuộc khối thứ nhất  - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 3.9.

(a) Phân tích khối thuộc lớp thứ nhất thành cấu trúc cá cô của bảng (b) Ô thuộc lớp thứ hai được phân tích nhờ vào ô thuộc khối thứ nhất Xem tại trang 59 của tài liệu.
Hình 4.1: Giao diện chương trình thử nghiệm thuật toán T-Recs có điều chỉnh - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 4.1.

Giao diện chương trình thử nghiệm thuật toán T-Recs có điều chỉnh Xem tại trang 62 của tài liệu.
Hình 4.3: Kết quả phát hiện các từ, tạo vùng bao quanh các từ và - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 4.3.

Kết quả phát hiện các từ, tạo vùng bao quanh các từ và Xem tại trang 63 của tài liệu.
Hình 4.2: Kết quả phát hiện các từ, tạo vùng bao quanh các từ của một - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 4.2.

Kết quả phát hiện các từ, tạo vùng bao quanh các từ của một Xem tại trang 63 của tài liệu.
Hình 4.4 thể hiện giao diện của chương trình và hình 4.5 thể hiện một kết quả phát hiện văn bản và hình ảnh của thuật toán - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 4.4.

thể hiện giao diện của chương trình và hình 4.5 thể hiện một kết quả phát hiện văn bản và hình ảnh của thuật toán Xem tại trang 65 của tài liệu.
Hình 4.4: Giao diện chương trình thử nghiệm phát hiện đối tượng văn bản và - Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ

Hình 4.4.

Giao diện chương trình thử nghiệm phát hiện đối tượng văn bản và Xem tại trang 65 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan