Phân tích cấu trúc hình ảnh trang ảnh tài liệu dựa trên phương pháp ngưỡng thích nghi tt

26 199 0
Phân tích cấu trúc hình ảnh trang ảnh tài liệu dựa trên phương pháp ngưỡng thích nghi tt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ …… ….***………… HÀ ĐẠI TƠN PHÂN TÍCH CẤU TRÚC HÌNH HỌC TRANG ẢNH TÀI LIỆU DỰA TRÊN PHƯƠNG PHÁP NGƯỠNG THÍCH NGHI Chun ngành: Cớ sở Tốn học cho Tin học Mã số: 62 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI - 2018 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học: TS Nguyễn Đức Dũng Phản biện 1: … Phản biện 2: … Phản biện 3: … Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 201… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Nhận dạng văn lĩnh vực quan tâm nghiên cứu ứng dụng nhiều năm Quá trình nhận dạng văn thực qua bước sau: Trang ảnh đầu vào qua bước tiền xử lý, sau bước phân tích trang, kết đầu phân tích trang đầu vào bước nhận dạng, cuối bước hậu xử lý Kết hệ thống nhận dạng phụ thuộc vào hai bước: phân tích trang nhận dạng Đến thời điểm này, toán nhận dạng văn chữ in giải gần trọn vẹn (sản phẩm thương mại FineReader 12.0 hãng ABBYY nhận dạng chữ in nhiều ngôn ngữ khác nhau, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 Viện Công nghệ Thông Tin Hà Nội nhận dạng với độ xác 98%) Tuy nhiên giới Việt Nam, tốn phân tích trang thách thức lớn nhà nghiên cứu Cho đến phân tích trang nhận quan tâm nhiều nhà nghiên cứu Cứ hai năm lần giới lại có thi phân tích trang quốc tế nhằm thúc đẩy phát triển thuật tốn phân tích trang Chính điều động lực thúc đẩy luận án cố gắng nghiên cứu để đề xuất giải pháp hữu hiệu cho tốn phân tích trang.ThuậtTrong năm gần có nhiều thuật tốn phân tích trang phát triển, đặc biệt thuật toán phát triển theo hướng tiếp cận lại ghép (hybrid) Các thuật toán đề xuất thể điểm mạnh, điểm yếu khác nhau, nhìn chung hầu hết mắc phải hai lỗi là: lỗi phân tách vùng chữ thành vùng chữ nhỏ làm sai thông tin dòng chữ hay đoạn văn (over-segmentation), lỗi gộp vùng chữ cột văn hay đoạn văn lại với (under-segmentation) Vì mục tiêu luận án nghiên cứu phát triển thuật tốn phân tích trang giảm đồng thời hai kiểu lỗi: over-segmentation, under-segmentation Các vấn đề phân tích trang rộng luận án giới hạn phạm vi nghiên cứu khuôn khổ trang ảnh văn soạn thảo ngôn ngữ Latin cụ thể Tiếng Anh tập trung vào phân tích vùng chữ Luận án chưa đề xuất đến vấn đề phát phân tích cấu trúc vùng bảng, phát vùng ảnh phân tích cấu trúc logic Với mục tiêu đặt luận án đạt số kết sau: Đề xuất giải pháp làm tăng tốc thuật toán phát trang ảnh Đề xuất phương pháp tham số thích nghi làm giảm ảnh hưởng kích cỡ kiểu phơng chữ đến kết phân tích trang Đề xuất giải pháp cho vấn đề phát sử dụng đối tượng phân tách thuật tốn phân tích trang Đề xuất giải pháp tách vùng chữ thành đoạn văn dựa phân tích ngữ cảnh CHƯƠNG TỔNG QUAN VỀ PHÂN TÍCH TRANG ẢNH TÀI LIỆU Trong chương này, tơi trình bày tổng quan hệ thống nhận dạng văn bản, toán phân tích trang, thuật tốn phân tích trang tiêu biểu, lỗi thuật toán phân tích trang Từ dẫn đến mục tiêu nghiên cứu kết đạt luận án 1.1 Các thành phần hệ thống nhận dạng văn Về bản, hệ thống nhận dạng văn thường thực qua bước mơ tả hình Những thơng tin dạng văn sách, báo, tạp chí, sau trình scan cho ta kết file ảnh văn Những file ảnh đầu vào hệ thống nhận dạng, kết đầu hệ thống nhận dạng file văn dễ dàng sửa lưu trữ, ví dụ file *.doc, *.docx, *.excel, *.pdf, Luận án tập trung vào nghiên cứu bước phân tích trang, trọng tập phân tích cấu trúc hình học trang ảnh Hình 1: Minh họa bước xử lý cở hệ thống nhận dạng văn 1.1.1 Tiền xử lý Nhiệm vụ trình tiền xử lý trang ảnh thơng thường nhị phân hóa, xác định thành phần liên thơng ảnh, lọc nhiễu, trình độ nghiêng Kết đầu bước tiền xử lý đầu vào q trình phân tích trang Do đó, kết q trình tiền xử lý có ảnh hưởng đáng kể đến kết phân tích trang 1.1.2 Phân tích trang ảnh tài liệu Phân tích trang ảnh tài liệu (document layout analysis) thành phần hệ thống nhận dạng văn (OCR - System) Ngồi ứng dụng rộng rãi lĩnh vực khác tin học ví dụ số hóa tài liệu, nhập liệu tự động, thị giác máy tính, Nhiệm vụ phân tích trang bao gồm việc tự động phát vùng ảnhtrang ảnh tài liệu (cấu trúc vật lý) phân loại chúng thành vùng liệu khác vùng chữ, ảnh, bảng biểu, header, footer (cấu trúc logic) Kết phân tích trang sử dụng thơng tin đầu vào cho q trình nhận dạng nhập liệu tự động hệ thống xử lý ảnh tài liệu (document imaging) 1.1.3 Nhận dạng kí tự quang học Đây giái đoạn quan trọng nhất, giái đoạn định độ xác hệ thống nhận dạng Có nhiều phương pháp phân lớp khác áp dụng cho hệ thống nhận dạng chữ, ví dụ như: phương pháp đối sánh, phương pháp tiếp cận trực tiếp, phương pháp ngữ pháp, phương pháp đồ thị, mạng nơ ron, phương pháp thống kê, máy véc tơ tựa (SVM) 1.1.4 Hậu xử lý Đây công đoạn cuối q trình nhận dạng Có thể hậu xử lý bước ghép nối kí tự nhận dạng thành từ, câu, đoạn văn nhằm tái lại văn đồng thời phát lỗi nhận dạng sai cách kiểm tra tả dựa cấu trúc ngữ nghĩa từ, câu đoạn văn Việc phát lỗi, sai sót nhận dạng bước góp phần đáng kể vào việc nâng cao chất lượng nhận dạng 1.2 Các thuật tốn phân tích cấu trúc hình học (phân tách) trang tiêu biểu Qua hàng chục năm phát triển có nhiều thuật tốn phân tích trang cơng bố Dựa thứ tự thực thuật toán, thuật toán phân tách trang ảnh tài liệu chia thành ba hướng tiếp cận khác nhau: từ xuống (top-down), từ lên (bottom-up) phương pháp lai ghép (hybrid) 1.2.1 Hướng tiếp cận từ xuống (top-down) Các thuật toán top-down tiêu biểu như: X-Y Cut, WhiteSpace, Các thuật toán theo hướng tiếp cận thực phân tích trang cách chia đệ quy trang ảnh văn theo phương ngang phương thẳng đứng dọc theo khoảng trắng trang Những khoảng trằng thường dọc theo biên cột văn (column) biên đoạn ảnh văn (paragraph) Điểm mạnh thuật toán độ phức tạp tính tốn thấp, cho kết phân tách tốt trang ảnhcấu trúc hình chữ nhật (rectangle) tức trang ảnh mà vùng ảnh bao quanh hình chữ nhật không giáo nhao Tuy nhiên, chúng xử lý trang vùng ảnh hình chữ nhật (non-rectangular) 1.2.2 Hướng tiếp cận từ lên (bottom-up) Các thuật toán bottom-up tiêu biểu như: Smearing, Docstrum, Voronoi, Các thuật toán theo hướng tiếp cận bắt đầu với vùng nhỏ ảnh (các pixel điểm ảnh kí tự) nhóm vùng nhỏ có kiểu lại với để hình thành nên vùng ảnh Điểm mạnh hướng tiếp cận thuật tốn xử lý tốt trang ảnh với cấu trúc (rectangle non-rectangle) Điểm yếu thuật tốn bottom-up tốn nhớ, chậm, vùng nhỏ gộp lại với dựa tham số khoảng cách mà thông thường tham số ước lượng tồn trang ảnh nên thuật tốn thường nhạy cảm với giá trị tham số mắc lỗi chia nhỏ (over-segmentation) vùng ảnh văn bản, đặc biệt vùng chữ có khác biệt kích cỡ kiểu phơng 1.2.3 Hướng tiếp cận lai ghép (hybrid) Từ phân tích cho thấy ưu điểm hướng tiếp cận bottom-up nhược điểm hướng tiếp cận Top-down ngược lại Do đó, năm gần đầy có nhiều thuật toán phát triển theo hướng lai ghép top-down bottom-up, thuật toán tiêu biểu như: RAST , Tab-Stop , PAL , Các thuật toán phát triển theo hướng thường dựa đối tượng phân tách ví dụ như, vùng trắng hình chữ nhật, tab-stop, để suy cấu trúc cột văn Từ vùng ảnh xác định phương pháp bottom-up Các kết đánh giá cho thấy thuật toán lai ghép khắc phục phần hạn chế thuật tốn top-down bottom-up, thực trang ảnh với cấu trúc hạn chế vào tham số khoảng cách Tuy nhiên, việc xác định đối tượng phân tách lại toán gặp phải nhiều khó khắn nhiều lý do, ví dụ có vùng chữ gần nhau, vùng chữ lề, trái phải không thẳng hàng khoảng cách thành phần liên thông lớn, điều làm cho thuật toán thường mắc phải lỗi quên xác định nhầm đường phần tách dẫn đến kết phân tách lỗi 1.3 Các phương pháp tập liệu đánh giá thuật toán phân tách trang ảnh tài liệu 1.3.1 Độ đo Đánh giá thuật toán phân tích trang ảnh tài liệu ln vấn đề phức tạp phụ thuộc nhiều vào tập liệu, ground-truth phương pháp đánh giá Vấn đề đánh giá chất lượng thuật tốn phân tích trang nhận nhiều quan tâm Trong luận án sử dụng ba đô đo: F-Measure, PSET-Measure PRImA- Measure cho tất đánh giá thực nghiệm Độ đo PRImA-Measure sử dụng thành công thi phân tích trang quốc tế năm 2009, 2011, 2013, 2015 2017 1.3.2 Dữ liệu Trong luận án này, sử dụng ba tập liệu UW-III, tập liệu PRImA tập liệu UNLV để đánh giá thực nghiệm so sánh thuật tốn phân tích trang ảnh tài liệu Tập UWIII có 1600 ảnh, tập PRImA có 305 ảnh tập UNLV có 2000 ảnh Các tập liệu có ground-truth cấp độ đoạn văn cấp độ dòng chữ, biểu diễn đa giác khơng giáo Các trang ảnh quét với độ phân giải 300 DPI trỉnh lại độ nghiêng Nó chứa nhiều trang ảnh đa dạng kiểu trang ảnh, phản ảnh nhiều thách thức phân tích trang Cấu trúc trang ảnh chứa đựng pha trộn từ đơn giản đến phức tạp, gồm nhiều ảnhphần chữ bao quanh trang ảnh, có thay đổi lớn kích cỡ kiểu phơng chữ Do đó, tập liệu tốt để thực đánh giá so sánh thuật tốn phân tích trang 1.4 Kết luận chương Chương giới thiệu cách tổng quan lĩnh vực nhận dạng văn bản, phân tích trang khâu quan trọng Cho đến tốn phân tích trang vấn đề nhiều nghiên cứu nước quan tâm Đã có nhiều thuật tốn phân tích trang đề xuất, đặc biệt thi phân tích trang quốc tế (ICDAR) Tuy nhiên thuật toán mắc phải hai lỗi bản: over-segmentation under-segmentation Vì vậy, luận án tập trung nghiên cứu giải pháp cho tốn phân tích trang ảnh tài liệu Có ba hướng tiếp cận cho tốn phân tích trang ảnh tài liệu: top-down, bottom-up hybrid Trong đó, hybrid hướng tiếp cận phát triển mạnh giái đoạn gần khắc phục nhược điểm hai hướng tiếp cận top-down bottom-up Bởi lý đó, luận án phân tích trọng tâm vào thuật toán hybrid, đặc biệt kĩ thuật phát sử dụng đối tượng phân tách thuật toán hybrid Chương luận án trình bày kĩ thuật phát trang ảnh nhanh, kĩ thuật sử dụng module thuật toán đề xuất Chương CHƯƠNG THUẬT TOÁN NHANH PHÁT HIỆN NỀN TRANG ẢNH TÀI LIỆU Chương trình bày ưu, nhược điểm hướng tiếp cận dựa trang ảnh phân tích trang ảnh tài liệu, thuật tốn phân tích trang WhiteSpace, thuật tốn phát trang ảnh nhanh cuối kết thực nghiệm 2.1 Ưu nhược điểm hướng tiếp cận dựa trang ảnh phân tích trang ảnh tài liệu Về mặt trực quan, nhiều trường hợp thấy phát trang ảnh dễ dàng hơn, đồng thời dựa trang ảnh dễ dàng tách trang ảnh thành vùng ảnh khác Do vậy, từ sớm có nhiều thuật tốn phân tích trang dựa trang ảnh phát triển, ví dụ điển hình như, X-Y Cut, WhiteSpace-Analysis, WhiteSpace-Cuts, gần có nhiều thuật tốn mạnh dựa trang ảnh phát triển, ví dụ như, Fraunhofer (chiến thắng IC- DAR2009), Jouve (chiến thắng ICDAR2011), PAL (chiến thắng ICDAR2013), Khơng phân tích trang, hướng tiếp cận dựa trang ảnh ứng dụng rộng rãi toán phát bảng, phân tích cấu trúc bảng, phân tích cấu trúc logic Qua ví dụ thấy hướng tiếp cận dựa trang ảnh có nhiều ưu điểm Đã có nhiều thuật tốn khác phát triển để phát trang ảnh, ví dụ X-Y Cuts, WhiteSpace-Analysis, WhiteSpace-Cuts (sau gọi tắt WhiteSpace), Trong đó, WhiteSpace biết đến thuật tốn hình học tiếng việc phát trang ảnh, thuật tốn có mã nguồn mở OCROpus sử dụng rộng rãi bước để phát triển thuật toán Tuy nhiên, thuật tốn WhiteSpace có hạn chế thời gián thực thi chậm, xem Hình Do đó, việc tăng tốc thuật tốn WhiteSpace có nhiều ý nghĩa thực tiến Hình 2: Minh họa thời gián thực thi trung bình thuật toán 2.2 Thuật toán phát trang ảnh (WhiteSpace) cho tốn phân tích trang 2.2.1 Định nghĩa Vùng trắng lớn trang ảnh định nghĩa hình chữ lớn nằm hình bao trang ảnh khơng chữ kí tự nào, xem Hình Hình 3: Hình chữ nhật màu xanh thể hiển cho vùng trắng lớn tìm 2.2.2 Thuật tốn tìm vùng trắng lớn Thuật tốn tìm vùng trắng lớn (sau gọi MaxWhitespace) áp dụng cho đối tượng điểm hình chữ nhật Ý tưởng mẫu chốt thuật toán phương pháp nhánh cận thuật tốn Quicksort Hình a) minh họa giả code thuật toán bước chia hình chữ nhật thành hình chữ nhật Trong khuôn khổ luận án này, đầu vào thuật tốn tập hình chữ nhật rectangles (hình bao kí tự), hình chữ nhật bound (hình bao trang ảnh) hàm quality(rectangle) trả diện tích hình chữ nhật, xem Hình 4.a) Thuật toán định nghĩa trang thái (state) bao gồm hình chữ nhật r, tập hình chữ nhật obstacles (hình bao kí tự) nằm hình chữ nhật r diện tích hình chữ nhật r (q = quality(r)) Trạng thái 𝑠𝑡𝑎𝑡𝑒𝑖 định nghĩa lớn trạng thái 𝑠𝑡𝑎𝑡𝑒𝑗 𝑞𝑢𝑎𝑙𝑖𝑡𝑦(𝑟𝑖 ) > 𝑞𝑢𝑎𝑙𝑖𝑡𝑦(𝑟𝑗 ) Hàng đợi ưu tiên queue sử dụng để lưu trữ trạng thái Mỗi vòng lặp thuật toán lấy trạng thái state = (q, r, obstacles) đầu hàng đợi ưu tiên, trạng thái mà hình chữ nhật r có diện tích lớn Nếu khơng có hình chữ nhật obstacles chứa r r vùng trắng hình chữ nhật lớn tìm thuật tốn kết thúc Ngược lại, thuật tốn chọn hình chữ nhật obstacles làm chốt (pivot), cách chọn tốt gần tâm hình chữ nhật r tốt, xem Hình 4.b) Chúng ta biết vùng trắng lớn khơng chứa hình chữ nhật obstacles khơng chứa pivot Do đó, có bốn khả xảy vùng trắng lớn nhất: bên trái bên phải pivot, xem Hình 4.c), bên bên pivot, xem Hình 4.d) Tiếp theo, thuật tốn xác định hình chữ nhật obstacles giáo với hình chữ nhật này, có bốn hình chữ nhật 𝑟0 , 𝑟1 , 𝑟2 , 𝑟3 sinh từ hình chữ nhật 𝑟, xem Hình tính tốn chặn vùng trắng lớn có hình chữ nhật tạo ra, chặn lựa chọn diện tích hình chữ nhật Các hình chữ nhật với obstacles nằm chặn tương ứng với đẩy vào hàng đợi ưu tiên bước lặp lại xuất trạng thái với hình chữ nhật r khơng chữ obstacles Hình chữ nhật nghiệm tồn cục tốn tìm vùng trắng lớn a) b) c) d) Hình 4: Mơ tả bước chia trang ảnh thành bốn miền thuật tốn tìm vùng trắng lớn nhất, (a) hình bao hình chữ nhật, (b) điểm chốt tìm được, (c, d) miền trái/phải trên/dưới a) b) Hình 5: a) minh họa giả code thuật tốn tìm vùng trắng lớn b) minh họa thuật tốn tìm vùng trắng bao phủ trang ảnh 2.2.3 Thuật toán phát trang ảnh Để phát trang ảnh thuật tốn đề xuất mơ đun thuật tốn WhiteSpace áp dụng thuật tốn MaxWhitespace Để tìm m — Whitespace vùng trắng (với m — Whitespace khoảng 300 đủ Để mô tả tốt trang ảnh), sau thuật toán phát gọi WhiteSpaceDetection Sơ đồ thuật toán the Hình b) 2.3 Tăng tốc thuật tốn phát trang ảnh Để tìm vùng trắng bao phủ trang ảnh, thuật tốn tìm vùng trắng chia đệ quy trang ảnh thành vùng cho vùng tìm khơng chứa kí tự Tại lần lặp thuật toán chia vùng trang ảnh thành bốn miền khác nhau, xem Hình Quá trình tạo thành tứ phân vòng lặp lớn số lượng miền cần xem xét đến lớn Chính thời gián thực thi thuật tốn thường chậm Do đó, để tăng tốc thuật toán phát trang ảnh cần phải làm giảm tối đa số vùng cần phải xét đến, cách hạn chế sinh nhanh khơng cần thiết tứ phân Hình cho thấy miền Z G (Vùng ông bà) chia làm bốn miền con: miền Z P T , miền Z P B , miền trái Z P L miền phải Z P R Tiếp tục chia miền Z P T , miền phải Z C T R nằm trọn miền Z P R , nên xét đến miền Z P R xem xét miền Z C T R , hay miền Z C T R xem xét lại Ví dụ minh họa Hình cho thấy miền Z C R T miền Z P R xét lại miền Z C T R Quá trình phân chia tạo thành tứ phân xuống sâu có nhiều vùng bị xem xét lại nhiều lần Trong chương này, luận án đề xuất giải pháp làm giảm tối đa số miền bị xét lại Thuật toán đề xuất (sau gọi Fast-WhiteSpaceDetection) không sinh miền mà nằm trọn vẹn miền trước đó, cách dựa vào vị trí tương đối Pivot miền xét với Pivot miền cha Như ví dụ Hình 6, miền Z C T R không sinh nằm miền (Z P R ) Tuy nhiên, xem xét loại bỏ miền theo cặp, miền trái/phải miền trên/dưới, tất miền xem xét Có nghĩa là, xem xét loại bỏ miền trái/phải khơng xem xét loại bỏ miền trên/dưới nữa, ngược lại xem xét loại bỏ tất bốn miền có vùng khơng xét đến, dẫn đến bỏ sót số vùng trắng Ví dụ Hình 6, xét loại bỏ bốn miền miền Z C T R Z C R T bị loại bỏ nên phần vùng giáo hai miền không xét đến Do đó, thuật tốn Fast-WhiteSpaceDetection cải tiến bước sinh miên sau (Hình 7):  Sinh miền  Sinh miền  Sinh miền trái tọa độ trái Pivot lớn tọa độ trái Pivot miền cha hai Pivot không chồng lên theo chiều dọc  Sinh miền phải tọa độ phải Pivot nhỏ tọa độ phải Pivot miền cha hai Pivot chồng lên theo chiều dọc 2.4 Thuật toán WhiteSpace thuật tốn Fast-WhiteSpace 2.4.1 Thuật tốn WhiteSpaceThuật Hình 6: Minh họa mặt hạn chế dẫn đến làm giảm tốc độ bước tìm vùng trắng thuật tốn WhiteSpaceDetection Miền Z C T R , ZC RT miền chúng xét lại nhiều lần a) b) Hình 7: Minh họa trường hợp sinh miền thuật toán WhiteSpaceDe- tection thuật tốn Fast-WhiteSpaceDetection Hình a) minh họa kết sinh bốn miền thuật tốn WhiteSpaceDetection Hình b) minh họa kết sinh miền thuật toán Fast-WhiteSpaceDetection Phân tích cấu trúc trang ảnh hướng tiếp cận phát triển nhiều tác giả Tuy nhiên hướng tiếp cận khó cài đặt thực nghiệm, yêu cầu số lượng lớn cấu trúc liệu hình học chi tiết với nhiều trường hợp đặc biệt Bởi phương pháp khơng áp dụng rộng rãi Thuật tốn WhiteSpace đề xuất Breuel phát biểu cài đặt đơn giản, xem xét đến trường hợp đặc biệt Các bước thuật tốn bao gồm: Bước (Hình b): Tìm phân loại thành phần liên thơng thành ba nhóm dựa vào kích 10 Trong chương này, luận án trình bày lợi có từ hướng tiếp cận dựa trang ảnh cụ thể hóa dẫn chứng thuật toán mạnh dựa trang ảnh phát triển Luận án trình bày thuật toán phát WhiteSpaceDetection thuật toán phát trang ảnh nhanh Fast- WhiteSpaceDetection Các kết thực nghiệm chứng tỏ thuật toán WhiteSpace cải tiến (sử dụng Fast-WhiteSpaceDetection làm mô đun) đạt tốc độ thực thi nhanh vượt trội, đồng thời độ xác khơng thay đổi so với thuật tốn gốc a) b) Hình 9: Minh họa thời gián thực thi độ xác thuật tốn Fast-WhiteSpace so thuật toán WhiteSpace thuật toán tiêu biểu: a) thời gián thực thi, b) độ xác 12 CHƯƠNG THUẬT TOÁN PHÂN TÁCH TRANG ẢNH TÀI LIỆU HP2S VÀ AOSM Chương trình bày hai thuật tốn phân tích trang ảnh tài liệu: thuật tốn lai ghép phân tích trang cấp độ đoạn văn (A hybrid paragraph-level page segmentation - sau gọi tắt thuật tốn HP2S), thuật tốn phân tích trang tách q gộp lại phương pháp tham số thích nghi (Adaptive over-split and merge for page segmentation - sau gọi tắt thuật tốn AOSM) Phần trình bày mơ hình phân tích trang hai thuật tốn HP2S AOSM Phần hai trình bày giái đoạn gom cụm từ thành phân liên thông thành vùng văn thuật tốn HP2S Phần ba trình bày hai giái đoạn thuật toán AOSM: giái đoạn tách trang ảnh thành vùng chữ ứng cử viên, giái đoạn gộp vùng chữ bị phân tách nhỏ thành vùng chữ Giái đoạn tách vùng chữ thành đoạn văn trình bày phần bốn Cuối kết thực nghiệm tập liệu thi phân tích trang năm 2009, 2015, 2017, tập liệu UWIII tập liệu UNLV 3.1 Mơ hình phân tích trang hai thuật tốn HP2S AOSM Các thuật tốn phân tích trang theo hướng tiếp cận lai ghép (hybrid) kết hợp hai hướng tiếp cận từ xuống từ Trong năm gần có nhiều thuật tốn mạnh phát triển theo hướng tiếp cận lai ghép Ý tưởng chung hướng tiếp cận lai ghép sử dụng thông tin cấp độ thấp (thông thường thành phần liên thông) để xác định đối tượng phân tách từ suy cấu trúc cột trang ảnh Tức suy trang ảnh có cột văn cột văn nằm phía khác đối tượng phân tách Sau đó, áp dụng phương pháp gom cụm để nhóm thành phần cấp độ thấp thành vùng chữ Cuối tách vùng chữ thành đoạn văn Trong phần luận án trình bày mơ hình phân tích trang hai thuật tốn HP2S AOSM, xem Hình 10 Từ mơ hình 10 thấy HP2S AOSM áp dụng chung phương pháp tách vùng chữ thành đoạn văn Tuy nhiên, để xác định vùng chữ hai thuật toán sử dụng hai cách tiếp cận khác nhau, xem Hình 11 HP2S sử dụng hướng tiếp cận từ lên để gom cụm thành phân liên thơng thành vùng chữ Trong đó, AOSM sử dụng hướng tiếp cận từ xuống để chia trang ảnh thành vùng chữ ứng cử viên, sau áp dụng phương pháp tham số thích nghi để nhóm vùng chữ bị tách nhỏ lại với Hình 10: Mơ hình chung hai thuật tốn HP2S AOSM 13 a) b) Hình 11: Sơ đồ thuật toán hai thuật toán HP2S AOSM: a) thuật toán HP2S, b) thuật toán AOSM 3.2 Thuật tốn HP2S Trong phần này, luận án trình bày bước xác định vùng chữ thuật tốn HP2S Q trình gồm ba bước minh họa Hình 12 Bước đầu tiên, thuật tốn phát đường phân tách (sau gọi tab — line) cột văn Bước 2, thuật toán sử dụng phép biến đổi Hough với tab — line để xác định dòng chữ Cuối cùng, dòng chữ nhóm lại thành vùng chữ Chi tiết bước trình bày mục , , 3.2.1 Phát hiên đường phân tách Hình 12: Các bước q trình xác định vùng chữ thuật tốn HP2S Thuật tốn Tab-Stop trình bày vấn đề phát đường phân tách (tab-line) dãy kí tự đầu cuối dòng chữ (tab-stop) thẳng hàng theo phương dọc Các đường phần tách sử dụng để thay cho phân tách vật lý hay khoảng trắng hình chữ nhật việc phát cấu trúc cột trang ảnh tài liệu Trong phần này, tơi trình bày phương pháp đơn giản để phát tab-lines Thuật toán HP2S đề phương pháp xác định tab - line thực bước hơn, đơn giản dễ dàng cài đặt thực nghiệm 3.2.2 Xác Định dòng chữ Trước tiên, phép biến đổi Hough thực tập hợp trung điểm cạnh đáy kí tự để từ tìm dãy kí tự thẳng hàng theo phương ngang Mỗi dãy kí tự thẳng hàng theo phương ngang ứng cử viên tốt để tạo thành dòng chữ Mỗi dãy kí tự gọi dòng chữ ứng cử viên, xem Hình 13 14 Đối với dòng chữ ứng cử viên, thuật tốn ước lượng khoảng cách theo phương ngang kí tự từ kề theo phương ngang, khoảng cách từ kí hiệu dw Khoảng cách d w 14 sử dụng với đường phân tách để tách dòng chữ ứng cử viên thành dòng chữ sau: hai kí tự kề theo phương ngang thuộc dòng chữ chúng khơng nằm hai phía đường phân tách đồng thời khoảng cách theo phương ngang chúng không vượt hai lần dw Sự kết hợp đường phân tách với phương pháp truyền thống từ lên để xác định dòng chữ giúp thuật tốn tách dòng chữ cột văn gần Trong số trường hợp khoảng cách hai cột gần tương đương với khoảng cách từ dòng chữ ứng cử viên (13a) Tuy nhiên, tồn đường phân tách theo phương đứng giúp thuật tốn tách dòng chữ ứng cử viên thành dòng chữ khác năm cột khác nhau, xem Hình 13b) Khi cột văn khơng lề thẳng hàng khơng tồn đường phân khí tham số dw hữu ích q trình xác định dòng chữ Hầu hết trường hợp này, khoảng cách dòng chữ d lớn khoảng cách từ dw (Hình 14) Khác với thuật toán bottom-up truyền thống, thuật toán không sử dụng tham số dw cho tất dòng chữ ứng cử viên Tham số dw ước lượng tập kí tự có kích cỡ phơng chữ tương tự thuộc dòng chữ ứng cử viên Do đó, điều giúp thuật toán giảm đáng kề lỗi phân mảnh dòng chữ, đặc biệt dòng chữ phần tiêu đề (Hình 13b) a) b) Hình 13: Minh họa đường phân tách sử dụng trình xác định dòng chữ a) minh họa dòng chữ ứng cử viên Các kí tự nằm phía khác đường phân tách thuộc dòng chữ khác b) Các dòng chữ kết xác định thuật toán a) b) Hình 14: a) dòng chữ ứng cử viên, b) trường hợp không tồn đường phân tách, d w sử dụng để tách kí tự thành dòng chữ Trong số trường hợp, ví dụ vùng chữ phần liệu tham khảo đoạn văn bắt đầu với kí tự đặc biệt, vùng chữ thường lề thẳng hàng thụt vào so với số kí tự đặc biệt Do đó, đường phần tách tách số hay kí tự đặc biệt khỏi dòng chữ Để khắc phục kiểu lỗi này, trước tiên chúng tơi tìm thêm tab-stop ứng cử viên áp dụng phương pháp tìm tab-stop tương tự mục với chiều rộng hình chữ nhật kề phải chiều rộng kí tự xét Sau đó, tab-stop ứng cử viên tìm mà giáo với tab-stop ứng cử viên trái xác định từ mục cập nhật tab-stop phần tài liệu tham khảo kí tự đặc biệt kí hiệu m - tabs Các m - tabs kí tự bị tách khỏi dòng chữ xuất đường phân tách Cuối cùng, thuật toán kết hợp m - tabs với dòng chữ kề phải gán nhán dòng chữ phân tách Các dòng chữ phân tách sử dụng lại mục để xác định đoạn văn 15 3.2.3 Gom cụm dòng chữ thành vùng chữ Trong phần này, trình bày q trình gom cụm dòng chữ thành vùng chữ Hướng tiếp cận bottom-up sử dụng để nhóm dòng chữ gần kề để hình thành vùng chữ với hình bao Tập dòng chữ xác định từ phần trước xếp lại theo thứ tự từ trái qua phải, từ xuống Một cặp dòng chữ (𝑙𝑖𝑛𝑒𝑖 , 𝑙𝑖𝑛𝑒𝑗 ) thỏa mãn đồng thời điều kiện nhóm vào vùng chữ a) b) c) Hình 15: a) Ảnh gốc, b) đường phân tách, c) vùng chữ xác định Trong điều kiện trên, DisHoriz(.,.) khoảng cách theo phương ngang dòng chữ AvgHoriz khoảng cách trung bình theo phương ngang dòng chữ, 𝑦𝑖 𝑦𝑗 tung độ tâm dòng chữ line i 𝑙𝑖𝑛𝑒𝑗 𝑥 − ℎ𝑒𝑖𝑔ℎ𝑡𝑖𝑗 giá trị nhỏ 𝑥 − ℎ𝑒𝑖𝑔ℎ𝑡𝑖 𝑥 − ℎ𝑒𝑖𝑔ℎ𝑡𝑗 CheckTabline (., ) trả giá trị true hai dòng chữ nằm hai phía dòng đường phân tách bất kì, ngồi trả giá trị false CheckRulling (., ) trả giá trị true hai dòng chữ nằm hai phía khác kẻ ngang, ngồi trả giá trị false Các điều kiện (i) (ii) đảm bảo tách dòng chữ thành cột khác Điều thực cách sử dụng kết hợp đường phân tách điều kiện gom cụm chặt chẽ Điều kiện (iv) cho phép nhóm dòng chữ có kích cỡ phơng chữ tương tự chồng lên theo chiều dọc Điều đáng giá điều kiện (iv) ủng hộ dòng chữ có kích cỡ phơng chữ tương tự trở nên nghiêm ngặt kích cỡ phơng chữ khác Trong khía cạnh khác, khoảng cách tâm hai dòng chữ phía bên trái (iv) tính kích cỡ phơng chữ lớn bên trái (iv) tính kích cỡ phơng nhỏ Kết thực nghiệm Hình 26 cho thấy HP2S nhạy cảm với giá trị thám số 𝜃 Các giá trị 𝜃 phù hợp phạm vị 1.4 đến 1.6 Do đó, thuật tốn sử dụng giá trị mặc định 1.5 cho tất thực nghiệm 3.3 Thuật tốn AOSM Trong phần này, luận án trình bày q trình xác định vùng chữ thuật tốn AOSM Q trình gồm hai giái đoạn sau (Hình 16): Giái đoạn 1: Tách trang ảnh thành vùng chữ ứng cử viên Giái đoạn 2: Gộp vùng chữ ứng cử viên bị tách lại thành vùng chữ 16 Hình 16: Các bước trình xác định vùng chư thuật toán AOSM 3.3.1 Xác định vùng chữ ứng cử viên Các phân tách phổ biến áp dụng thuật toán Hybrid hàng đầu vùng trắng hình chư nhật, ví dụ thuật toán RAST, Fraunhofer hay dây chuyên vùng trắng, ví dụ PAL hay dây chuyên kí tự đầu cuối dòng, ví dụ TabStop, ETIPA Các phương pháp dựa phân tách phụ thuộc vào hai bước:  Bước 1: trích rút phân tách ứng cử viên,  Bước 2: lựa chọn nhóm phân tách ứng cử viên thành đường phân tách tốt Do đó, thuật toán hybird thường nhạy cảm vào kết trình phát đối tượng phân tách, xác định thiếu dẫn đến lỗi under-segmentation, xác định sai dẫn đến lỗi over-segmentation Để khắc phục nhược điểm bước xác định phân tách giải pháp đơn giản hiệu sau:  Bước 1: để trích rút phân tách ứng cử viên (vùng trắng) sử dụng thuật toán WhiteSpace, thuật toán phát đơn gián hiệu đặc biệt thuật toán có mã nguồn mở  Bước 2: tập vùng trắng ứng cử viên tìm bước sử dụng làm phân tách để từ chia trang ảnh thành vùng chư ứng cử viên Với cách tiếp cận thuật tốn AOSM khắc phục hạn chế nhược điểm cácphương pháp phát phân tách mạnh Một điều thú vị vùng chữ ứng cử viên xác định cách dễ dàng cách loại bỏ đối tượng phân tách, xem Hình 17 c) 17 d) Đồng thời kết việc phân tích sử dụng tồn vùng trắng khắc phục hoàn toàn lỗi under-segmentation bị gây cấu trúc trang hay vùng trang ảnh gần Tuy nhiên, có vùng chữ bị phân tích q nhỏ (over-segmentation), xem Hình 17 Các vùng chữ bị tách nhỏ kiểm sốt khắc phục giai đoạn thuật toán AOSM 17 Hình 17: Minh họa bước kết giải đoạn 1: a) ảnh gốc đầu vào; b) hình chữ nhật thể vùng trắng tìm được; c) kết trình "đồ mực"; d) vùng chữ ứng cử viên 3.3.2 Gom cụm vùng chữ bị over-segmentation Những vùng mà có số dòng chữ đủ nhỏ xem mắc lỗi over-segmentation Tất dòng chữ thuộc vùng chữ nhóm lại với phương pháp tham số thích nghi phát biểu sau: Hai dòng chữ 𝑙𝑖𝑛𝑒𝑖 𝑙𝑖𝑛𝑒𝑗 (thuộc hai vùng chữ lân cận) xem xét để nhóm vào vùng thỏa mãn điều kiện (xem Hình 18) đây, 𝑦𝑖 𝑦𝑗 tung độ tâm dòng chữ 𝑙𝑖𝑛𝑒𝑖 𝑙𝑖𝑛𝑒𝑗 , x — height chiều cao kí tự xuất nhiều dòng chữ, 𝑥 − ℎ𝑒𝑖𝑔ℎ𝑡𝑖𝑗 chiều cao 𝑥— ℎ𝑒𝑖𝑔ℎ𝑡 nhỏ hai dòng chữ Tham số 𝜃 sử dụng để xác định khoảng cách lân cận theo phương thẳng đứng hai dòng chữ vùng ảnh Những điều kiện có nghĩa hai dòng chữ nhóm vào vùng chúng đủ gần theo phương ngang (i) đủ gần theo phương dọc (ii) Một vấn đề đáng giá điều kiện (ii) cho phép thuật tốn khơng đánh giá khoảng cách theo phương dọc dòng chữ mà đánh giá chênh lệch kích cỡ phơng chữ dòng chữ Điều kiện (ii) ủng hộ việc nhóm hai dòng chữ có kích cỡ phơng tương tự nghiêm khắc với dòng chữ có kích cỡ phơng khác nhiều Các kết thực nghiệm cho thấy thuật tốn AOSM nhạy cảm với tham số 𝜃 (Hình 26) giá trị phù hợp 𝜃 khoảng 1.4 1.6 Do đó, giá trị mặc định 1.5 lựa chọn tất thực nghiệm Giá trị 1.5 tương ứng với giãn dòng 1.5 chiều cao dòng chữ nhiều định dạng văn Hình 18: Minh họa cho phương pháp tham số thích nghi Hai dòng chữ 𝑙𝑖𝑛𝑒𝑖 , 𝑙𝑖𝑛𝑒𝑗 có khoảng cách theo phương dọc lớn khoảng cách theo phương dọc hai dòng chữ 𝑙𝑖𝑛𝑒𝑖 , 𝑙𝑖𝑛𝑒𝑘 Tuy nhiên, hai dòng chữ 𝑙𝑖𝑛𝑒𝑖 , 𝑙𝑖𝑛𝑒𝑗 xem xét nhóm |𝑦𝑖 − 𝑦𝑗 | < (1 + 𝜃) ∗ 𝑥 − ℎ𝑒𝑖𝑔ℎ𝑡𝑖𝑗 , hai dòng chữ 𝑙𝑖𝑛𝑒𝑖 , 𝑙𝑖𝑛𝑒𝑘 lại khơng thuộc nhóm |𝑦𝑘 − 𝑦𝑗 | < (1 + 𝜃) ∗ 𝑥 − ℎ𝑒𝑖𝑔ℎ𝑡𝑗𝑘 18 Hình 19 ví dụ nhóm dòng chữ bị phân tách nhỏ thành vùng chữ Các dòng chữ vùng tiêu đề thường bị phân tách nhỏ khoảng cách dòng chữ lớn Thuật tốn AOSM gộp dòng chữ vào vùng chữ dựa tương tự chiều cao liên hệ khoảng cách chúng Các dòng chữ vùng tiêu đề dòng chữ phần nội dung khơng bị nhóm lại với khoảng cách tương quan tâm dòng chữ lớn a) b) Hình 19: Minh họa kết q trình nhóm dòng chữ bị over-segmentation: a) dòng chữ bị oversegmentation; b) kết sau gom cụm 3.4 Xác định đoạn văn 3.4.1 Định nghĩa dòng chữ phân tách Để tách vùng chữ thành đoạn văn thuật toán HP2S AOSM sử dụng năm kieu dòng chữ phân tách minh họa Hình 20 a) b) c) d) e) Hình 20: Các hình chữ nhật "nét đứt” the cho dòng chữ phân tách định nghĩa Tách vùng chữ thành đoạn văn Những khó phân tích trang văn không cấu trúc trang ảnh văn phức tạp hay thay đổi kiểu hay kích cỡ phơng chữ mà vấn đề khoảng cách vùng chữ gần Khoảng dòng chữ, vùng chữ đơi nhỏ khoảng cách từ dòng chữ Đây thách thức mà hầu hết thuật tốn phân tích trang dựa đối tương phân tách việc phân tích thành phần liên thơng thất Để vượt qua khó khăn này, thuật toán HP2S AOSM sử dụng tập dòng chữ phân tách để chia nhỏ vùng chữ đoạn văn Quá trình xác định đoạn văn thực sau: thuật toán duyệt từ xuống từ lên vùng chữ để khơng cắt qua dòng chữ phân tách (Hình 20.b) hay 20.c), chia tiếp vùng thành vùng (Bước Hình 21.d) Và sau đó, dòng chữ vùng xếp lại theo thứ tự dọc ngang, (bước Hình 21.d) Cuối cùng, đoạn văn xác định cách sử dụng dòng chữ phân tách Hình 20.a), 20.d) 20.e) (bước Hình 21.d) 19 Như minh họa Hình 21, dòng chữ phân tách cho thấy hiểu việc phân tách vùng chữ có kích phơng tương tự nhau, gần có cấu trúc phức tạp Những thuật toán top-down bottom-up truyền thống thất bại trường hợp a) b) c) d) Hình 21: Tách vùng chữ thành đoạn văn bản: a) kết phân tách không sử dụng dòng chữ phân tách, b) dòng chữ "tơ đậm" dòng chữ phân tách, d) vùng chữ tách sử dụng dòng chữ phân tách, e) kết phân tách cuối 3.5 Thực nghiệm thảo luận 3.5.1 Các thuật tốn, tập liệu đo Trong phần này, luận án trình bày kết đánh giá thực nghiệm thuật toán HP2S, AOSM Fast-AOSM (Fast-AOSM thuật tốn AOSM sử dụng mơ đun tìm nhanh vùng trắng trình bày Chương 2) với thuật toán tiêu biểu cho hướng tiếp cận thuật tốn phân tích trang, hệ thống phân tích trang tốp đầu thi phân tích trang quốc tế ICDAR2009, ICDAR2015 ICDAR2015, sản phẩm thương mại hệ thống mã nguồn mở tiếng  Các thuật toán tiêu biểu cho hướng tiếp cận to-down, bottom –up hybrid bao gồm thuật toán: Docstrum, Voronoi, WhiteSpace, Tab-Stop  Các hệ thống tốp đầu thi phân tích trang quốc tế ICDAR2009, ICDAR2015 ICDAR2017  Các sản phẩm thương mại tiếng: Fine Reader 8.1, 10, 11 12 sau kí hiệu là: FRE 8.1, FRE 10, FRE 11, FRE 12  Các hệ thống mã nguồn mở tiếng: OCRopus 0.3.1, Tesseract 3.02, Tesseract 3.03, Tesseract 3.04 Các kết thực nghiệm thực tập liệu tiếng UWIII, UNLV, ICDAR2009 dataset, ICDAR2015 dataset ICDAR2017 dataset Các độ đo mà sử dụng bao gồm F-Measure, PSET độ đo PRImA với ngữ cảnh đánh giá khác sử dụng để đánh giá thành công thuật tốn phân tích trang thi ICDA2009, ICDAR2011, ICDAR2013 ICDAR2015 20 3.5.2 Các kết thực nghiêm thảo luận a) b) Hình 22: Kết thiệm thuật toán HP2S AOSM tập liệu ICDAR2009 so với thuật toán tốp đầu thi năm 2009, a) kết với độ đo F-Measure, b) kết với độ đo PRImA a) b) Hình 23: Độ xác thuật tốn HP2S Fast-AOSM so với kết tốp đầu công bố thi ICDAR2015, ICDAR2017 thực hiên ngữ cảnh độ đo PRImA a) kết tập liệu UNLV, b) kết tập liệu ICDAR2017 Độ xác thuật toán Docstrum, Voronoi, WhiteSpace, Tab-Stop AOSM hai tập liệu thể hình 25 Vì trang ảnh tập liệu a) b) Hình 24: Độ xác kiểu lỗi thuật tốn Fast-AOSM so với thuật tốn tơp đầu thi năm 2015 thực tập liệu ICDAR2015 a) độ xác, b) kiểu lỗi ngữ cảnh OCR 21 a) b) Hình 25: So sánh độ xác kiểu lỗi thuật toán HP2S AOSM với thuật toán tiêu biểu với độ đo PSET a) độ xác thuật toán hai tập liệu tập liệu UW-III and ICDAR2009 dataset b) kiểu lỗi khác tập liệu ICDAR2009 dataset UW-III có cấu trúc đơn giản (hầu hết cấu trúc rectangular), hầu hết thuật tốn có độ xác cao, cụ thể Docstrum 92.87%, Tab-Stop 90.42% Hầu hết lỗi thuật tốn over-segmentation phần tiêu đề với kích cỡ phơng lớn Với bước nhóm sử dụng tham số thích nghi, thuật toán HP2S AOSM khắc khục hồn tồn lỗi đầy độ xác thuật toán lên 93.95% 93.12% so với 92.87% Docstrum, minh họa hình 25 Thuật tốn HP2S AOSM khắc phục hoàn toàn lỗi oversegmentation xảy vùng chữ tiêu đề kết ấn tượng Tuy nhiên, phần trăm độ xác tăng lên khơng đáng kể so với thuật tốn Docstrum, điều số lượng trang ảnh có tiêu đề với kích cỡ phơng lớn tập ảnh UW-III khơng nhiều, đồng thời số dòng chữ vùng thường chiếm số lượng so với đa số Tập liệu ICDAR2009 có phân bố liệu đa dạng với cấu trúc liệu trang ảnh từ đơn giản đến phức tạp, kích cỡ phơng kiểu phơng chữ trang ảnh có nhiều thay đổi có nhiều tình thách thứ mà hầu hết thuật tốn khơng thể vượt qua Trên tập liệu khó nhiều vậy, thuật toán HP2S AOSM thể cải tiến vượt trôi cho với thuật tốn lại, cụ thể: độ xác HP2S 91.84% AOSM 86.43% so với thuật tốn đứng thứ hai Tab-Stop 76.68% (Hình 25) Kết đánh giá với độ đo PRImA thể rõ vượt trội HP2S AOSM với thuật toán khác, cụ thể: 92.72% HP2S 92.63% AOSM so với 82.37% thuật toán đứng thứ hai Fraunhofer (Hình 22) Hình 25 b) trình bày kiểu lỗi thường bị mắc phải thuật toán Sự phức tạp tập liệu ICDAR2009 làm cho thuật tốn gặp khó khăn việc xác định tham số ngưỡng xác định đối tượng phân tách Hầu hết thuật toán thất bại việc giảm đồng thời hai kiểu lỗi over-segmentation under-segmentation, ví dụ Docstrum có lỗi over-segmentation (split) thấp 3.16% lại bị lỗi under-segmentation (merge) 26.02% , số tương ứng Tab-Stop 6.11% lỗi split 17.07% lỗi merge Thuật toán AOSM giảm lỗi merge, split xuống thành 9.17% 4.28% Hình 23 thể độ xác thuật tốn HP2S Fast-AOSM so với hệ thống tốp đầu thi phân tích trang quốc tế năm 2015 2017 Trên tập liệu UNLV thuật tốn HP2S Fast-AOSM đứng vị trí thứ tư thứ hai Thuật toán AOSM đứng thứ ba tập liệu ICDAR2017 với ngữ cảnh "text" Hệ thống MHS đứng vị trí thứ hai năm 2015 2017 tất ngữ cảnh Hình 24 minh họa độ xác kiểu lỗi: merge, split, miss/partail miss, missclassification, false detection thuật toán Fast-AOSM với kết tộp đầu 22 thi phân tích trang năm 2015 Thuật tốn Fast-AOSM đứng vị trí thứ ba sau hệ thống ISPL MHS Có thể thấy thuật tốn Fast-AOSM giảm đồng thời hai kiểu lỗi over-segmentation under-segmentation tốt thuật tốn lại, cụ thể 17.35% lỗi merge 5.18% lỗi split thuật toán Fast-AOSM so với hệ thống đứng đầu MHS 18.5% lỗi merge 5.63% lỗi split Tuy nhiên, độ xác thuật tốn Fast-AOSM lại thấp so với hệ thống MHS Điều MHS bao gồm mô đun tốt xác định vùng ảnh vùng bảng lỗi miss/partail miss thấp, cụ thể 0.26% lỗi miss/partail miss so với 17.58% lỗi miss/partail miss thuật toán Fast-AOSM Đối với tham số ngưỡng thích nghi sử dụng việc kết hợp hai dòng chữ lại với trình bày phần Chúng tơi tiến hành thí nghiệm với giá trị 𝜃, thay đổi từ 1.0 đến 2.0, tập liệu ICDAR2009 Như nhìn thấy Hình 26, kết thuật tốn HP2S AOSM thay đổi không nhạy cảm theo giá trị 𝜃 Sự nhạy cảm tham số 𝜃 tới điều kiện nhóm dựa thật khác kích cỡ phơng chữ phản ánh phần tính tốn khoảng cách tâm hai dòng chữ ngưỡng khoảng cách dựa minimum chiều cao 𝑥 − ℎ𝑒𝑖𝑔ℎ𝑡 hai dòng chữ Nói cách khác, thuật tốn HP2S AOSM ủng hộ việc nhóm hai dòng chữ có kích cỡ phông tương tự nghiêm khắc trường hợp ngược lại, chúng gần Hình 27 thể thời gián chạy trung bình trang ảnh thuật toán Docstrum, Voronoi, WhiteSpace, TabStop, HP2S, AOSM Fast-AOSM tập liệu ICDAR2009 Thí nghiệm thực máy tính cá nhân Intel Core i5 Processor 3.2GHz AOSM trung bình khoảng giây để xử lý ảnh, gần tương đương với thuật toán WhiteSpace, nhanh Voronoi chậm Docstrum HP2S có thời gián thực thi trung bình nhanh thuật toán Voronoi, WhiteSpace, Tab-Stop AOSM Thuật tốn Fast-AOSM có thời gián thực thi chậm Docstrum nhanh vượt trội so với thuật toán lại a) b) Hình 26: Kết thực thuật toán HP2S AOSM độ đo PSET-measure, tập liệu ICDAR2009 với giá trị khác 𝜃 Hình 27: Thời gián thực thi trung bình thuật toán thực trang ảnh 23 3.6 Kết luận chương Trong chương chúng tơi trình bày thuật tốn phân tích trang ảnh tài liệu AOSM (an Adaptive Over-Split and Merge algorithm, for the page segmentation problem) Mục tiêu thuật toán AOSM giảm đồng thời hai kiểu lỗi thường gặp thuật tốn phân tích trang ảnh tài liệu, lỗi under-segmentation oversegmentation bị gây bợi sợ thay đổi kích cỡ phơng chữ, khoảng cách vùng text gần cấu trúc phức tạp trang ảnh Trước tiên, AOSM sử dụng tập vùng trắng bao phủ trang ảnh làm đối tượng phân tách, sử thú vị hiệu so với cách sử dụng phân tách thông thường, tab-stop hay whitespaces để tìm cấu trúc cột trang ảnh Chiến lược không giải vấn đề phát delimiter mà giải hiệu vấn đền undersegmentation Lỗi over-segmentation thường bị gây lỗi thay đổi nhiều kích cỡ kiểu phơng chữ khoảng cách dòng chữ lớn Phương pháp tham số thích nghi AOSM khắc phục hiệu vấn đề over-segmentation dòng chữ vùng vấn đề over-segmentation xảy dòng chữ Cuối cùng, vùng chữ tách thành đoạn văn cách sử dụng dòng chữ phân tách 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Với mục tiêu đặt ra, luận án đạt số kết sau đây: Đánh giá so sánh thuật toán phân tích trang tiêu biểu tập liệu PRImA tập liệu Tiếng Việt Các kết đánh giá cung cấp vấn đề tổng quan phân tích trang, điểm mạnh, điểm yếu hướng tiếp cận Từ làm định hướng cho mục tiêu nghiên cứu Kết công bố [4] Đề xuất giải pháp tăng tốc thuật toán phát trang ảnh cách áp dụng kĩ thuật nhánh cận để từ hạn chế số nhánh khơng cần thiết xét đến từ tăng tốc độ thực thi thuật tốn Kết cơng bố [3] Đề xuất giải pháp việc phát sử dụng đối tượng phân tách Đề xuất phương pháp tham số thích nghi cho trình gom cụm hướng tiếp cận bottom-up Định nghĩa dòng chữ phân tách để vận dụng thành cơng phân tách vùng chữ thành đoạn văn Các kết liên quan công bố [1, 2, 5, 6] Hướng phát triển Mặc dù luận án đạt kết định, nhiên kết nghiên cứu chủ yếu tập trung vào phân tách vùng chữ khỏi vùng chữ, phân tách vùng chữ thành đoạn văn Những vấn đề như: phát vùng ảnh, vùng bảng, vùng biểu đồ, phân tích cấu trúc logic, chưa đề cập đến luận án Trong tương lai, luận án tiếp tục phát triển theo hướng sau: Phát vùng ảnh Phân tích cấu trúc logic Phát phân tích cấu trúc bảng 25 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA TÁC GIẢ Hà Đại Tôn, Nguyễn Đức Dũng Lê Đức Hiếu, Tham số tự cho tốn phân tích trang ảnh tài liệu, Hội nghị Quốc gia lần thứ Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR2014), 2014 Ha Dai Ton, Nguyen Duc Dung and Le Duc Hieu, Over-Splitted and Merged for Geometry Document Layout Analysis, Hội nghị Quốc gia lần thứ Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR2015), 2015 Hà Đại Tôn Nguyễn Đức Dũng, Cải tiến thuật toán phân tách trang ảnh tài liệu sử dụng phân tích cấu trúc nền, Hội thảo quốc giá lần thứ XIX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông (@2016), pp 49-53, 2016 Hà Đại Tôn, Lê Đức Hiếu Nguyễn Đức Dũng, So sánh đánh giá thuật toán phân tách ảnh tài liệu, Tạp chí Khoa học Tự nhiên Cơng nghệ, Đại học Thái Nguyên, Vol 120, No 06, pp 03-08, 2014 Ha Dai Ton, Nguyen Duc Dung, A hybrid paragraph-level page segmentation, Journal of Computer Science and Cybernetics, Vol 32, No 02, pp 153-167, 2016 Ha Dai-Ton, Nguyen Duc-Dung and Le Duc-Hieu, An adaptive over-split and merge algorithm for page segmentation, Pattern Recognition Letters, Vol 80, pp 137-143, 2016 26 ... PHÁT HIỆN NỀN TRANG ẢNH TÀI LIỆU Chương trình bày ưu, nhược điểm hướng tiếp cận dựa trang ảnh phân tích trang ảnh tài liệu, thuật tốn phân tích trang WhiteSpace, thuật tốn phát trang ảnh nhanh cuối... không giáo Các trang ảnh quét với độ phân giải 300 DPI trỉnh lại độ nghi ng Nó chứa nhiều trang ảnh đa dạng kiểu trang ảnh, phản ảnh nhiều thách thức phân tích trang Cấu trúc trang ảnh chứa đựng... thực nghi m 2.1 Ưu nhược điểm hướng tiếp cận dựa trang ảnh phân tích trang ảnh tài liệu Về mặt trực quan, nhiều trường hợp thấy phát trang ảnh dễ dàng hơn, đồng thời dựa trang ảnh dễ dàng tách trang

Ngày đăng: 12/02/2018, 15:43

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan