Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER

ĐẠ I H Ọ C QU Ố C GIA HÀ N Ộ I TRƯỜNG ĐẠ I H Ọ C CÔNG NGH Ệ NINH TH Ị THU HÀ CÁC K Ỹ THU Ậ T X Ử LÝ NGÔN NG Ữ TRONG S Ố HÓA VĂN BẢ N TI Ế NG VI Ệ T C Ủ A H Ệ TH Ố NG FSCANNER Ngành: Công ngh ệ thông tin Chuyên ngành: K ỹ thu ậ t ph ầ n m ề m Mã s ố : 60480103 LU Ậ N VĂN THẠC SĨ Hà N ộ i - 2014 ĐẠ I H Ọ C QU Ố C GIA HÀ N Ộ I TRƯỜNG ĐẠ I H Ọ C CÔNG NGH Ệ NINH TH Ị THU HÀ CÁC K Ỹ THU Ậ T X Ử LÝ NGÔN NG Ữ TRONG S Ố HÓA VĂN BẢ N TI Ế NG VI Ệ T C Ủ A H Ệ TH Ố NG FSCANNER Ngành: Công ngh ệ thông tin Chuyên ngành: Công ngh ệ ph ầ n m ề m Mã s ố : 60480103 LU Ậ N VĂN THẠC SĨ NGƯỜI HƯỚ NG D Ẫ N KHOA H Ọ C: TS. LÊ QUANG MINH Hà N ộ i - 2014 L Ờ I CAM ĐOAN Tôi là Ninh Th ị Thu Hà, h ọ c viên cao h ọ c K19, chuyên ngành Công ngh ệ ph ầ n m ề m, khóa 2012 - 2014. Tôi xin cam đoan lu ận văn thạc sĩ “Các kỹ thu ậ t x ử lý ngôn ng ữ trong s ố hóa văn b ả n ti ế ng Vi ệ t c ủ a h ệ th ố ng FSCANNER” là công trình nghiên c ứ u c ủ a riêng tôi cùng v ớ i s ự hư ớ ng d ẫ n c ủ a TS. Lê Quang Minh. Các s ố li ệ u, k ế t qu ả nêu trong Lu ậ n văn là trung thực và chưa từng đượ c ai công b ố trong b ấ t k ỳ công trình nào khác. T ấ t c ả nh ữ ng tham kh ả o t ừ các nghiên c ứu liên quan đều đượ c nêu ngu ồ n g ố c m ộ t cách rõ ràng t ừ danh m ụ c tài li ệ u tham kh ả o c ủ a lu ậ n văn. Trong luậ n văn, không có vi ệ c sao chép tài li ệ u, công trình nghiên c ứ u c ủa ngườ i khác mà không ch ỉ rõ v ề tài li ệ u tham kh ả o. Hà n ộ i, ngày 28 tháng 10 năm 2014 Tác gi ả Ninh Th ị Thu Hà L Ờ I C Ả M ƠN Tôi xin g ử i l ờ i c ảm ơn sâu sắ c t ớ i TS. Lê Quang Minh – Vi ệ n Công ngh ệ thông tin, Đ ạ i h ọ c Qu ố c gia Hà N ộ i, ngườ i th ầ y đã hướ ng d ẫ n, ch ỉ b ả o t ậ n tình cho tôi trong su ố t quá trình nghiên c ứ u và hoàn thành lu ậ n văn tố t nghi ệ p. Tôi xin g ử i l ờ i c ảm ơn chân thành tớ i các th ầy cô đã và đang tham gia gi ả ng d ạ y t ại trường Đạ i h ọ c Công ngh ệ - Đạ i h ọ c Qu ố c gia Hà n ộ i. Các th ầ y cô đã nhiệ t tình gi ả ng d ạ y và t ạ o m ọi điề u ki ệ n thu ậ n l ợ i cho tôi hoàn thành khóa h ọ c t ại trườ ng. Tôi xin bày t ỏ lòng bi ết ơn tớ i t ấ t c ả b ạn bè, đồ ng nghi ệp và người thân đã động viên, giúp đỡ tôi trong su ố t quá trình h ọ c t ậ p và nghiên c ứ u, hoàn thành lu ận văn. Tôi xin đư ợ c g ử i l ờ i c ảm ơn đế n các tác gi ả , nhóm tác gi ả c ủ a nh ữ ng giáo trình, nh ữ ng công trình khoa h ọ c và nh ữ ng bài báo khoa h ọ c mà tôi tham kh ả o để hoàn thi ệ n lu ận văn này. Tác gi ả MỤC LỤC DANH M Ụ C CÁC T Ừ VI Ế T T Ắ T 1 DANH M Ụ C B Ả NG BI Ể U 2 DANH M Ụ C HÌNH V Ẽ 4 M Ở ĐẦ U 6 CHƯƠNG 1. TỔ NG QUAN V Ề BÀI TOÁN X Ử LÝ NGÔN NG Ữ TRONG S Ố HÓA VĂN BẢ N TI Ế NG VI Ệ T 9 1.1 Gi ớ i thi ệ u v ề x ử lý ngôn ng ữ t ự nhiên 9 1.2 Gi ớ i thi ệ u m ộ t s ố công ngh ệ trong s ố hóa tài li ệ u 10 1.2.1 Công ngh ệ nh ậ n d ạ ng ti ế ng Vi ệ t 10 1.2.2 Công ngh ệ soát l ỗ i chính t ả ti ế ng Vi ệ t 11 1.2.3 Công ngh ệ tách b ộ và l ậ p ch ỉ m ụ c 12 1.3 Bài toán x ử lý ngôn ng ữ trong s ố hóa văn b ả n ti ế ng Vi ệ t 13 T ổ ng k ết chương 1 15 CHƯƠNG 2. CÁC KỸ THU Ậ T X Ử LÝ NGÔN NG Ữ TRONG S Ố HÓA VĂN B Ả N 16 2.1. M ộ t s ố k ỹ thu ậ t nh ậ n d ạ ng OCR 16 2.1.1. Gi ớ i thi ệ u 16 2.1.2. K ỹ thu ậ t nh ậ n d ạ ng d ựa trên mô hình máy vectơ hỗ tr ợ (SVM) 18 2.1.3. K ỹ thu ậ t nh ậ n d ạ ng d ự a trên mô hình Markov ẩ n (HMM) 20 2.1.4. K ỹ thu ậ t nh ậ n d ạ ng d ự a trên mô hình m ạng nơ ron (ANN) 22 2.1.5. Cách ti ế p c ậ n nh ậ n d ạ ng OCR c ủ a FSCANNER 24 2.2. K ỹ thu ậ t soát l ỗ i chính t ả ti ế ng Vi ệ t d ự a trên mô hình n -gram 25 2.2.1. Gi ớ i thi ệ u bài toán soát l ỗ i chính t ả ti ế ng Vi ệ t 25 2.2.2. Mô hình ngôn ng ữ N-gram 27 2.2.3. K ỹ thu ậ t soát l ỗ i d ự a trên mô hình n -gram c ủ a h ệ th ố ng FSCANNER 29 2.3. Trích rút metadata 30 2.3.1. Gi ớ i thi ệ u v ề metadata và chu ẩ n Dublin Core 30 2.3.2. Bài toán trích rút metadata 32 2.3.3. Đề xu ất metadata cho văn bản đượ c s ố hóa 34 T ổ ng k ết chương 2 45 CHƯƠNG 3. THỰ C NGHI ỆM, ĐÁNH GIÁ 46 3.1. Các bư ớ c th ự c hi ệ n chương trình củ a h ệ th ố ng 46 3.2. Xây d ự ng b ộ d ữ li ệ u th ự c nghi ệ m cho ả nh quét 48 3.3. Ti ế n hành th ự c nghi ệ m 49 3.3.1. M ụ c tiêu 49 3.3.2. Cách th ự c hi ệ n 49 3.4. K ế t q u ả th ự c nghi ệ m 50 3.5. Đánh giá kế t qu ả 52 T ổ ng k ết chương 3 52 K Ế T LU Ậ N 53 TÀI LI Ệ U THAM KH Ả O 54 1 DANH M ỤC CÁC TỪ VIẾT TẮT STT T ừ vi ế t t ắ t T ừ đ ầy đủ Ti ế ng Vi ệ t 1 ANN Artificial Neural Network M ạng nơ -ron nhân t ạ o 2 API Application Programming Interface Giao di ệ n l ậ p trình ứ ng d ụ ng 3 DPI Dots Per Inch S ố ch ấ m trên 1 inch 4 HMM Hiden Markov Model Mô hình Markov ẩ n 5 MLP Multi Layer Perceptron M ạ ng nhi ề u l ớ p truy ề n th ẳ ng Perceptron 6 NLP Natural Language Processing X ử lý ngôn ng ữ t ự nhiên 7 OCR Optical Character Recognition Nh ậ n d ạ ng kí t ự quang h ọ c 8 OVO One Versus One M ộ t v ớ i m ộ t 9 OVR One Versus The Rest M ộ t v ớ i ph ầ n còn l ạ i 10 SVM Support Vector Machine Máy V éc tơ H ỗ tr ợ 2 DANH MỤC BẢNG BIỂU B ả ng 1.1. So sánh m ộ t s ố ph ầ n m ề m nh ậ n d ạ ng ch ữ in ti ế ng Vi ệ t B ả ng 1.2. M ộ t s ố ph ầ n m ề m soát l ỗ i chính t ả ti ế ng Vi ệ t và k ế t qu ả đánh giá đ ộ nh ậ n bi ế t l ỗ i chính t ả ti ế ng Vi ệ t đố i v ớ i các ph ầ n m ề m đó. B ả ng 2.1. T ổ ng h ợ p k ế t qu ả nh ậ n d ạ ng OCR mô hình HMM, ANN, SVM v ớ i các đặc trưng khác nhau B ả ng 2.2. C ấ u trúc âm ti ế t 3 thành ph ầ n B ả ng 2.3. C ấ u trúc âm ti ế t 4 thành ph ầ n B ả ng 2.4. C ấ u trúc âm ti ế t 5 thành ph ầ n B ả ng 2.5. Các thành ph ầ n âm ti ế t c ủ a c ấ u trúc âm ti ế t 4 thành ph ầ n B ả ng 2.6. M ộ t ví d ụ trích rút metadata B ả ng 2.7. 15 y ế u t ố c ủ a Dublin Core Metadata. B ả ng 2.8. Đề xu ấ t xây d ự ng các y ế u t ố metadata cho s ố hóa văn b ả n B ảng 2.9. Tiêu đề (Title) B ảng 2.10. Ngườ i t ạ o (Creator) B ả ng 2.11. Ngày tháng (Date) B ả ng 2.12. Nhà xu ấ t b ả n (Publisher ) B ả ng 2.13. Mô t ả (Description) B ảng 2.14. Đị nh danh (Identifier) B ả ng 2.15. Ngôn ng ữ (Language) B ả ng 2.16. Ngu ồ n (Source) B ả ng 2.17. Ngườ i c ộ ng tác (Contributor) 3 B ả ng 2.18. Ch ủ đ ề (Subject) B ả ng 2.19. Ph ạ m vi (Coverage) B ả ng 2.20. Ki ể u /Lo ạ i (Type) B ả ng 2.21. Kh ổ m ẫ u (Format) B ả ng 2.22. Liên k ế t (Relation) B ả ng 2.23. B ả n quy ề n (Right) B ảng 2.24. Cơ quan lưu trữ (Archive) B ảng 2.25. Phông lưu trữ (Archive fond) B ả ng 2.26. M ụ c l ụ c s ố (List number) B ả ng 2.27. H ộ p s ố (Folder number) B ả ng 2.28. H ồ sơ số (Record number) B ả ng 2.29. T ờ s ố (Page number) B ả ng 2.30. Ngày s ố hóa (Digitizing date) B ảng 2.31. Ngườ i s ố hóa (Digitizing person) B ả ng 2.32. T ổ ch ứ c s ố hóa (Digitizing organization) B ả ng 2.33. Thi ế t b ị s ố hóa (Digitizing equipment) B ả ng 2.34. B ả ng Cơ sở d ữ li ệ u c ủ a 25 y ế u t ố metadata xây d ự ng cho văn bả n đư ợ c s ố hóa B ả ng 3.1. S ố t ừ nh ậ n d ạ ng đúng vớ i các m ứ c DPI khác nhau c ủ a ả nh quét B ả ng 3.2. S ố t ừ nh ậ n d ạng đúng vớ i các góc xoay (l ệ ch trái so v ớ i ả nh quét g ố c) c ủ a ả nh quét B ả ng 3.3. S ố t ừ nh ậ n d ạng đúng vớ i các góc xoay (l ệ ch ph ả i so v ớ i ả nh quét g ố c) c ủ a ả nh quét 4 DANH M ỤC HÌNH VẼ Hình 1.1. Một ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro Hình 1.2.a. M ộ t ph ầ n ảnh văn bả n Hình 1.2.b. Ph ầ n văn bản đã đượ c nh ậ n Hình 1.3.a. Ph ầ n văn bản đã đượ c nh ậ n Hình 1.3.b. Ph ần văn bả n nh ậ n d ạng đã sử a l ỗ i chính t ả ti ế ng Vi ệ t Hình 1.4. M ộ t ví d ụ v ề trích rút thông tin Hình 1.5. Sơ đồ ho ạ t độ ng c ủ a vi ệ c s ố hóa văn b ả n ti ế ng Vi ệ t c ủ a h ệ th ố ng FSCANNER Hình 2.1. Sơ đồ t ổ ng quát c ủ a m ộ t h ệ th ố ng nh ậ n d ạ ng OCR Hình 2.2.a. Các l ớ p phân tách tuy ế n tính. Hình 2.2.b. Siêu ph ẳ ng t ối ưu và biên lề tương ứng, các vectơ hỗ tr ợ . Hình 2.3.a: Siêu ph ẳ ng phân tách 2 l ớ p (Liu, 2006) Hình 2.3.b: Siêu ph ẳ ng phân tách có l ề c ự c đạ i (Liu, 2006) Hình 2.4. Lướ i các chu ỗ i tr ạ ng thái, các ti ế n trình Markov v ớ i dãy quan sát O 1 , , O T . Hình 2.5. Mô hình m ột nơron nhân tạ o Hình 2.6. M ạ ng MLP trong nh ậ n d ạ ng kí t ự quang h ọ c. Hình 2.7. Mô hình Markov b ậ c 2 Hình 3.1. Giao di ện chương trình FSCANNER Hình 3.2. Upload v ăn bả n trong h ệ th ố ng FSCANNER Hình 3.3. H ệ th ố ng FSCANNER đang nhậ n d ạ ng OCR 1 file ả nh Hình 3.4. H ệ th ố ng FSCANNER đã xử lý văn b ả n xong và k ế t qu ả trích rút metadata c ủ a văn bản đó. [...]... FSCANNER 6 Bố cục luận văn Ngoài phần mở đầu, kết luận và danh mục tài liệu tham khảo, luận văn gồm 3 chương như sau: Chương 1: Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt Nội dung giới thiệu về bài toán xử lý ngôn ngữ tự nhiên và sơ đồ hoạt động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER Chương 2: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt Nội dung chương... VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT 1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing) là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý được ngôn ngữ của con người (ngôn ngữ nói –viết) NLP là lĩnh vực thuộc ngành Khoa học máy tính, là một nhánh của Trí tuệ nhân tạo Lĩnh vực xử lý ngôn ngữ tự nhiên... tả tiếng Việt, bài toán trích chọn thông tin với bài toán con là trích chọn metadata 16 CHƯƠNG 2 CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN Bài toán số hóa văn bản tiếng Việt là bài toán lớn, vì vậy trong phạm vi luận văn tập trung vào một số kỹ thuật nhận dạng OCR, kỹ thuật soát lỗi chính tả tiếng Việt dựa trên mô hình ngôn ngữ n-gram, kỹ thuật trích rút metadata tập trung vào nghiên cứu các. .. việc của hệ thống số hóa văn bản FSCANNER · Tìm hiểu về các kỹ thuật nhận dạng OCR, kỹ thuật soát lỗi chính tả tiếng Việt, trích rút metadata trong số hóa văn bản tiếng Việt · Nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số hóa 3 Nhiệm vụ nghiên cứu Mục đích của luận văn đề cập được đến hai phần: · Phần lý thuyết: Trình bày tổng quan về bài toán xử lý ngôn ngữ và... số hóa văn bản, giới thiệu một số công nghệ số hóa tài liệu như công nghệ nhận dạng OCR, công nghệ soát lỗi chính tả tiếng Việt, công nghệ tách bộ và lập chỉ mục Trên cơ sở đó, luận văn đưa ra giải pháp là xây dựng một hệ thống số hóa văn bản tiếng Việt với tên là FSCANNER Mỗi bước trong quy trình số hóa của hệ thống liên quan mật thiết với mỗi bài toán trong xử lý ngôn ngữ, cụ thể là bài toán nhận dạng... Capture Pro 1.3 Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt Với một khối lượng khổng lồ các tài liệu văn bản giấy, máy quét có thể chuyển chúng thành các file ảnh văn bản lưu trữ được trong máy tính Tuy nhiên, các file ảnh văn bản sau khi quét thì không thể chỉnh sửa được trên máy tính hay tìm kiếm theo từ khóa hay nội dung trong ảnh văn bản đó Vì vậy, các ảnh văn bản thu được sau khi quét... của công cụ này chúng ta cần có những cải tiến tốt hơn nữa, giúp cho độ chính xác trong công việc nhận dạng, tìm kiếm là tốt và nhanh hơn Nhóm nghiên cứu của Viện Công nghệ thông tinĐại học Quốc gia Hà Nội đưa ra giải pháp là xây dựng hệ thống FSCANNER để số hóa văn bản tiếng Việt 7 2 Mục tiêu của luận văn · Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt, quy trình làm việc của. .. cứu Hệ thống FSCANNER được nhóm nghiên cứu của Viện Công nghệ thông tin- Đại học Quốc Gia Hà Nội xây dựng với mục đích quản lý và tự động số hóa tài liệu Đây thực sự là một bài toán lớn Chính vì thế trong phạm vi của luận văn chỉ tìm hiểu về quy trình thực hiện của hệ thống, tìm hiểu về một số kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mô hình ngôn ngữ n-gram của hệ thống, ... nhận dạng chữ ký, · Dịch tự động: Từ một tệp dữ liệu văn bản trong một ngôn ngữ (ví dụ tiếng Anh), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ khác (ví dụ tiếng Việt) · Tóm tắt văn bản: Từ một văn bản dài máy tóm tắt thành một văn bản ngắn gọn với những nội dung cơ bản · Tìm kiếm thông tin: Từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những tệp có nội dung liên quan đến... máy tính xử lý các vấn đề về ngôn ngữ tự nhiên để việc giao tiếp giữa người và máy tính thuận tiện và thân thiện hơn Dưới đây là một số bài toán tiêu biểu của xử lý ngôn ngữ với các mức độ khác nhau về xử lý và sử dụng ngôn ngữ tự nhiên của con người [1] · Nhận dạng tiếng nói: Từ tiếng nói của con người nhận biết và chuyển chúng thành dữ liệu văn bản tương ứng, ví dụ như tìm kiếm thông tin bằng tiếng . d ạ ng. 9 CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ TRONG S Ố HÓA VĂN BẢN TIẾNG VIỆT 1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên X ử lý ngôn ng ữ t ự nhiên (NLP – Natural Language. ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro 1.3 Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt V ớ i m ộ t kh ối lượ ng kh ổ ng l ồ các tài li ệu văn bả n gi ấ y,. 12 1.3 Bài toán x ử lý ngôn ng ữ trong s ố hóa văn b ả n ti ế ng Vi ệ t 13 T ổ ng k ết chương 1 15 CHƯƠNG 2. CÁC KỸ THU Ậ T X Ử LÝ NGÔN NG Ữ TRONG S Ố HÓA VĂN B Ả N 16 2.1.

Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER

Thông tin tài liệu

Từ khóa liên quan

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan