Phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ nôm

6 308 2
Phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ nôm

Đang tải... (xem toàn văn)

Thông tin tài liệu

Phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ Nôm Nguyễn Triệu Tuấn Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội Luận văn ThS. Công nghệ thông tin : 60 48 10 Người hướng dẫn : PGS.TS. Nguyễn Ngọc Bình Năm bảo vệ: 2013 76 tr . Abstract. Trình bày nội dung tổng quát và về quy trình nhận dạng chữ Nôm. Trình bày một số phương pháp nhận dạng chữ tượng hình. Trình bày một số phương pháp lấy đặc trưng phục vụ cho huấn luyện, nhận dạng chữ tượng hình. Trình bày phương pháp nhận dạng chữ Nôm bằng kỹ thuật tính chi phí hiệu chỉnh chuỗi đặc trưng (string edit-distance). Chi tiết các bước huấn luyện: lấy giả khung và khung xương ảnh của chữ; tạo histogram cho giả khung và khung xương; mã hóa histogram thành chuỗi mã được trình bày chi tiết. Các bước nhận dạng bằng string edit-distance cũng được trình bày chi tiết. Xây dựng phần mềm nhận dạng chữ Nôm bằng string edit-distance dựa trên phương pháp mã hóa histogram của khung xương, giả khung. Keywords. Công nghệ phần mềm; Bài toán nhận dạng; Phương pháp trích chọn; Cán bộ y tế; Chữ Nôm Content. Lịch sử của dân tộc gắn liền với những nền văn hóa khác nhau trải dài qua nhiều thế kỷ từ thế kỷ thứ 6 đến cuối thế kỷ thứ 18. Những giá trị văn hóa này minh chứng cho truyền thống văn hiến lâu dài của dân tộc Việt Nam ta. Những giá trị văn hóa đó của dân tộc được lưu truyền dưới dạng truyền miệng và văn bản chữ (khắc trên đá, trên gỗ, gốm và trên giấy). Từ thế kỷ thứ 6 dân tộc ta đã sử dụng một loại chữ gọi là chữ Nôm ở dạng sơ khai, trải qua một khoảng thời gian dài chữ Nôm được hoàn thiện dần, từ thế kỷ thứ 11 đến thế kỷ thứ 18 chữ Nôm được sử dụng rộng rãi, và là chữ viết chính thức của dân tộc. Trong suốt khoảng thời gian từ thế kỷ thứ 6 đến thế kỷ thứ 18, rất nhiều giá trị văn hóa của dân tộc được thể hiện bằng chữ Nôm, trong số đó rất nhiều văn tự chữ Nôm được lưu truyền đến ngày nay. Đến thế kỷ thứ 19, thực dân Pháp xâm lược nước ta Sự phát triển mạnh mẽ của chữ Quốc ngữ đã dần thay thế chữ Nôm, hệ quả là ngày nay rất ít người có thể đọc được các văn bản chữ Nôm, kéo theo đó là rất nhiều giá trị văn hóa trong suốt chiều dài hàng mấy thế kỷ của dân tộc ta bị bỏ quên. Nhiều văn tự chữ Nôm của người xưa để lại vẫn được bảo quản trong kho, trong các chùa chiền để đợi được thế hệ ngày nay và mai sau tìm hiểu, khám phá. Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin, máy tính có thể làm thay con người rất nhiều việc, trong đó có nhận dạng chữ viết. Chữ Latin đã được các quốc gia ứng dụng công nghệ thông tin vào nhận dạng và xử lý từ rất sớm, những bộ công cụ nhận dạng chữ in, chữ viết và từ điển cho chữ Latin đã rất phổ biến, những công cụ này có thể nhận dạng, dịch xuôi, dịch ngược giữa các ngôn ngữ trong hệ chữ Latin với nhau với độ chính xác rất cao. Ở một số quốc gia và vùng lãnh thổ sử dụng chữ tượng hình như Trung Quốc, Nhật Bản, Hàn Quốc và Đài Loan cũng đã ứng dụng rất hiệu quả Công nghệ thông tin vào nhận dạng chữ viết của họ. Điều này giúp ích rất nhiều cho người dân họ trong các hoạt động hàng ngày và trong giao lưu văn hóa, khoa học, giáo dục với các nước khác… Chữ Nôm tuy không còn là chữ viết chính của nước ta hiện nay, không được đưa vào đào tạo phổ thông, nhưng theo lịch sử nó lưu giữ một khối lượng lớn các giá trị văn hóa của dân tộc trong suốt thế kỷ thứ 6 đến thế kỷ thứ 19. Những giá trị văn hóa này hầu hết nằm im trong kho lưu chữ và trong các di sản văn hóa khác như đình, chùa, miếu… vì hiện nay rất ít người có thể đọc được chúng. Do đó ngày nay giới trẻ đã không nắm được một cách đầy đủ những giá trị văn hóa, lịch sử của dân tộc trong một khoảng thời gian rất dài phát triển của lịch sử dân tộc. Với tầm quan trọng như vậy, cùng với khả năng đáp ứng của công nghệ thông tin ngày nay, chúng ta cần cấp thiết xây dựng một hệ thống nhận dạng chữ Nôm nhằm phục vụ cho nghiên cứu tìm hiểu lịch sử dân tộc và giáo dục giới trẻ về truyền thống hào hùng của dân tộc, làm sống dậy một thời gian dài lịch sử bị lãng quên của dân tộc ta. Từ rất sớm người Việt đã số hóa chữ viết của mình để ứng dụng trong công nghệ thông tin. Ngoài chữ Quốc ngữ, chữ Nôm cũng được nhiều tổ chức, cá nhân khác nhau tham gia xử lý số hóa. Kết quả là ngày nay đã có từ điển chữ Nôm, nhiều tác phẩm trong kho tàng văn học đã được số hóa như truyện Kiều của Nguyễn Du, truyện Lục Vân Tiên của Nguyễn Đình Chiểu, và nhiều tác phẩm thơ của Hồ Xuân Hương [7]. Chữ Nôm đã được quốc tế hóa, trở thành một di sản trong kho tàng chữ viết của thế giới. Trong bộ mã chuẩn Unicode chữ Nôm đã được đưa vào với 5067 chữ trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm, 2200 chữ đang được đề nghị đưa thêm. Theo đó nhiều bộ font và bộ gõ chữ Nôm được xây dựng, tạo điều kiện thuận lợi trong việc sử dụng chữ Nôm trong máy tính nói riêng và trong lĩnh vực công nghệ thông tin nói chung. Như vậy vấn đề số hóa chữ Nôm đã được quan tâm, nhiều công cụ hỗ trợ đã ra đời, tuy nhiên vấn đề nhận dạng chữ Nôm nhằm xây dựng những công cụ thông minh, phục vụ cho mục đích tra cứu, nghiên cứu, phổ biến chữ Nôm, đặc biệt là phát triển các công cụ này trên thiết bị di động để giúp người không biết chữ Nôm vẫn đọc được chữ Nôm, qua đó đưa chữ Nôm trở lại cuộc sống, đưa kho tàng văn hóa chữ Nôm đến với mọi người vẫn chưa được quan tâm đúng mức và chưa đạt được nhiều thành tựu. Trong luận văn này chúng tôi trình bày tổng quan bài toán nhận dạng chữ Nôm một số phương pháp trích chọn đặc trưng và một số phương pháp nhận dạng chữ tượng hình. Trong luận văn tôi còn trình bày hoàn chỉnh một phương pháp nhận dạng chữ Nôm với mong muốn đưa ra một phương pháp nhận dạng chữ Nôm, góp phần xây dựng một công cụ có thể nhận dạng được chữ Nôm, chuyển đổi các văn bản chữ Nôm thành chữ Quốc ngữ nhằm làm sáng tỏ những giá trị văn hóa lưu trữ trong nó. Cấu trúc luận văn gồm các phần như sau: Phần mở đầu: Nội dung phần mở đầu nêu khái quát quá trình phát triển của chữ Nôm, lịch sử phát triển dân tộc Việt Nam gắn liền với chữ Nôm. Sự phát triển của công nghệ thông tin và khả năng ứng dụng Công nghệ thông tin vào nhận dạng chữ Nôm, tầm quan trọng trong việc xây dựng hệ thống nhận dạng chữ Nôm. Chương 1. Tổng quan: Nội dung chương một trình bày tổng quan về chữ Nôm, lịch sử hình thành và phát triển chữ Nôm, mô hình tổng quan của hệ thống nhận dạng chữ Nôm và các khái niệm liên quan như: chuẩn hóa, trích chọn đặc trưng, huấn luyện…. Chương 2. Một số kỹ thuật nhận dạng chữ tượng hình: Nội dung chương này tổng hợp và giới thiệu một số kỹ thuật nhận dạng chữ tượng hình đã được được thực nghiệm. Chương 3. Giới thiệu một số phương pháp trích chọn đặc trưng: Nội dung chương này giới thiệu một số phương pháp trích chọn đặc trong nhận dạng chữ tượng hình. Chương 4. Nhận dạng chữ Nôm theo khoảng cách soạn thảo dựa trên khung xương và giả khung: Nội dung chương này trình bày đầy đủ phương pháp nhận dạng thông qua tính chi phí hiệu chỉnh chuỗi (string edit-distance) theo hai phương pháp lấy đặc trưng khác nhau là lấy đặc trưng từ histogram của giả khung và lấy đặc trưng từ histogram của khung xương. Mục đích của chương này nhằm ứng dụng lý thuyết trình bày ở chương 2 và chương 3 xây dựng nên một phương pháp nhận dạng mới. Chi tiết từng bước thực hiện gồm: lấy khung xương, lấy giả khung; tạo histogram và mã hóa thành chuỗi mã; sử dụng string edit-distance được trình bày chi tiết, rõ ràng. Chương 5. Thực nghiệm. Nội dung chương này trình bày kết quả thực nghiệm chương trình cài đặt các thuật toán trình bày ở chương 4. So sánh kết quả nhận dạng của hai phương pháp lấy đặc trưng áp dụng trong cùng một phương pháp nhận dạng. Phần kết luận: Phần này trình bày những đóng góp của luận văn, những tồn tại, hạn chế chưa được giải quyết và hướng giải quyết tiếp theo. TÀI LIỆU THAM KHẢO [1]. Nguyễn Tuấn Cường, “Thời điểm xuất hiện chữ Nôm và sơ đồ cấu trúc chữ Nôm”, 2009 [2]. Đặng Đức, Trần Xuân Ngọc Lan, “Nghiên cứu diến biến chữ NOM theo phương pháp hình thể”, http://www.hannom.org.vn/web/tchn/data/0103.htm [3]. Phạm Văn Huởng, Trần Minh Tuấn, Nguyễn Thị Ngọc Hương, Bùi Thị Hồng Hạnh, Lê Hồng Trang, Vũ Thanh Nhân, Trương Anh Hoàng, Vũ Quang Dũng, Nguyễn Ngọc Bình, “Một số phương pháp nhận dạng chữ NÔM”, Hội thảo Khoa học Quốc gia Lần thứ IV về CNTT-TT (ICT.rda’2008) [4]. Đỗ Năng Toàn, TS. Phạm Việt Bình (2007), “Giáo trình sử lý ảnh TS”, khoa CNTT Đại học Thái Nguyên. [5]. Ngô Trung Việt, Ngô Thanh Nhàn, “Một cách nhìn về tương lai của” chữ NÔM, Hội nghị Chữ NÔM Quốc tế 2004 [6]. http://www.nomfoundation.org [7]. http://www.nomna.org [8]. Adam L.Berger, “A Maximum entropy Approach to Natural Language Processing” [9]. Belur V. Dasarathy, “Nearest Neighbor (NN) Norms: NN Pattern Classification Techniques”, 1991, ISBN 0-8186-8930-7. [10]. Ben Krose and Patrick van der Smagt (1996), “An introduction to Neural Networks”, Eighth edition November 1996 [11]. Eric Sven Ristad, Member, IEEE, and Peter N. Yianilos, Senior Member IEEE, “Learning String-Edit Distance”, IEEE transactions on pattern analysis and machine intelligence, vol. 20, no. 5, may 1998 [12]. Juan Diego Rodrıguez, Aritz Perez, Jose Antonio Lozano, Member, IEEE, “Sensitivity Analysis of k-Fold Cross Validation in Prediction Error Estimation”, IEEE Transactions on pattern analysis and machine intelligence, Vol. 32, No. 3, March 2010 [13]. Kai Yu, Jiangqin Wu, Yueting Zhuang, “Skeleton-Based Recognition of Chinese Calligraphic Character Image”, College of Computer Science, Zhejiang University Hangzhou, 310027, P. R. China [14]. Lê Hồng Trang, “Nôm Optical Character Recognition using Pseudo- Skeleton feature”, Luận văn thạc sĩ đại học Công nghệ, đại học Quốc gia Hà Nội 2009. [15]. Lifeng Shang, Zhang Yi, Luping Ji (2007), “Binary Image Thinning Using Autowaves Generated by PCNN”, Neural processing letters (2007) 25:49-62 DOI 10.007/s11063-006-9030-9 [16]. Ming Gang Wen, Kuo Chin Fan, Chin Chuan Han, “Classification of Chinese Characters Using Pseudo Skeleton Features”, Journal of information science and engineering 20, 903-922 (2004) [17]. Ning Li, “An Implementation of OCR System”, Computing Laboratory University of Kent at Canterbury United Kingdom, August 1991 [18]. Tom M. Mitchell, “Machine learning”, McGraw-Hill Science/Engineering/Math; (March 1, 1997). . quan bài toán nhận dạng chữ Nôm một số phương pháp trích chọn đặc trưng và một số phương pháp nhận dạng chữ tượng hình. Trong luận văn tôi còn trình bày hoàn chỉnh một phương pháp nhận dạng chữ. trình nhận dạng chữ Nôm. Trình bày một số phương pháp nhận dạng chữ tượng hình. Trình bày một số phương pháp lấy đặc trưng phục vụ cho huấn luyện, nhận dạng chữ tượng hình. Trình bày phương pháp. Giới thiệu một số phương pháp trích chọn đặc trưng: Nội dung chương này giới thiệu một số phương pháp trích chọn đặc trong nhận dạng chữ tượng hình. Chương 4. Nhận dạng chữ Nôm theo khoảng

Ngày đăng: 25/08/2015, 11:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan