Nhận dạng tiếng Việt trên các thiết bị cầm tay (Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp Đại học Quốc gia do Trường Đại học Công nghệ quản lý

70 569 0
Nhận dạng tiếng Việt trên các thiết bị cầm tay (Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp Đại học Quốc gia do Trường Đại học Công nghệ quản lý

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUÓC GIA HÀ NỘI NHẶN DẠNG TIÉNG VIỆT TRÊN CÁC THIẾT BỊ CẦM TAY ( Báo cáo tổ n g h ợ p đề tài nghiên c ứ ',1 khoa học cấp Đại họ c OUOC oi.a T rư n g Đại học C ô n g ng hệ quản lý ) M ã sổ: Ọ C 06.02 C hủ nhiệm đề tài: PGS TS 1lồ S ĩ Đ àm ĐAI HOC QUỐC GIA HÀ NỘI TRUNG I AM t h o n g tin thư v iệ n OOOỐOOOOO V Hà N ội - 2006 l MỤC LỤC Danh sách nguòi tham gia đề tài Danh mục bảng biểu, hình vẽ Tóm tất kết q nghiên cứu đề t i Tóm tắt kết nghiên cứu chinh đề tài (tiếng A n h ) Báo cảo tổng h ọ p Giới th iệ u Hệ thống nhập liệu cùa Thiết bị số hỗ trợ cá n h â n Thể Cosin cùa Ịịệu chừ viết tay trực tu y ể n 3.1 Thẻ cosin nét liệu viết tay trực t u y ể n 3.2 Thề cosin nhiều n é t 11 Hệ thống nhận dạng 14 Thực nghiệm kết q u ] Kết lu ậ n 17 P h ụ l ụ c 21 DANH SÁCH NHỮNG NGƯỜI THAM GIA ĐỀ TÀI ST T Học hàm, hục vị, nơi công tác Họ tên Hô Sĩ Đàm PGS.TS Khoa CNTT - ĐH Công Nghệ Bùi Thê Duy TS Khoa CNTT - DH Công Nghệ ■ Nguyên Việt Hà TS Khoa CNTT - ĐH Công Nghệ Đào Minh Thư ThS Khoa CNTT -• ĐH Cơng Nghệ Ma Thị Châu Th.s Khoa CNTT - ĐH Công Nghệ Nguyên Thị Nhật Thanh Th.s Khoa CNTT - ĐH Công Nghệ Lê Thi Hơi I NCS i Khoa CNTT - DH Cône Nuhê DANH MỤC BẢNG BIÊU, HÌNH VẼ [ linh Nét vẽ gốc chừ số với 49 điểm lấy mẫu (trái) nét xấp xi thu dược trình biến đồi DCT ngược 16 điểm từ hiểu diễn cosin (phải) Biển diễn cosin nét vẽ gốc bảng phía 11 Hình Mai nét bút gốc cùa ký tự với 34 16 điểm lấy mẫu (trái) nét bút xấp xi thu trinh bicn đổi DCT ngược 16 điểm từ biểu điền cosin cùa chúng (phái) Biển diễn cosin cùa nét vẽ tiổc dược chi bảng phía d i 13 Hình Chừ “à” với nét bút (trái) hai nét bút xấp xi thu dược trình biến dổi DCT ngược 64 đicm từ biểu diễn cosin chúng (phủi) 14 Minh I lệ thống nhận cỉạng gồm n-bộ phân biệt, mồi hộ phân biệt cho ký tự 14 Mình Mỗi phân biệt mạng Perception da tầng 15 Hình Một sổ mầu nhận sai hộ thống cùa chúng tỏi Từ trái sang phái: Mầu số 5, nhận 3, 16 Bảng I Kèt quà nhận dạng tập kiểm tra (5317 mẫu) chửa phần ba cúa phần la (ch ữ số rời rạc) cùa tập liệu Unipen 16 BÁO CÁO TỐNG HỢP Giới thiệu Khái niệm Thiết bị sổ hỗ trợ cá nhân (Personal Digital Assistants - PDAs), hay thiêt bị cầm tay bat đâu xuất từ năm 1970, thuật ngữ ngày câng trớ nên phò biên lĩnh vực công nghệ Đen nay, sau thập kỷ, công nuhộ cho PDA phát triển cao tốc độ, đồ hoạ, diao diện sứ dụng, công nghệ ket noi, v.v PDA trờ thành thiết bị mạnh có khả ứng dụng ngày lớn rộng rãi PDA phát triển dựa V tướng “tối da hố việc hồ trợ tính tốn tối thiểu hố khơng gian” Cho đến PDA lủ loại máy tính nhỏ nhát giới PDA mội lliiếl bị kỳ thuật số có kích thước thiết kế cỡ khoảng bàn lay, hoại dộng cách dộc lập mà khơng cần đến phích cắm diện hay thiết bị phụ trợ nguồn điện vật lý cồng kềnh Kích thước hình khơng lớn, sổ lượng phím cứng tài ngun khơng dược dồi nhu máy tính để bàn hay máy tính xách tay loé nhập liệu vào Thiết bị số hồ trợ cá nhàn, bên cạnh sứ dụng bàn phím hình, ihi cách tự nhiên bàng chữ viết tay ưu chuộng Chữ viết tay cách thức nhập dừ liệu hiệu quà vỉ Thiết bị so hỗ trợ cá nhân q nhỏ đê chứa cá bàn phím với tất kí tự Một ví dự khác dễ dàng nhiều nhập liệu bàng chữ viết tay sổ ngơn ngữ mà có rât nhiều kí tự tiếng Trung Quốc, Nhật Bản, A-rập, Trong trường hợp này, sử dụna, bàn phím cịn phức tạp nhiều Tuy nhiên, nhân dạng chữ viết tay công việc đơn giản với máy tính Rât nhiều loại vấn de trono nhận đạnạ, chữ viết tay đira cho cộng đơng nghiên cứu dựa hình thức dừ liệu biểu diễn hệ thong nhận dạng, hay việc nhận dạna có phụ thuộc vào người viết không Thay vi cô găng giải tất cà vấn dề, hệ thống nhận dạng chữ viết tay thường tập trung vào tập cùa tập kí tự [6, 16, i 7], Dựa vào biêu diễn cua liệu, nhận dạng chữ viết lay chia làm hai loại: trực tuyến (online) ngoại tuyến (offline) [15] Dữ liệu nhận dạng ngoại tuyến dừ liệu ckrợc thê dạng điếm ảnh dược chiếu chụp hay quét từ văn Ngược lại, liệu nhận dạng trực tiếp số nét hút mà chúng ghi lại viết với thiết bị riêng biệt hình cảm ứng cùa thiết bị cầm tay Mồi nét bút dãy diêm lấy mẫu lưu lại cách khoảng thời gian hang Những nét bút cùa liệu viết tay trực tuyến dược có thê dược sứ dụng dể xây dựng dừ liệu ảnh dùng nhận dạng chữ viếi lay ngoại tuyến f 17 Tuy nhiên, điểm thuận lợi cùa liệu trực tuyên biết đươc nhữnu nét bút thứ tự viết thay vi chi biết điếm ảnh liệu ngoại tuycn Nêu tận dụng dưực thơng tin đạt ti lệ nhận dạng cao [2,3,111 Một hướng tiếp cận tận dụng nét bút sứ dụng biếu diễn hình học rnừ (fuzzy ueometric) cho nhận dạng kí tự dơn Ic [9,12] Sự biểu diễn dó dạt nhờ phân tích nét bút xấp xi dãy cung tròn, dược miêu lả (rong [10| Sự biểu diễn dưa Gagne Pari/eau với thuật tốn lập trình tiên hóa (Genetic Programming) để thu kết quà nhận dạng cao [6] Một cách tiếp cận khác sừ dụng biến đổi thông tin dộng cùa liệu viết tay thành tập íỉiển hình cùa đặc trưng độc lập tương hồ Polyakov Ryleev 113] kết hợp hiếu diễn Cosin (Cosine Descriptors) với tham số hỏa biến đổi lặp lại dể Cling cấp cách biêu diễn hiệu đối nét bút đơn cùa liệu chữ viêl tay bang vector gồm đặc trưng cùa Biểu diễu gọi biêu diễn cosin thu gọn (Optimized Cosine Descriptor), thể tập đặc trưng hữu hiệu cho việc nhận dạng Tuy nhicn, số ki tự thực tế không viết bời nét mà banụ nhiêu nét Hơn nét không đù dể nhận biết ki lự Và người ta cố gang nhận dạng kí tự thơng qua nét nối net dược nhận dạng thành kí tự hồn chinh [4, 5], Đây không phái hirớnạ, tiếp cận hiệu lồi nhận dạng xual hai lần hay tích tụ Trong đê tài nàv, mờ rộng phương pháp đưa trona, [13] dê biểu diễn nhiêu nét cùa kí tự thơng qua tập tính chất đặc trưng bang biến dồi cosin Sử dụng biêu diễn này, phát triên hệ thống nhận dạng kí tự trực tuyến dộc lập với người viết với phân biệt sử dụng mạng Nơ-ron da tầng (MuhiLayer Perception classifiers), phân biệt cho kí tự Chúng tơi dã thủ nghiệm hệ thống số tập dừ liệu, có tập liệu Unipen dạt kết qua đáng ý so với phương pháp khác Ngồi chúng tơi tiến hành thừ nghiệm với liệu tieng Việt nhò đạt kết quà tương đối kha quan Nội dung cùa báo cáo đề tài bố trí sau: Phần trinh bày vổ hệ thôim nhập liệu thiết bị cẩm tay Phần miêu lã cách thức thu ctưực biểu diễn cosin cùa liệu thô chừ viết tay trực luyến Sau đỏ, miêu tả hệ tliốns nhận dạng Phần Một số thử nghiệm kết quà nói đen Phân Hệ t h ố n g n h ậ p d ữ liệu c ủ a c c Thiết bị s ố h ỗ trợ cá nhản Việc nhập liệu vấn đề Thiết bị số hỗ trợ cá nhàn kích thước cùa chúng khơng đủ lớn đẻ thiết kế gắn kèm máy nhữnạ, hệ thống nhập dử liệu dạng bàn phím hay chuột máy lính Thay vào dó, người ta thường sử dụng phương thức nhập dừ liệu trực tiếp hình cám ứng lừ sỏ phím cứng thiết kế sẵn máy lầu hếi Thiết bị số hỗ trợ cá nhân sir dụng hình tinh the lịnu (LCD) Màn hình dược cấu thành lớp I.ứp thường lớp kính với lớp bao phú dặc biệt bơn Lớp kính thực phẩn cùa hình ta chạm vào Dưới lớp kính mánh kính đặc chuyên biệt, khơng dẫn điện Lớp cuối lớp uron« tự lớp đầu licn Mỗi hình dược nhàn, lớp kính di chuyển xun qua lóp khơng dẫn điện tiếp xúc với lớp cùiìỉi Dây nguyên nhân cùa trường diện lừ dược tạo lớp kinh bị ngắt quãng khoảng thời gian ngan Điểm dược chương trình điểu khiển nhận biết định vị trí hình nhấn, từ gửi thông tin cho hộ diều hành xử lý Các thông tin tương tự thông lin vị tri cùa chuột dang di chuyên Lưu trữ thông tin tạo nét bút liệu viết lay trực luyến đế phục vụ cho công việc nhận dạng Các thiết bị số hỗ trợ cá nhân thường có số lượng giới hạn phím cứng máy Các phím cứng tỏ hữu dụng dối với số chương trình cân kích (hước hình tối da mà hiển thị cùa bàn phím mềm hình làm khuât số dổi tượng cùa chương trinh, sử dụng phím (tê thao tác nhanh gợi điện thoại, iruy cập hịm ilnr điện tử, trinh duvệt, chụp tinh hav dóng ứng dụng Thực tế, thiết bị số hồ trợ cá nhân thường có phím; phím cửne, đồ kích hoạt chươnẹ trình thao tác mặc định như: lịch biểu, danh bạ điện thoại, danh sách công việc (To list) bàng ghi nhớ Hai phim cịn lại phím cuộn hình lèn xuống Trong tươne lai phát triển nhập liệu bang chừ viết tay, hệ thônu nhập dừ liệu thòng qua giọni> phát triển cho thiết bị sỏ hồ trợ cá nhân Lúc dó việc nhập liệu ihơne qua bíu cảm ứng chưa dã hình thức nhập liệu thích hợp Ngồi ra, sổ chươne trinh trị chai, phát triển joystick không chi dừng lại cho máy tính, phát triển cho cà thiếl bị số hồ trợ cá nhân kêt nòi với thiêt bị thông qua cổng serial Thể C o s in củ a d ữ liệu c h ữ v iế t tay trực tu y ế n 3.1 Thể cosin nét liệu viết tay trực tuyến Một dicu dã dược biết đen cách rộng rãi rang việc nhận dạng có che thu dược hiệu quà với việc sừ dụng chi tập nhò đặc trima tương hồ độc lập Polyakov Ryleev [13] dà kết nối biêu diễn cosin (Cosine Descriptors) với tham sơ hóa biến đổi lặp lại để dưa cách biều diễn hiệu quà nót bíu đơu cùa liệu chừ viịt tay trực tuyến vec-tơ tập tính chát đặc trưng Vec­ tor dó gọi biếu diễn cosin thu gọn (Optimized Cosine Descriptor), the lập tlậc trung rắt hữu dụng nhận dạng Q trình dó bao gồm hai bước chính, bước dầu tiên, thổ thô ban dầu (vcc-tơ iliểin) dược biến dồi thành tập hệ so với biến đổi Cosin rời rạc (Discrete Cosine Transformation II]) Ớ bước ihử hai, tập hệ số xử lý để thu dược chuẩn hóa khơng thay dơi đôi theo đơn vị do, di chuyển, xoay vịng, cà doi với vị trí cùa điếm bắt đầu viết Một nét bút cùa liệu chữ viết tay dãy dicm lay theo thời uian Sự chuvên dôi nét bất đầu với tham so khởi nhận dược hăng sụ lây mầu lại với diêm mẫu cùa dừ liệu han đầu theo khoảng cách bang nhau: (w ) (/ = , /V) Trong đó, diem dâu tiên (.lồng thịi đính bắt dầu nét bút, vá diêm thứ N dinh kểt thúc nét nút Sau dó, biếu (lien lham so ban dầu chuyên dối sang miên tán số xuát thu bicu điền Cosine, tập hộ sơ ■ F« = j j L , KI v Go = - ^ L ny» = ^ x „ ( * n « > s ( k t n)) G* = v ^ " ( j V '0 S ( k tJ ) 7T n= , , yv - £ = 0, ,P -1 Những hệ sổ cao thể Cosine giảm phù hợp với thứ lự đưực định trước phép toán xấp xi Biến đổi ngược cùa biểu diễn Cosin suy điểm mẫu ban đầu { *,>>}: = I.C A o s fk tJ ) n = — («+_) " /V /7 = N - it = P - \ Nét bút tính xấp xi sau tham số hóa lại, chuẩn hóa áp dụng để nét bút gốc để thu dược thể có tính tham số tiếp theo, biến đổi theo miền tần sổ để thu biểu điễn cosin Sự lặp lại phép xấp xì với liệu gốc đạt kết tốt tiến đến điểm hội tụ Cuối cùng, biếu diễn tập cosin dược cắt bỏ dựa theo thứ tự xác định trước phép xấp xỉ trờ đầu vào mô tá dừ liệu ban đầu dùng cho nhận dạng Hình cho thấy 10 if (X {i ) > gt) cs = ; gt = X (i ) ; end if (X ( i > > gt) cs = 9; gt = x (i ) ; end cs = cs+1; c s = for 1;

Ngày đăng: 19/03/2015, 09:45

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH SÁCH NHỮNG NGƯỜI THAM GIA ĐỀ TÀI

  • DANH MỤC BẢNG BIÊU, HÌNH VẼ

  • BÁO CÁO TỐNG HỢP

  • 1 Giới thiệu

  • 3 Thể hiện Cosin của dữ liệu chữ viết tay trực tuyến

  • 3.2 Thể hiện cosin của nhiều nét

  • 4 Hệ thống nhận dạng

  • 5 Thực nghiệm và kết quả

  • 6 Kết luận

  • TÀI LIỆU THAM KHẢO

  • PHỤ LỤC

Tài liệu cùng người dùng

Tài liệu liên quan