LUẬN văn MẠNG máy TÍNH reconnaissance des caractères manuscrits isolés en ligne

66 145 0
LUẬN văn MẠNG máy TÍNH   reconnaissance des caractères manuscrits isolés en ligne

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Département de Génie de logiciel Faculté des Technologies de l’information et de la communication Université de Cantho Reconnaissance des caractères manuscrits isolés en ligne HO Hoang Nam PHAN Ho Quoc Mémoire présenté pour l’obtention du diplôme d’ingénieur en informatique Juillet 2011 © HO Hoang Nam, PHAN Ho Quoc, 2011 RESUME Ces travaux s’inscrivent dans le cadre de la reconnaissance des caractères manuscrits isolés en ligne Nous proposons un système de reconnaissance des caractères isolées, comprenant des mots non-accentués et accentués Le système présenté s’appuie sur la méthode SVM, qui a été reconnue comme un bon classifieur L’écriture manuscrite a été écrite sur la tablette, ensuite le système doit traiter l’écriture en les étapes suivantes : prétraitement, extraction de caractéristiques, segmentation et reconnaissance de caractère Dans ce mémoire, la combinaison des caractéristiques en ligne et hors ligne est utilisée L’ensemble de 45 caractéristiques est un résultat acceptable grâce auquel, on peut avoir un bon taux de reconnaissance Pour un caractère accentué, il est segmenté en deux parties : lettre et accent Ces deux parties sont reconnues séparément avec les deux systèmes de reconnaissance Le résultat est de combiner ces deux éléments Donc cette approche est connue dans la littérature comme celle analytique Avec le but d’améliorer le résultat de la reconnaissance, nous avons consacré une méthode pour calculer la distance d’édition entre deux mots (mesurer la similarité entre deux mots) afin de bien corriger le résultat dans le cas où il existe des erreurs d’orthographes Dans ce mémoire, l’expérimentation démontre que le système de reconnaissance construit de 45 caractéristiques peut bien fonctionner avec les deux bases de données UNIPEN et IRONOFF Mots clés : reconnaissance de l’écriture manuscrite en ligne, SVM, caractères accentués, segmentation, distance d’édition, extraction et sélection des caractéristiques ABSTRACT These works are part of the online handwritten characters recognition We propose a handwritten characters recognition system for isolated characters, including accented and non- accented words The presented system in based on the SVM method, which was known a good classifier for recognizing handwriting The handwriting was written on the tablet, and then the system must process on the following steps: preprocessing, feature extraction, segmentation, recognition In our corpus, the combination of online and offline features is used The set of 45 characteristics is an acceptable result by which we can have a good recognition rate For an accented character, it is segmented into two parts: letter and accent Both parts are recognized separately with two systems of recognizing The result is the combination of two elements in order to have an accented character With the aim to improve the recognition result, we introduce a method for calculating the similarity between two words to find a best word than the result in the case of having errors in the result of recognition Finally, the experimentation shows that the recognition system built on 45 features can work well with both databases UNIPEN and IRONOFF Keywords: online handwriting recognition, SVM, accented character, segmentation, edition distance, feature extraction, feature selection TABLES DES MATIERES RESUME ABSTRACT TABLES DES MATIERES LISTE DES FIGURES LISTE DES TABLEAUX REMERCIEMENTS CHAPITRE 1: INTRODUCTION CHAPITRE : PROBLEME DE RECONNAISSANCE DES CARACTERES MANUSCRITS ISOLES EN LIGNE 10 2.1 RECONNAISSANCE DES CARACTERES MANUSCRITS ISOLES EN LIGNE : 10 2.1.1 Histoire de la reconnaissance des caractères manuscrits en ligne : 10 2.1.2 Etat de l’art : 11 2.2 PROBLEMATIQUE DU SUJET : 12 2.3 ETUDE DE CAS : 14 2.4 CONCLUSION : 16 CHAPITRE : SEGMENTATION 17 3.1 PROBLEMATIQUE : 17 3.2 SEGMENTATION EN LIGNE: 19 3.3 SEGMENTATION EN MOT ET EN CARACTERE : 23 3.3.1 Segmentation en mot: 24 3.3.2 Segmentation en caractère: 26 3.4 DETECTION D’ACCENT : 29 3.5 CONCLUSION : 36 CHAPITRE 4: MACHINE A VECTEURS DE SUPPORT (SVM) 37 4.1 INTRODUCTION : 37 4.2 SVM LINEAIRE : 37 4.3 SVM NON LINEAIRE: 40 4.4 CLASSIFICATION DES DONNEES DE MULTIPLES CLASSES (>2) 41 4.5 CONCLUSION : 43 CHAPITRE 5: RECONNAISSANCE DES CARACTÈRES MANUSCRITS ISOLES EN UTILISANT SVM 44 5.1 MODELE DE RECONNAISSANCE : 44 5.1.1 Segmentation : 44 5.1.2 Extraction et sélection des caractéristiques : 45 5.1.3 Classification : 47 5.2 EXPERIMENTATIONS : 47 5.2.1 Description des bases de données : 47 5.2.2 Résultats expérimentales : 49 5.3 CORRECTION D’ERREURS D’ORTHOGRAPHE: 53 5.3.2 Distance d’édition (distance de Levenshtein) : 54 5.3.3 Taux de correction : 58 5.4 CONCLUSION : 59 CHAPITRE 6: CONCLUSION 60 6.1 RESULTATS OBTENUS: 60 6.2 DEVELOPPEMENT DU SUJET: 60 ANNEXE 62 ANNEXE 63 BIBLIOGRAPHIE 64 LISTE DES FIGURES  Figure 2.1 - Deux styles d’écriture 12 Figure 2.2 - Illustration des partis dans un fichier du signal d’écriture manuscrite en ligne selon le standard UNIPEN 13 Figure 2.3 - Modèle de reconnaissance des caractères manuscrits 15 Figure 2.4 - Modèle de reconnaissance de caractère manuscrit de notre système 16 Figure 3.1 - Fichier entré (fichier DNT) 17 Figure 3.2 – Processus de traitement d’un fichier DNT 18 Figure 3.3 - Diffộrences dans les deux faỗons d’écriture 18 Figure 3.4 - Définition des parties d’un tracé 19 Figure 3.5 – Coordonnées d’un tracé 19 Figure 3.6 - Bte englobante des tracés 1, 2, 3, 4, 20 Figure 3.7 - Une faute de la segmentation en ligne 21 Figure 3.8 - Résultat de la segmentation des lignes 23 Figure 3.9 - Segmentation en mot 24 Figure 3.10 - Résultat de la segmentation en mot 26 Figure 3.11 - Une faute de la segmentation en caractère 27 Figure 3.12 - Résultat de la segmentation en caractère 29 Figure 3.13 - Détection d’accent par la méthode 31 Figure 3.14 - Cas limités de l’algorithme de la détection d’accent par la méthode 31 Figure 3.15 - Faiblesses de l’algorithme de la détection par la méthode 32 Figure 3.16 – Illustration le caractère E 33 Figure 4.1 - Cas de séparation non erreur 38 Figure 4.2 - Cas de séparation avec d’erreurs 38 Figure 4.3 - SVM non linéaire 41 Figure 4.4 - Technique (1 contre 1) et (1 contre tous) 42 Figure 4.5 - Technique de séparation des classes 43 Figure 5.1 - Modèle de reconnaissance de caractère manuscrit avec SVM 44 Figure 5.2 - Combinaison des caractéristiques en ligne et hors ligne 45 Figure 5.3 - Grille 3x3 pour extraire les caractéristiques statistiques et structurales 46 Figure 5.4 - accents de franỗais 48 Figure 5.5 - Structure des caractères vietnamiens 52 LISTE DES TABLEAUX  Tableau 5.1 - Description détaillée des bases de données 49 Tableau 5.2 - Résultats de l’expérimentation sur caractères non accentués 50 Tableau 5.3 - Reconnaissance de accents 50 Tableau 5.4 - Résultat de la reconnaissance de caractères accentués après avoir combiné des caractères et des accents 51 Tableau 5.5 - Résultat de la reconnaissance de caractères spéciaux 52 Tableau 5.6 - La résolution de la reconnaissance des caractères vietnamiens majuscules 53 Tableau 5.7 - Résultat de la correction d’erreurs des mots 58 REMERCIEMENTS  En premier lieu nous souhaiterions remercier notre directeur de mémoire de fin d’études Monsieur TRAN Cao De pour ses permissions de travailler notre mémoire, pour ses encouragements et pour ses conseils toujours très précieux pour la rédaction des différents écrits et la préparation d’une soutenance de mémoire de fin d’études Pendant le temps que nous faisons ce sujet, les professeurs de la faculté d’informatique nous apportent des connaissances utiles et pratiquées Que nous les remercions, nous leur souhaitons des bonnes santés et des réussites dans leurs travaux Nous ne saurions trop remercier l’ensemble de nos amis pour l’ambiance chaleureuse qu’ils créent au quotidien et que nous avons particulièrement appréciée Bien que nous fassions ce projet avec tous nos efforts, nous pensons qu’il existe encore des erreurs, et des faiblesses Après six mois d’élaboration, notre projet répond aux objectifs de notre sujet Nous avons envie de recevoir toutes les opinions de nos professeurs, nos amis pour que nous soyons de plus en plus compétent dans la recherche CHAPITRE 1: INTRODUCTION L’écriture manuscrite est un des moyens nécessaires de l’homme Il est apparu pendant une longue période partir de symboles afin de transmettre des informations importantes On peut dire que l’écriture de chaque personne est différente avec les autres et même si l’écriture d’une personne pourrait être différente de lui-même en raison de nombreuses facteurs : par exemple l’âge, psychologies,… Depuis les premières tentatives, les systèmes de reconnaissance d’écriture de lecture des adresses pour le traitement automatique du courrier ou de lecture des chèques ont connu comme des importants développements et sont maintenant largement utilisés Dans la recherche de reconnaissance d’écriture, il y avait beaucoup de recherches sur la langue anglais mais rarement sur le francais (ayant des caractères accents) Avec le but de reconntre des caractères accents, ce sujet a pour but de présenter la recherche sur la reconnaissance de caractère manuscrit isolé en ligne Nous présentons tout d’abord l’histoire de la reconnaissance de caractère manuscrit isolé en ligne Le modèle général du processus de reconntre sera aussi abordé afin de bien comprendre les étapes qu’il faut passer dans la recherche Nous nous consacrons ensuite l’étape de segmentation pour les caractères accentués C’est une des étapes importantes pour segmenter l’écriture en ligne, en mot et en caractère Pour chaque cas de segmentation, nous abordons des algorithmes, des avantages et aussi des inconvénients pour résoudre la segmentation dans le processus de reconnaisance de caractère manuscrit isolé en ligne Nous présentons, dans la suite, une méthode de classification binaire qui s’appelle SVM (Machine vecteurs de supports ou Sytème Vaste Marge) Les problèmes de SVM contenant la construction des modèles SVM dans les cas linéaires et non linéaires seront mentionnés Ce chapitre sera présenté une méthode pour résoudre le problème de classification avec multiclasses En appliquant l’algorithme SVM dans la reconnaissance des caractères manuscrits isolés en ligne, ce chapitre mentionne des travaux importants dans la recherche Nous abordons le problème d’extraction et sélection des reconnaissance Le système de la reconnaissance d’écriture manuscrite dans ce mémoire est basé sur seulement 45 caractéristiques Reconnaissance d’écriture manuscrite sur Chiffre (0 … 9) Majuscule ‘A’ … ‘Z’ Minuscule ‘a’ … ‘z’ Echantillons d’entrnement Echantillons de test pour pour chaque classe chaque classe 1600 400 96.1% 1600 400 92.2% 1600 400 90.4% Taux de reconnaissance correct Tableau 5.2 - Résultats de l’expérimentation sur caractères non accentués  Test sur les caractères accentués : Comme les caractères accentués segmentent en deux parties (lettre et accent), nous construisons aussi deux systèmes pour les reconntre Le système de reconnaissance de accents a été construit par l’utilisation des 45 caractéristiques présentées dans l'annexe La reconnaissance correcte est très élevée, 99,1% En fait, il y a seulement quatre classes et la distinction entre chaque accent est très explicite Le résumé de la reconnaissance de accents est présenté dans le tableau 5.3 Reconnaissance Echantillons Echantillons de Taux de d’écriture manuscrite sur d’entrnement pour chaque classe test pour chaque classe reconnaissance correct Accent 300 100 99.1% Tableau 5.3 - Reconnaissance de accents Pour reconntre des caractères accentués, nous réutilisons une construction de De Cao Tran [1], la base de donnée artificielle, qui est créée par la combinaison 50 des accents et des voyelles Pour chaque voyelle dans l’ensemble de test des caractères minuscules, un caractère accentué est créé par la combinaison de la voyelle et l'accent (si applicable) Dans ce cas-là, il y a 13 caractères accents : â é è ê ë ỵ ï ô ù û ü ÿ La base de donnée artificielle comprend également tous les échantillons non accentués De plus, la base de donnée contient 26 caractères non accentués et 13 caractốres accentuộs franỗais Il existe 400 ộchantillons pour chaque classe de caractère [1] Actuellement, les caractères accentués ne peuvent être reconnues directement, mais par les caractères minuscules et les accents Le test sur la base de donnée artificielle vise tester la performance de la segmentation et le taux de reconnaissance 200 échantillons dans chaque caractère accentué de la base de donnée COLLECTION sont également utilisés dans ce test L'expérimentation sur COLLECTION vise tester la performance de la méthode dans la segmentation et la reconnaissance dans les conditions de l'écriture sur la tablette [1] Tester sur à, â, é, è, ê, ë, ỵ, ï, ơ, ù, û, ü, ÿ Utiliser : caractères en minuscule (26 classes) et accents (4 classes) Source Echantillons de test pour chaque classe Taux de reconnaissance correct Base de données artificielle 400 93.5 % COLLECTION 200 92.7 % Tableau 5.4 - Résultat de la reconnaissance de caractères accentués après avoir combiné des caractères et des accents On peut voir que le taux de reconnaissance des caractères accentués dépend du taux de reconnaissance des caractères en minuscules, taux de reconnaissance des accents, de la détection, de la segmentation des accents et de la segmentation des lettres Pour le cas de la base de donnée COLLECTION, certains échantillons 51 de l’accent sont mal écrits (difficile de séparer l’accent et la lettre) Cette difficulté entrne une segmentation erronée, de sorte que la performance de la reconnaissance est inférieure celui dans le cas de la base de données artificielle Toutefois, ce taux reflète réellement le taux de reconnaissance sous condition d’utiliser la tablette  Test sur les caractères spéciaux : Dans ce mémoire, côté de la reconnaissance de caractères et chiffres, nous trouvons que les caractères spéciaux sont une des parties très importantes qui sont écrites souvent par l’utilisateur Mais il n’y a pas du système qui sert les reconntre Nous avons déjà construit un modèle de l’entrnement et de la reconnaissance Reconnaissance d’écriture Echantillons d’entrnement Echantillons de test pour chaque Taux de reconnaissance manuscrite sur pour chaque classe classe correct Caractères spéciaux 200 80 96.1% Tableau 5.5 - Résultat de la reconnaissance de caractères spéciaux  Test sur les caractères vietnamiens majuscules : Les caractères vietnamiens sont plus complexes que les autres écritures Puisque les caractères vietnamiens se composent de 1, ou parties Figure 5.5 - Structure des caractères vietnamiens Avec les caractères ayant ou parties, la reconnaissance d’écriture vietnamien est comme celle-ci du franỗais Pourtant, avec les caractốres contenant parties, il est difficile segmenter pour avoir chaque élément séparément Donc 52 dans cette partie nous nous approchons dans le cas sans segmentation 150 échantillons sur classe ont utilisé pour l’entrainement, 70 échantillons pour les tests En effet, le taux de reconnaissance est assez bien, 82,3% cause de la diversité de classes (89 classes) Dans le cas où on a élaboré l’algorithme de segmentation les caractères vietnamiens, le taux de reconnaissance est plus mieux que le cas non segmentation [1] Le tableau 5.6 est la résolution détaillée de ce test Reconnaissance Echantillons Echantillons de Taux de d’écriture d’entrnement test pour chaque reconnaissance manuscrite sur pour chaque classe classe correct Caractères vietnamiens majuscules 150 70 82.3% Tableau 5.6 - La résolution de la reconnaissance des caractères vietnamiens majuscules 5.3 CORRECTION D’ERREURS D’ORTHOGRAPHE: 5.3.1 Problématique : Après avoir fini de reconntre l’écriture manuscrite, le résultat de la reconnaissance peut contenir des erreurs cause de l’imparfait du moteur de recherche Certains caractères sont mal reconnt, donc des erreurs d’orthographes pourraient être se produire dans les mots composés de ces caractères Pour améliorer le taux de reconnaissance des mots, l’approche proposée ici ne se concentre pas sur la consolidation du moteur de reconnaissance de caractère, mais elle se concentre sur le mot entier Autrement dit, nous allons corriger des erreurs dorthographes des mots, plutụt que chercher la faỗon daugmenter la performance du moteur de reconnaissance de caractère Actuellement, il y avait plusieurs méthodes bien connues pour le problème de correction d’orthographe Parmi lesquelles, la méthode de calculer la distance d’édition est consacrée Pour pouvoir élaborer la correction des erreurs, il faudrait avoir une base de donnée assez grande comme un dictionnaire franỗais Par consộquent, dans notre 53 mộmoire, nous utilisons une base de données d’un dictionnaire qu’on peut télécharger gratuitement sur l’Internet [8] Ce dictionnaire se compose de plus de 350000 mots, grâce cette diversité de vocabulaires, le systốme peut corriger la plupart des mots franỗais Lidộe principale de cette partie est la correction d’un mot qui est le résultat de la reconnaissance (s’il y a des erreurs), puis on calcule la distance de ce résultat avec chaque mot dans le dictionnaire afin de trouver la valeur la plus petite de la distance d’édition Finalement, le mot contenant la valeur trouvée est le résultat 5.3.2 Distance d’édition (distance de Levenshtein) : La distance d’édition mesure la similarité de deux chnes de caractères Elle est égale au nombre minimal de caractères qu’il faut supprimer, insérer ou remplacer pour passer d’une chne l’autre On appelle distance d’édition entre deux mots M et P est le coût minimal pour aller de M P en effectuant les opérations élémentaires suivantes :  Substitution d’un caractère de M en un caractère de P  Ajout dans M d’un caractère de P  Suppression d’un caractère de M On associe ainsi chacune de ces opérations d’un coût Par exemple, dans les exemples suivants, le coût est toujours égal 1, sauf dans le cas d’une substitution de caractères identiques Exemples : - Si M = et P = , alors DE (M, P) = parce qu’aucune opérations a été réalisée - Si M = et P = , alors DE (M, P) = parce qu’il a eu un remplacement (changement du e en a) L’algorithme pour calculer la distance d’édition : On suppose que l'input est donné de la faỗon suivante : chaine1, chaine2 entier DistanceDeLevenshtein(caractốre chaine1[1 longueurChaine1], caractère chaine2[1 longueurChaine2]) // d est un tableau de longueurChaine2+1 rangées // et longueurChaine1+1 colonnes 54 déclarer entier d[0 longueurChaine1, longueurChaine2] // i et j itèrent sur chaine1 et chaine2 déclarer entier i, j, coût pour i de longueurChaine1 d[i, 0] := i pour j de longueurChaine2 d[0, j] := j pour i de longueurChaine1 pour j de longueurChaine2 si chaine1[i] = chaine2[j] alors coût := sinon coût := //on pourra //en distinguant différents cas d[i, j] := minimum( d[i-1, j ] + 1, // d[i , j-1] + 1, // d[i-1, j-1] + coût // ) retourner d[longueurChaine1, longueurChaine2] affiner ce coût effacement insertion substitution Illustration de l’algorithme: Ainsi, par exemple, lorsque l'on teste la distance entre la chne manger et la chne chanter, les calculs sont les suivants: - On définit pour commencer les valeurs : longueurChaine1=6 longueurChaine2=7 chaine1[1,…,6]={m, a, n, g, e, r} chaine2[1,…,7]={c, h, a, n, t, e, r} - Ce qui permet d’effectuer les deux premières boucles de l’algorithme, et d’obtenir ainsi les premières valeurs de la matrice de dimension 7x8 (longueurChaine1+1 x lognueurChaine2+1) : C H A N T E R - M A N G E R On remplit ensuite la matrice en suivant la troisième boucle présentée plus haut ; par exemple, pour remplir la première colonne (pour i=1), on teste toutes les valeurs de j (de 7) : 55  Pour j = 1, on a chaine1[1] = M et chaine2[1] = C donc cout = d[i-1, j] + = d[0, 1] + = + = d[i, j-1] + = d[1, 0] + = + = d[i-1, j-1] + cout = d[0, 0] + cout = + = d’où d[1, 1]=min(d[i-1, j] + 1,d[i, j-1] + 1, d[i-1, j-1] + cout)=min (2,2,1)=1  Pour j = 2, on a chaine1[1] = M et chaine2[2] = H donc cout = d[i-1, j] + = d[0, 2] + = + = d[i, j-1] + = d[1, 1] + = + = d[i-1, j-1] + cout = d[0, 1] + cout = + = d’où d[1, 2]=min(d[i-1, j] + 1,d[i, j-1] + 1, d[i-1, j-1] + cout)=min (3,2,2)=2  Pour j =3, on a chaine1[1] = M et chaine2[3] = A donc cout = d[i-1, j] + = d[0, 3] + = + = d[i, j-1] + = d[1, 2] + = + = d[i-1, j-1] + cout = d[0, 2] + cout = + = d’où d[1, 3]=min(d[i-1, j] + 1,d[i, j-1] + 1, d[i-1, j-1] + cout)=min (4,3,3)=3  etc, jusqu’ j = 7, ce qui permet d’obtenir pour i = 1, la colonne suivante : C H A N T E R - M A N G E R 6 Pour i = 2, on teste nouveau toutes les valeurs de j; ce qui donne:  Pour j = 1, on a chaine1[2] = A et chaine2[1] = C, donc cout = d[i-1, j] + = d[1, 1] + = + = d[i, j-1] + = d[2, 0] + = + = 56 d[i-1, j-1] + cout = d[1, 0] + cout = + = d’où d[2, 1]=min(d[i-1, j] + 1,d[i, j-1] + 1, d[i-1, j-1] + cout)=min (2,3,2)=2  Pour j = 2, on a chaine1[2] = A et chaine2[2] = H, donc cout = d[i-1, j] + = d[1, 2] + = + = d[i, j-1] + = d[2, 1] + = + = d[i-1, j-1] + cout = d[1, 1] + cout = + = d’où d[2, 2]=min(d[i-1, j] + 1,d[i, j-1] + 1, d[i-1, j-1] + cout)=min (3,3,2)=2  Et ainsi de suite, jusqu’à j = 7, ce qui donne la deuxième colonne : C H A N T E R - M 1 A N G E R 2 Et ainsi de suite, jusqu’à i = 6, la fin des itérations, on obtient la matrice suivante : C H A N T E R M 1 A 2 2 N 3 3 G 4 4 3 E 5 5 4 R 6 6 5 La distance de Levenshtein entre les deux chaines testées correspond d[longueurChaine1, longueurChaine2], c'est-à-dire au nombre en bas, droite, qui ici vaut 57 Remarques: la complexité d’algorithme est égale O(nm) en temps avec n est la longueur m qui est la longueur de chaine 1, n est la longueur de chaine 5.3.3 Taux de correction : Dans cette partie, pour tester la performance de cet algorithme, nous avons collecté des mots franỗais qui ont ộtộ ộcrits par les ộtudiants Après avoir fini collecter, nous classifions les mots partir du pourcentage d’erreurs dans un mot C'est-à-dire avec les mots ayant des erreurs qui sont inférieurs 10% de la longueur de ces mots, nous groupons en un ensemble De même avec les cas des erreurs qui sont supérieurs 10% mais inférieurs 20%, un ensemble des mots qui ont des erreurs inférieurs 30% de la longueur totale de ces mots Le tableau ci-dessous indique les résultats des expérimentations détaillées pour évaluer l’efficacité de cet algorithme Erreurs égales Totalité d’échantillons Vrai correction Faux correction Taux de correction 10% la longueur 1000 972 28 97.2% 20% la longueur 1000 914 86 91.4% 30% la longueur 1000 871 129 87.1% Tableau 5.7 - Résultat de la correction d’erreurs des mots Grâce au tableau ci-dessus, cet algorithme a bien corrigé les mots franỗais On a bien trouvộ que le taux de correction est proportionnel inverse avec la densité des erreurs dans chaque mot Actuellement, avec les mots qui sont courts, la capacité de correction est un peu bas, par exemple : les prépositions, les articles, … Le temps pour corriger d’un mot est un peu long donc pour effectuer une liste ayant 1000 mots dans nos expérimentations est aussi assez longue C’est pourquoi dans le système de reconnaissance, afin d’améliorer le temps de correction, nous avons divisé le dictionnaire en des petits fichiers par rapport la longueur des mots C'est-à-dire, pour les mots qui ont lettres, nous les groupons dans un fichier et faisons de même chose avec les autres mots Ensuite, la longueur 58 du résultat de la reconnaissance a été calculée et est effectuée au fichier correspondant Pourtant, cette méthode dépend de l’étape segmentation parce que si la segmentation n’est pas bonne, cela influencera la correction 5.4 CONCLUSION : Dans ce chapitre, nous avons présenté le modèle de reconnaissance de carctère manuscrit isolé en ligne avec SVM Nous avons déjà abordé le problème d’extraction et sélection des caractéristiques dans le système en combinant les caractéristiques en ligne et hors ligne En effet, nous avons sélectionné 45 attributs qui sont une solution acceptable pour le taux de reconnaissance de l’écriture L’algorithme SVM a été appliqué en choisissant les deux paramètres C et  qui est 22 et 2-5 Après avoir reconnu l’écriture, nous avons construit un module pour corriger les erreurs qui apparaissent dans le processus de reconnaissance Une méthode de calculer la distance d’édition, une méthode simple et efficace a été réalisée Cette méthode a bien corrigé les mots de plus en plus longs, le taux de statistique dans les cas qui ont des solutions très motivées 59 CHAPITRE 6: CONCLUSION Dans notre mémoire, nous avons utilisé la méthode SVM et la fonction noyau RBF pour construire le modèle d’entrnement et de reconnaissance de caractère manuscrit isolé en ligne Les étapes principales de ce modèle ont été abordées : pré-traitement, extraction et sélection de caractéristiques, segmentation de lettre et accent Ce modèle a été évalué sur les bases de données UNIPEN, IRONOFF avec un bon taux de reconnaissance Nous avons collecté des échantillons assez grands qui servent reconntre 17 caractères spéciaux Ensuite, nous avons appliq le modèle ci-dessus dans notre recherche et la solution obtenue est très motivée 6.1 RESULTATS OBTENUS: - Construire un module qui sert corriger après avoir reconnu l’écriture, le taux de correction, qui est applicable, aide perfectionner le résultat de reconnaissance - Collecter des bases de données de l’accent et de caractère spécial sous le format d’UNIPEN Aider utiliser ces bases de données dans les recherches suivantes - Sélectionner et combiner des caractéristiques en ligne et hors ligne, trouver des ensembles des caractéristiques pour chaque type de donnée : chiffres, alphabets et caractères spéciaux, cela peut appliquer facilement dans les domaines qui demandent de reconntre une groupe de donnée (par exemple : le courriel,…) 6.2 DEVELOPPEMENT DU SUJET: - Ne pas pouvoir bien segmenté entre lettre et accent dans le cas où l’utilisateur a mal écrit Améliorer la segmentation de lettres et d’accents afin d’avoir une bonne solution - Ne que corriger les erreurs orthographiées selon le dictionnaire Ne pas bien corriger les mots courts (articles, préposition) Construire une base de donnée en combinant les articles, les prépositions et les noms Dans le processus de correction, côté de la distance d’édition, il faut tester aussi sur la base de donnée que nous avons créé afin de bien corriger les mots courts - Réaliser un module pour corriger les erreurs grammaticales des résultats de la reconnaissance 60 - Construire une base de donnée ayant des noms communs et l’appliquer dans un logiciel spécifique de reconntre les places, les pays,… - Développer pour que le système puisse reconntre l’écriture cursive 61 ANNEXE Caractéristiques hors ligne Caractéristique hors ligne Note ANGLE_A4 ANGLE_A5 ANGLE_A7 Les angles qui sont inférieur 1800 dans la cellule 4, 5, F_RATE_2 F_RATE_3 Le pourcentage des points dans chaque cellule F_RATE_4 F_RATE_5 F_RATE_6 F_RATE_8 F_RATE_9 G_X_RATE G_Y_RATE OCCLUSION Les coordonnées du centre de gravité de la boite englobante et le nombre d’occlusions POLL_L1H10 Nombre d’intersections de l’image (caractère) avec les POLL_L1V5 POLL_L9H10 lignes horizontales en 1/10 et 9/10 de largeur, avec la ligne verticale en 1/5 d’hauteur PROFILE_L Le profile gauche PROJECTION_H1 PROJECTION_H3 PROJECTION_H8 PROJECTION_H9 PROJECTION_V3 PROJECTION_V9 Le pourcentage de projection horizontale dans les cellules 1, 3, 8, et de projection vertical dans les cellules 3, au-dessus RAD2 RAD3 RAD4 RAD7 Moments de Radon: 2, 3, et ZER0 ZER14 ZER6 Moments de Zernike: 0, et 14 62 ANNEXE Caractéristiques en ligne Caractéristique en ligne Note DS_H Le pourcentage de la hauteur de la plus longue tracé haut-bas sur la hauteur de la boite englobante de caractère END_X END_Y Les coordonnées du point final LG_H Le pourcentage de la longueur totale de tous tracés sur la hauteur de la boite englobante de caractère LOCDIR_2 LOCDIR_3 LOCDIR_7 LOCDIR_8 LOCDIR_HL_1 Histogramme locale des points d’encres dans directions NB_STR Nombre des traces (stylo-bas et stylo-up en couple) PROFILE_DIR_L La moyenne des cosinus des points de pointe avec cosinus > PROFILE_DIR_R La moyenne des cosinus des points de pointe avec cosinus < REB_NB Nombre des points de pointes START_X START_Y Les coordonnées du point de départ 63 BIBLIOGRAPHIE [1] De Cao Tran, Patrick Franco, Jean-Marc Ogier, Accented Handwritten Character Recognition Using SVM – Application to French, pp 65-71, Proceeding of 12th international conference on frontiers in handwriting recognition, ICFHR 2010 [2] Clément Chatelain, Extraction de séquences numériques dans des documents manuscrits quelconques, Système de reconnaissance de l’écriture manuscrite, Thèse en vue de l’obtention du diplôme Docteur de l’université de Rouen, Décembre 2006 [3] http://unipen.org/ [4] Weka home page http://www.cs.waikato.ac.nz/~ml/weka/ [5] Abdul Rahim Ahmad, Reconnaissance de l’écriture manuscrite en ligne par approche combinant systèmes vastes marges et modèles de Markov cachés, Thèse en vue de l’obtention du doctorat de l’université de Nantes, 29 Décembre 2008 [6] http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [7] Ph Preux, Fouille de données Note de cours, Université de Lille, 2008 [8]http://www.commentcamarche.net/forum/affich-6682626-recherche-de-bases-dedonnees-dictionnaires 64 ... s’inscrivent dans le cadre de la reconnaissance des caractères manuscrits isolés en ligne Nous proposons un système de reconnaissance des caractères isolées, comprenant des mots non-accentués et accentués... méthodes de reconnaissance, le modèle de reconnaissance des caractères manuscrits isolés en ligne comprend parties : la partie d’entrnement et la partie de reconnaissance Dans la partie d’entrnement,... 3.7 - Une faute de la segmentation en ligne 21 Figure 3.8 - Résultat de la segmentation des lignes 23 Figure 3.9 - Segmentation en mot 24 Figure 3.10 - Résultat de la segmentation

Ngày đăng: 20/03/2018, 01:05

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan