Reconnaissance hors-ligne par modélisation markovienne de mots manuscrits dans un vocabulaire ouvert

par Cherki Farouz

Thèse de doctorat en Sciences de l'ingénieur. Informatique

Sous la direction de Jean-François Nicaud.

Soutenue en 1999

à Nantes .


  • Résumé

    Nous décrivons dans ce mémoire un système de reconnaissance de mots manuscrits hors-ligne sans contrainte dans un grand vocabulaire. La réalisation d'un tel système a nécessité de répondre aux deux problèmes suivants : Le premier problème porte sur la diminution du taux de reconnaissance, observé quand il s'agit de rechercher le mot correspondant à une image dans un grand lexique. La réponse apportée à ce problème passe par une meilleure caractérisation de l'image pour mieux renseigner le module de reconnaissance. Nous avons développé dans le cadre de cette thèse une méthode d'extraction de caractéristiques, qui a�� partir d'une image de mot segmentée, détermine une description pour représenter le mot. Cette représentation est déduite de l'étiquetage des segments (entités résultant de la phase de segmentation) à partir d'un alphabet appelé ensemble de graphèmes.


  • Pas de résumé disponible.


  • Résumé

    Nous decrivons dans ce memoire un systeme de reconnaissance de mots manuscrits hors-ligne sans contrainte dans un grand vocabulaire. La realisation d'un tel systeme a necessite de repondre aux deux problemes suivants: le premier probleme porte sur la diminution du taux de reconnaissance, observe quand il s'agit de rechercher le mot correspondant a une image dans un grand lexique. La reponse apportee a ce probleme passe par une meilleure caracterisation de l'image pour mieux renseigner le module de reconnaissance. Nous avons developpe dans le cadre de cette these une methode d'extraction de caracteristiques, qui a partir d'une image de mot segmentee, determine une description pour representer le mot. Cette representation est deduite de l'etiquetage des segments (entites resultant de la phase de segmentation) a partir d'un alphabet appele ensemble de graphemes. Un grapheme est une entite pouvant correspondre a un morceau de lettre, une lettre complete ou des lettres jointes. L'alphabet des graphemes est construit dans une phase precedente a partir d'un echantillon d'apprentissage. L'etiquetage des differents segments de l'image tient compte du contexte local dans lequel les segments s'inscrivent. Cette idee nous a permis de construire une description pertinente de l'image qui est fournie par la suite aux modeles de markov caches pour estimer la probabilite de vraisemblance de l'image avec chaque entree du lexique. L'application d'une telle methode a donne des taux de reconnaissance tres interessants et a montre une certaine robustesse face a l'augmentation de la taille du lexique. Le deuxieme probleme souleve quand il s'agit de realiser une reconnaissance dans un grand vocabulaire porte sur le temps d'execution qui peut devenir redhibitoire surtout s'il y a des contraintes de temps reel. En reponse a ce probleme, nous avons developpe une methode de reduction de lexique pour la reconnaissance de mots manuscrits hors-ligne. Cette methode se base sur l'estimation d'une borne superieure, a partir d'heuristiques, pour la probabilite de vraisemblance de l'image avec une entree du lexique ou plusieurs. La technique de reduction consiste a eliminer des entrees du lexique, supposes eloignees, au fur et a mesure que nous trouvons dans le dictionnaire des mots proches de l'image en entree. Les tests ont montre que le taux de reconnaissance de la methode approche celui de la methode exhaustive mais le taux moyen d'elagage (69%) reste modeste.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 218 f.
  • Annexes : Bibliogr. f. 211-218

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : MF-1999-FAR
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.