Extraction de séquences numériques dans des documents manuscrits quelconques

par Clément Chatelain

Thèse de doctorat en Informatique

Sous la direction de Guy Lorette.

Soutenue en 2006

à Rouen .


  • Résumé

    Dans le cadre du traitement automatique de courriers entrants, nous présentons dans cette thèse l’étude, la conception et la mise en oeuvre d’un système d’extraction de champs numériques dans des documents manuscrits quelconques. En effet, si la reconnaissance d’entités manuscrites isolées peut être considérée comme un problème en partie résolu, l’extraction d’information dans des images de documents aussi complexes et peu contraints que les courriers manuscrits libres reste à ce jour un réel défi. Ce problème nécessite aussi bien la mise en oeuvre de méthodes classiques de reconnaissance d’entités manuscrites que de méthodes issues du domaine de l’extraction d’information dans des documents électroniques. Notre contribution repose sur le développement de deux stratégies différentes : la première réalise l’extraction des champs numériques en se basant sur les techniques classiques de reconnaissance de l’écriture, alors que la seconde, plus proche des méthodes utilisées pour l’extraction d’information, réalise indépendamment la localisation et la reconnaissance des champs. Les résultats obtenus sur une base réelle de courriers manuscrits montrent que les choix plus originaux de la seconde approche se révèlent également plus pertinents. Il en résulte un système complet, générique et industrialisable répondant à l’une des perspectives émergentes dans le domaine de la lecture automatique de documents manuscrits : l’extraction d’informations complexes dans des images de documents quelconques.


  • Résumé

    Within the framework of the automatic processing of incoming mail documents, we present in this thesis the conception and development of a numerical field extraction system in weakly constrained handwritten documents. Although the recognition of isolated handwritten entities can be considered as a partially solved problem, the extraction of information in images of complex and free-layout documents is still a challenge. This problem requires the implementation of both handwriting recognition and information extraction methods inspired by approaches developed within the field of information extraction in electronic documents. Our contribution consists in the conception and the implementation of two different strategies: the first extends classical handwriting recognition methods, while the second is inspired from approaches used within the field of information extraction in electronic documents. The results obtained on a real handwritten mail database show that our second approach is significantly better. Finally, a complete, generic and efficient system is produced, answering one of the emergent perspectives in the field of the automatic reading of handwritten documents: the extraction of complex information in images of documents.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 192 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 250 réf. Contient des articles en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rouen. Service commun de la documentation. Section sciences site Madrillet.
  • Non disponible pour le PEB
  • Cote : 06/ROUE/S056
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.