Extraction de séquences numériques dans des documents manuscrits quelconques

par Clément Chatelain

Thèse de doctorat en Informatique

Sous la direction de Guy Lorette.

Soutenue en 2006

à Rouen .


  • Résumé

    Dans le cadre du traitement automatique de courriers entrants, nous présentons dans cette thèse l’étude, la conception et la mise en oeuvre d’un système d’extraction de champs numériques dans des documents manuscrits quelconques. En effet, si la reconnaissance d’entités manuscrites isolées peut être considérée comme un problème en partie résolu, l’extraction d’information dans des images de documents aussi complexes et peu contraints que les courriers manuscrits libres reste à ce jour un réel défi. Ce problème nécessite aussi bien la mise en oeuvre de méthodes classiques de reconnaissance d’entités manuscrites que de méthodes issues du domaine de l’extraction d’information dans des documents électroniques. Notre contribution repose sur le développement de deux stratégies différentes : la première réalise l’extraction des champs numériques en se basant sur les techniques classiques de reconnaissance de l’écriture, alors que la seconde, plus proche des méthodes utilisées pour l’extraction d’information, réalise indépendamment la localisation et la reconnaissance des champs. Les résultats obtenus sur une base réelle de courriers manuscrits montrent que les choix plus originaux de la seconde approche se révèlent également plus pertinents. Il en résulte un système complet, générique et industrialisable répondant à l’une des perspectives émergentes dans le domaine de la lecture automatique de documents manuscrits : l’extraction d’informations complexes dans des images de documents quelconques.

  • Titre traduit

    Numerical sequences extraction in handwritten documents


  • Résumé

    Within the framework of the automatic processing of incoming mail documents, we present in this thesis the conception and development of a numerical field extraction system in weakly constrained handwritten documents. Although the recognition of isolated handwritten entities can be considered as a partially solved problem, the extraction of information in images of complex and free-layout documents is still a challenge. This problem requires the implementation of both handwriting recognition and information extraction methods inspired by approaches developed within the field of information extraction in electronic documents. Our contribution consists in the conception and the implementation of two different strategies: the first extends classical handwriting recognition methods, while the second is inspired from approaches used within the field of information extraction in electronic documents. The results obtained on a real handwritten mail database show that our second approach is significantly better. Finally, a complete, generic and efficient system is produced, answering one of the emergent perspectives in the field of the automatic reading of handwritten documents: the extraction of complex information in images of documents.

Autre version

Cette thèse a donné lieu à une publication en 2007 par [CCSD] à Villeurbanne

Extraction de séquences numériques dans des documents manuscrits quelconques

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 192 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 250 réf. Contient des articles en anglais

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rouen Normandie. Service commun de la documentation. Section Sciences et Techniques (site du Madrillet).
  • Non disponible pour le PEB
  • Cote : 06/ROUE/S056

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2006ROUES056
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.