Reconnaissance structurelle de documents imprimés : études et réalisations

par Yannick Chenevoy

Thèse de doctorat en Informatique

Sous la direction de Abdelwaheb Belaïd.

Soutenue en 1992

à Vandoeuvre-les-Nancy, INPL .


  • Résumé

    Cette thèse concerne la reconnaissance de la structure de documents imprimés. En lecture optique, il ne suffit pas d'identifier les caractères qui forment le contenu d'un document pour bien le reconnaître. Il est indispensable de reconnaître également sa structure (physique et logique) si l'on veut conserver une information optimale sur le document. Ainsi, un document pour lequel on a reconnu la structure, au même titre que le contenu, pourra aisément être restitué sous un format proche de celui d'origine. Il pourra également être archivé, consulté, mis à jour, transféré, etc. Cette thèse est organisée en quatre parties principales. Dans la première partie, nous étudions l'intérêt des normes internationales pour la structuration. Ces normes ayant été conçues pour la production, nous étudions leurs apports pour la lecture optique et définissons un langage de modélisation. La deuxième partie concerne la reconnaissance de la structure de haut niveau (macro-structure). Cette reconnaissance est illustrée à travers une classe de documents de type "articles scientifiques". Il s'agit ici de reconnaître des entités de type paragraphe, titre, figure, résumé, etc. Le modèle joue un rôle moteur car il guide la stratégie en fournissant les différents choix de décomposition. Le choix de la "meilleure hypothèse" est basé sur un calcul de score qui s'inspire de la notion physique d'entropie. La reconnaissance de la structure de bas niveau (micro-structure) est traitée dans la troisième partie, à travers l'exemple des notices bibliographiques issues de catalogues de la Bibliothèque Nationale. Il s'agit ici de reconnaître la structuration dans une architecture de type paragraphe. Nous avons opté pour une stratégie différente basée sur une extraction d'indices pertinents de l'image, suivie d'une propagation de contraintes syntaxiques sur la chaîne des mots. Une analyse ascendante/descendante permet de reconstituer l'arbre structurel à partir d'éléments fiables appelés "îlots de confiance". La dernière partie concerne l'implémentation d'une plate-forme de recherche pour la reconnaissance structurelle. Cette plate-forme, appelée GRAPHEIN possède une architecture multi-agents, basée sur le modèle du blackboard. Le contrôle est hiérarchisé afin de permettre une stratégie de focalisation adaptable en fonction des connaissances tirées du modèle et de l'image. Suivant l'état de ces connaissances, le système adopte une stratégie descendante (guidée par le modèle), ascendante (guidée par les données) ou mixte. Le blackboard est structuré en niveaux permettant de représenter la structure spécifique du document analysé.

  • Titre traduit

    Recognition of printed structured documents : research and implementation


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (223 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.185-195. Résumé en français. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine. Direction de la documentation et de l'édition. BU Ingénieurs.
  • Disponible pour le PEB
  • Cote : 1992 CHENEVOY Y.
  • Bibliothèque : Université de Lorraine. Direction de la documentation et de l'édition. Médiathèque Campus Artem.
  • Non disponible pour le PEB
  • Cote : TH2/1992CHE
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.