Thèse soutenue

Reconnaissance structurelle de documents imprimés : études et réalisations

FR  |  
EN
Auteur / Autrice : Yannick Chenevoy
Direction : Abdelwaheb Belaïd
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1992
Etablissement(s) : Vandoeuvre-les-Nancy, INPL

Résumé

FR

Cette thèse concerne la reconnaissance de la structure de documents imprimés. En lecture optique, il ne suffit pas d'identifier les caractères qui forment le contenu d'un document pour bien le reconnaître. Il est indispensable de reconnaître également sa structure (physique et logique) si l'on veut conserver une information optimale sur le document. Ainsi, un document pour lequel on a reconnu la structure, au même titre que le contenu, pourra aisément être restitué sous un format proche de celui d'origine. Il pourra également être archivé, consulté, mis à jour, transféré, etc. Cette thèse est organisée en quatre parties principales. Dans la première partie, nous étudions l'intérêt des normes internationales pour la structuration. Ces normes ayant été conçues pour la production, nous étudions leurs apports pour la lecture optique et définissons un langage de modélisation. La deuxième partie concerne la reconnaissance de la structure de haut niveau (macro-structure). Cette reconnaissance est illustrée à travers une classe de documents de type "articles scientifiques". Il s'agit ici de reconnaître des entités de type paragraphe, titre, figure, résumé, etc. Le modèle joue un rôle moteur car il guide la stratégie en fournissant les différents choix de décomposition. Le choix de la "meilleure hypothèse" est basé sur un calcul de score qui s'inspire de la notion physique d'entropie. La reconnaissance de la structure de bas niveau (micro-structure) est traitée dans la troisième partie, à travers l'exemple des notices bibliographiques issues de catalogues de la Bibliothèque Nationale. Il s'agit ici de reconnaître la structuration dans une architecture de type paragraphe. Nous avons opté pour une stratégie différente basée sur une extraction d'indices pertinents de l'image, suivie d'une propagation de contraintes syntaxiques sur la chaîne des mots. Une analyse ascendante/descendante permet de reconstituer l'arbre structurel à partir d'éléments fiables appelés "îlots de confiance". La dernière partie concerne l'implémentation d'une plate-forme de recherche pour la reconnaissance structurelle. Cette plate-forme, appelée GRAPHEIN possède une architecture multi-agents, basée sur le modèle du blackboard. Le contrôle est hiérarchisé afin de permettre une stratégie de focalisation adaptable en fonction des connaissances tirées du modèle et de l'image. Suivant l'état de ces connaissances, le système adopte une stratégie descendante (guidée par le modèle), ascendante (guidée par les données) ou mixte. Le blackboard est structuré en niveaux permettant de représenter la structure spécifique du document analysé.