Recherche d'information logique dans les documents a typographie riche et recurrente : application aux sommaires

par Laurence Duffy

Thèse de doctorat en Traitement de l'image

Sous la direction de Hubert Emptoz.


  • Résumé

    Cette thèse se situe dans le cadre de la rétro conversion de documents composites écrits sur papier. L'automatisation de la lecture des sommaires de revues a été à 1' origine de ce travail, mais, même si les sommaires font office de fil conducteur tout au long de cette thèse, nous n'avons pas voulu nous restreindre à ces seuls sommaires; restriction à laquelle nous aurions été conduits si nous avions utilisé le schéma classique, consistant à travailler à partir du modèle générique décrivant la classe du document. Une étude de la conception des documents d'une part, des modes de lecture d'autre part, nous a permis de mettre en évidence des familles de documents (dans lesquelles figurent les sommaires) pour lesquelles une analyse de la typographie nous conduit à la reconnaissance d'une partie de leur structure logique. Une partie importante de la thèse est donc consacrée à la description d'une méthode originale d'extraction de la structure typographique. Cette méthode se caractérise par le fait qu'elle ne requiert aucune connaissance a priori sur les polices de caractères existantes. Elle s'appuie sur quelques connaissances simples de mise en page et n'utilise que des informations de bas niveau qui, permettent de mener à bien l'appariement de caractères et les études de voisinages. L'ordre hiérarchique des typographies utilisées peut alors être reconstitué, il nous conduit directement à la structure logique du document étudié. Diverses expérimentations validant ce travail ont été réalisées sur les sommaires, mais aussi sur d'autres familles de documents répondant à nos critères

  • Titre traduit

    = Logical Information Research in Documents which have a Recursive and Structured Typography : Application to Table of Contents


  • Résumé

    This thesis stands in the domain of the composite documents retro conversion. The origin of ours works is the problematics of the automatic reading of table of contents, but we aren't limited to this kind of document. A study of both phases of the documents conception and of the way of reading, have allowed us to make some documents families stand out. The typographical analysis of these families leads us to recognise a part of their logical structure. So, a great part of the thesis is consecrated to describe a novel method of typographical structure extraction. This method needs no information about existing font families. It uses simple layout agreements and low level information’s, which allow to well-done the pattern matching and the proximity study. Then, the hierarchical order of the fonts can be reconstituted, it directly leads us to the logical structure of the studied document. Some experimentations which validate this work, have been performed on table of contents but also on other documents which correspond to ours criterions.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (151 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(2125)

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Accessible pour le PEB
  • Cote : MF-1997-DUF
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.