Etude des Documents Imprimés : Approche Statistique et Contribution Méthodologique

par Jean Duong

Thèse de doctorat en Informatique

Sous la direction de Hubert Emptoz.

Soutenue en 2005

à Villeurbanne, INSA .


  • Résumé

    Cette thèse s'attache à l'étude de la structuration des documents dits à "typographie riche et récurrente''. Nous avons principalement travaillé sur des images de documents correspondant à des extraits d'inventaires-sommaires des Archives Départementales de Charente-Maritime et de Savoie. Nous avons proposé un procédé de segmentation qui permet d'inférer la structure physique de ces pages. Nous avons aussi développé une approche basée sur les modèles de Markov cachés pour la reconnaissance de la structure logique. En parallèle de ces avancées applicatives, nous avons mené deux réflexions plus fondamentales. La première a porté sur l'étude des caractéristiques utilisées pour la description des régions d'intérêt (entités physiques) des images de documents. La seconde a été consacrée à la mise au point d'une méthode de classification reposant sur un apprentissage sélectif. Parmi les nombreuses applications de cet algorithme, c'est l'opportunité d'effectuer une reconnaissance de caractères qui a motivé son développement.

  • Titre traduit

    Investigating printed documents : statistical approach and methodological contribution


  • Résumé

    This thesis turns on the study of the structuring of the documents containing `` rich and recurrent typography''. We mainly worked on images of documents corresponding to extracts of inventory-synopses from Archives of départements of Charente-Maritime and Savoy. We proposed a segmentation process to retrieve the layout structure of these pages. We also developed an approach based on hidden Markov models for the logical recognition. In parallel of these applicative contributions, we carried out two more fundamental reflections. The first one is related to the study of the characteristics used for the description of the regions of interest (physical entities) in document images. The second one was devoted to the development of a method of classification resting on a selective training. Among the many applications of this algorithm, it is the advisability of carrying out a character recognition task which justified its development.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (247 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 233-247

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(2947)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.