Analyse d’images de documents anciens : une approche texture

par Nicholas Journet

Thèse de doctorat en Informatique

Sous la direction de Rémy Mullot.

Soutenue en 2006

à La Rochelle .


  • Résumé

    My phd thesis subject is related to the topic of old documents images indexation. The corpus of old documents has specific characteristics. The content (text and image) as well as the layout information are strongly variable. Thus, it is not possible to work on this corpus such as it usually done with contemporary documents. Indeed, the first tests which we realised on the corpus of the “Centre d’Etude de la Renaissance”, with which we work, confirmed that the traditional approaches (driven –model approaches) are not very efficient because it’s impossible to put assumptions on the physical or logical structure of the old documents. We also noted the lack of tools allowing the indexing of large old documents images databases. In this phd work, we propose a new generic method which permits characterization of the contents of old documents images. This characterization is carried out using a multirésolution study of the textures contained in the images of documents. By constructing signatures related with the frequencies and the orientations of the various parts of a page it is possible to extract, compare or to identify different kind of semantic elements (reference letters, illustrations, text, layout. . . ) without making any assumptions about the physical or logical structure of the analyzed documents. These textures information are at the origin of creation of indexing tools for large databases of old documents images.      

  • Titre traduit

    Old document images analysis : a texture approach


  • Résumé

    Mes travaux de thèse sont liés à la problématique de l'indexation de grosses quantités d'images de documents anciens. Ils visent à traiter un corpus de documents dont le contenu (texte et image) ainsi que la mise en page se trouvent être fortement variables (l'ensemble des ouvrages d'une bibliothèque par exemple). Ainsi, il n'est donc pas envisageable de travailler sur ce corpus tel qu'on le fait habituellement avec les documents contemporains. En effet, les premiers tests que nous avons effectués sur le corpus du Centre d'Etudes Supérieures de la Renaissance de Tours, avec qui nous travaillons, ont confirmé que les approches classiques (guidée par le modèle) sont peu efficaces car il est impossible d'émettre des hypothèses sur la structure physique ou logique des documents traités. . Nous avons également constaté le manque d'outils permettant l'indexation de grandes bases d'images de documents anciens Face à ce double constat, ces travaux de thèse nous ont amené à proposer une méthode de caractérisation du contenu d'images de documents anciens. Cette caractérisation est réalisée à l'aide d'une étude multirésolution des textures contenues dans les images de document. Ainsi, en extrayant des signatures liées aux fréquences et aux orientations des différentes parties d'une page, il est possible d'extraire, de comparer ou encore d'identifier des éléments de haut niveau sémantique (lettrines, illustrations, texte, mise en page. . . ) sans émettre d'hypothèses sur la structure physique ou logique des documents analysés. Ces indices textures ont permis la création d'outils d'aide à l'indexation de grosses bases d'images de documents anciens.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (160 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 147-157

Où se trouve cette thèse ?

  • Bibliothèque : Université de La Rochelle. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-736
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.