Contribution à la restauration des images de documents anciens

par Fadoua Drira

Thèse de doctorat en Informatique

Sous la direction de Hubert Emptoz et de Frank Lebourgeois.

Soutenue en 2007

à Villeurbanne, INSA .


  • Résumé

    La numérisation massive de documents patrimoniaux ouvre de nouvelles perspectives de Recherche comme la restauration des documents dégradés. Ces dégradations sont dues au mauvais état de conservation et à la numérisation. De telles altérations sur des images aussi complexes ne peuvent pas être traitées par une simple transposition des outils traditionnels de restauration. Cette thèse traite donc de la restauration des dégradations des images des documents anciens, et plus particulièrement des dégradations du support papier et des formes des lettres car elles nuisent à la lisibilite�� des documents numérisés et empêchent tout traitement automatisé. Pour les dégradations du support papier, assimilées à un problème de superposition de couches, nous proposons deux méthodes. La première est une méthode de segmentation récursive issue de l’algorithme des nuées dynamiques appliquée sur les données décorrélées par l’analyse en composantes principales. La deuxième méthode est une amélioration de l’algorithme du Mean-Shift qui réduit sa complexité de calcul. Nous proposons, ensuite, de traiter les dégradations des formes des lettres par des méthodes de diffusion. Tout d’abord, nous présentons les modèles existants les plus adaptés à la restauration des images de document. Ensuite, nous proposons un modèle de diffusion capable de filtrer les contours et de renforcer la continuité des traits tout en préservant les singularités. Pour concevoir une approche capable de restaurer à la fois les dégradations du support papier et des formes des lettres, nous proposons une combinaison entre la segmentation et la diffusion. Cette combinaison permet de réaliser une segmentation en couches des images de documents tout en préservant la forme des contours des lettres.


  • Résumé

    The massive digitization of heritage documents raised new prospects for Research like the restoration of the degraded documents. These degradations are due to the bad conditions of conservation and even to the digitization process. Images of old and degraded documents cannot be the retored directely by classical approaches. Hence, we propose in this thesis to develop and analyze document image restoration algorithms. We are mainly interested in foreground/background degradations, since they harm the legibility of the digitized documents and limit the processing of these images. For background degradations, considered as a problem of the superposition of layers, we propose two-based segmentation methods. The first is a recursive approach that relies on the k-means clustering algorithm and the principal component analysis. The second method is an improvement of the initial algorithm of MeanShift in an attempt to reduce its complexity. For foreground degradations, we propose to tackle the problem with PDE-based diffusion approaches. This solution has many useful features that are relevant for use in character restoration. Our comparative study of existing methods allows us to select the best approaches well adapted to our problem. We propose also a new diffusion method preserving singularities and edges while smoothing. Our previously proposed solutions, the diffusion and the Mean-Shift algorithms, are used with success in a joint iterative framework to solve foreground and background degradations. This framework generates segmented images with more reduced artefacts on the edges and on the background than those obtained in separate application of each method.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (185 p.)
  • Annexes : Bibliogr. p. 199-[208]

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(3278)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.