?valuation de la qualit? des documents anciens num?ris?s

par Vincent Rabeux

Thèse de doctorat en Informatique

Sous la direction de Jean-Philippe Domenger et de Nicholas Journet.

Soutenue le 06-03-2013

à Bordeaux 1 , dans le cadre de ?cole doctorale de math?matiques et informatique (Talence, Gironde) , en partenariat avec Laboratoire bordelais de recherche en informatique (laboratoire) et de Laboratoire Bordelais de Recherche en Informatique / LaBRI (laboratoire) .

Le jury était composé de V?ronique Eglin.

Les rapporteurs étaient Jean-Marc Ogier, Jean-Yves Ramel.


  • Résumé

    Les travaux de recherche pr?sent?s dans ce manuscrit d?crivent plusieurs apports au th?me de l??valuation de la qualit? d?images de documents num?ris?s. Pour cela nous proposons de nouveaux descripteurs permettant de quantifier les d?gradations les plus couramment rencontr?es sur les images de documents num?ris?s. Nous proposons ?galement une m?thodologie s?appuyant sur le calcul de ces descripteurs et permettant de pr?dire les performances d?algorithmes de traitement et d?analyse d?images de documents. Les descripteurs sont d?finis en analysant l?influence des d?gradations sur les performances de diff?rents algorithmes, puis utilis?s pour cr?er des mod?les de pr?diction ? l?aide de r?gresseurs statistiques. La pertinence, des descripteurs propos?s et de la m?thodologie de pr?diction, est valid?e de plusieurs fa?ons. Premi?rement, par la pr?diction des performances de onze algorithmes de binarisation. Deuxi?mement par la cr?ation d?un processus automatique de s?lection de l?algorithme de binarisation le plus performant pour chaque image. Puis pour finir, par la pr?diction des performances de deux OCRs en fonction de l?importance du d?faut de transparence (diffusion de l?encre du recto sur le verso d?un document). Ce travail sur la pr?diction des performances d?algorithmes est aussi l?occasion d?aborder les probl?mes scientifiques li?s ? la cr?ation de v?rit?s-terrains et d??valuation de performances.


  • Résumé

    This PhD. thesis deals with quality evaluation of digitized document images. In order to measure the quality of a document image, we propose to create new features dedicated to the characterization of most commons degradations. We also propose to use these features to create prediction models able to predict the performances of different types of document analysis algorithms. The features are defined by analyzing the impact of a specific degradation on the results of an algorithm and then used to create statistical regressors.The relevance of the proposed features and predictions models, is analyzed in several experimentations. The first one aims to predict the performance of different binarization methods. The second experiment aims to create an automatic procedure able to select the best binarization method for each image. At last, the third experiment aims to create a prediction model for two commonly used OCRs. This work on performance prediction algorithms is also an opportunity to discuss the scientific problems of creating ground-truth for performance evaluation.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université de Bordeaux. Direction de la Documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.