Thèse soutenue

Segmentation de documents administratifs en couches couleur

FR  |  
EN
Auteur / Autrice : Elodie Carel
Direction : Jean-Marc OgierJean-Christophe BurieVincent Courboulay
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 08/10/2015
Etablissement(s) : La Rochelle
Ecole(s) doctorale(s) : École doctorale Sciences et ingénierie pour l'information, mathématiques (Limoges ; 2009-2018)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury : Président / Présidente : Véronique Eglin
Examinateurs / Examinatrices : Jean-Marc Ogier, Jean-Christophe Burie, Vincent Courboulay, Véronique Eglin, Rolf Ingold, Josep Llados i Canet, Rafael Dueire Lins, Vincent Poulain d'Andecy
Rapporteurs / Rapporteuses : Rolf Ingold, Josep Llados i Canet

Résumé

FR  |  
EN

Les entreprises doivent traiter quotidiennement de gros volumes de documents papiers de toutes sortes. Automatisation, traçabilité, alimentation de systèmes d’informations, réduction des coûts et des délais de traitement, la dématérialisation a un impact économique évident. Pour respecter les contraintes industrielles, les processus historiques d’analyse simplifient les images grâce à une séparation fond/premier-plan. Cependant, cette binarisation peut être source d’erreurs lors des étapes de segmentation et de reconnaissance. Avec l’amélioration des techniques, la communauté d’analyse de documents a montré un intérêt croissant pour l’intégration d’informations colorimétriques dans les traitements, ceci afin d’améliorer leurs performances. Pour respecter le cadre imposé par notre partenaire privé, l’objectif était de mettre en place des processus non supervisés. Notre but est d’être capable d’analyser des documents même rencontrés pour la première fois quels que soient leurs contenus, leurs structures, et leurs caractéristiques en termes de couleurs. Les problématiques de ces travaux ont été d’une part l’identification d’un nombre raisonnable de couleurs principales sur une image ; et d’autre part, le regroupement en couches couleur cohérentes des pixels ayant à la fois une apparence colorimétrique très proche, et présentant une unité logique ou sémantique. Fournies sous forme d’un ensemble d’images binaires, ces couches peuvent être réinjectées dans la chaîne de dématérialisation en fournissant une alternative à l’étape de binarisation classique. Elles apportent en plus des informations complémentaires qui peuvent être exploitées dans un but de segmentation, de localisation, ou de description. Pour cela, nous avons proposé une segmentation spatio-colorimétrique qui permet d’obtenir un ensemble de régions locales perceptuellement cohérentes appelées superpixels, et dont la taille s’adapte au contenu spécifique des images de documents. Ces régions sont ensuite regroupées en couches couleur globales grâce à une analyse multi-résolution.