Détection de textes enfouis dans des bases d’images généralistes : un descripteur sémantique pour l’indexation

par Thomas Retornaz

Thèse de doctorat en Morphologie mathématique

Sous la direction de Beatriz Marcotegui.

Soutenue en 2007

à Paris, ENMP .


  • Résumé

    Les bases de données multimédia, aussi bien personnelles que professionnelles, se développent considérablement et les outils automatiques pour leur gestion efficace deviennent indispensables. L’effort des chercheurs pour développer des outils d’indexation basés sur le contenu sont très importants, mais le fossé sémantique est difficile à franchir : les descripteurs de bas niveau généralement utilisés montrent leurs limites dans des cadres applicatifs de plus en plus ouverts. Le texte présent dans les images est souvent relié au contexte sémantique et constitue un descripteur pertinent. Dans cette thèse nous proposons un système de localisation de texte dans des bases d’images génériques, qui tend à être robuste au changement d’échelle et aux déformations usuelles du texte enfoui. Notre système est basé sur un opérateur résiduel numérique, l’ouvert ultime. Dans une première partie nous étudions le comportement de cet opérateur sur des images réelles, et proposons des solutions pour pallier certaines limitations. Dans une seconde partie l’opérateur est inclus dans une chaîne de traitement et complété par différents outils de caractérisation du texte. Les performances de notre approche sont évaluées sur deux bases d’images. Premièrement, nous avons pris part à la campagne d’évaluation ImagEval, remportant la première place dans la catégorie «localisation de texte». Deuxièmement pour situer notre approche par rapport à l’état de l’art, nous avons effectué des tests avec la base d’évaluation I. C. D. A. R. Enfin, un démonstrateur a été réalisé pour EADS. Pour des raisons de confidentialité, ces travaux n’ont pas pu être intégrés à ce manuscrit.

  • Titre traduit

    Automatic detection of text from natural scenes : a semantic descriptor for content based image retrieval


  • Résumé

    Multimedia data bases, both personal and professional, are continuously growing and the need for automatic solutions becomes mandatory. Effort devoted by the research community to content-based image indexing is also growing, but the semantic gap is difficult to cross: the low level descriptors used for indexing are not efficient enough for an ergonomic manipulation of big and generic image data bases. The text present in a scene is usually linked to image semantic context and constitutes a relevant descriptor for content-based image indexing. In this thesis we present an approach to automatic detection of text from natural scenes, which tends to handle the text in different sizes, orientations, and backgrounds. The system uses a non linear scale space based on the ultimate opening operator (a morphological numerical residue). In a first step, we study the action of this operator on real images, and propose solutions to overcome these intrinsic limitations. In a second step, the operator is used in a text detection framework which contains additionally various tools of text categorisation. The robustness of our approach is proven on two different dataset. First we took part to ImagEval evaluation campaign and our approach was ranked first in the text localisation contest. Second, we produced result (using the same framework) on the free ICDAR dataset, the results obtained are comparable with those of the state of the art. Lastly, a demonstrator was carried out for EADS. Because of confidentiality, this work could not be integrated into this manuscript.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (231 p.)
  • Annexes : Bibliographie 125 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Mines ParisTech. Bibliothèque.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.