Annotation automatique d'images à base de Phrases Visuelles

par Rami Albatal

Thèse de doctorat en Informatique

Sous la direction de Philippe Mulhem et de Yves Chiaramella.


  • Résumé

    Ce travail de thèse a pour objectif de proposer un modèle général d'annotation automatique d'images pour la recherche d'information. La recherche d'information sur les documents images nécessite des représentations abstraites symboliques des images (termes, concepts) afin de satisfaire les besoins d'information des utilisateurs. Si de nombreux travaux ont pour objectif de définir un processus d'apprentissage automatique sur des descripteurs visuels extraits des régions d'images, les questions liées aux choix et aux regroupements des régions descriptives et représentatives des différentes classes d'objets sont peu étudie��es. Les variations visuelles des objets d'une classe donnée posent de sérieux problèmes pour l'annotation par classes d'objets. Ces variations sont causées par plusieurs facteurs : changements d'échelle, rotation et changements de luminosité, en sus de la variabilité de forme et de couleur propre à chaque type d'objet. Notre travail vise aussi à minimiser l'impact négatif de ce phénomène. Dans ce travail, le passage du signal au sens se fonde sur une représentation intermédiaire appelée "Phrases Visuelles" qui représentent des ensembles de régions d'intérêt regroupées selon un critère topologique prédéfini. Un processus d'apprentissage permet de détecter les relations entre les Phrases Visuelles et les classes d'objets. Ce modèle d'annotation a fait l'objet de nombreuses évaluations sur le corpus VOC2009. Les résultats obtenus montrent l'impact significatif du mode de regroupement des régions d'intérêt, et qu'un regroupement prenant en compte les relations spatiales entre ces régions donne des meilleurs résultats en terme de précision moyenne.

  • Titre traduit

    Automatic Images annotation based on Visual Phrases


  • Résumé

    This thesis aims to propose a general model for automatic image annotation in the context of image retrieval. Seeking images requires abstract symbolic representations of theit semantic content (words, concepts. . . ) to satisfy the users information needs. While many studies have aimed to define a machine learning process of visual descriptors extracted from image regions, issues related to choices and grouping of descriptive and discriminative regions of different object classes are less studied. Visual variations of obects of a class cause serious problems for annotating images by object classes. These variations are caused by several factors: changes in scale, rotation and chages in brightness, in addition to variations of shapes and colors proper to any given object. Our work also aims to minimize the negative impact of this phenomenon. In this work, the passage from visual signal to its meaning is defined based on an intermediate representation called "Visual Phrases". These Phrases represent sets of regions of interest grouped according to a predetermined topological criterion. A learning process can detect relationships between Visual Phrases and object classes. Several evaluations of this approach have been conducted on the VOC2009 corpus. The results show the significant imact of the mode of grouping of regions of interest, and that a grouping based on spatial relationships among these regions gives the best results in terms of average precision.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (156 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 116 réf.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Disponible pour le PEB
  • Cote : TS10/GRE1/0101/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS10/GRE1/0101
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.