Extraction et analyse d’objets-clés pour la structuration d’images et de vidéos

par Jérémy Huart

Thèse de doctorat en Signal, image, parole et télécommunications

Sous la direction de Pascal Bertolino.

Soutenue en 2007

à Grenoble, INPG , en partenariat avec Grenoble Images Parole Signal Automatique (laboratoire) .


  • Résumé

    La description synthétique du contenu d’une image ou d’une vidéo est à l’heure actuelle une problématique majeure. Nous nous intéressons aux objets qui les composent pour leur pouvoir de représentativité. Après un état de l’art, ce document présente une méthode de segmentation locale par pyramide de graphes irrégulière permettant d’extraire, à partir de critères bas niveaux, des régions d’intérêt assimilables à des objets sémantiques. Cette méthode est utilisée pour détourer avec précision des objets dans des images fixes, dans un environnement interactif puis totalement automatique. Une estimation de mouvement permet d’étendre le procédé aux vidéos en extrayant dans chaque image les entités mobiles. Un filtrage et une classification de ces entités permet de ne retenir que les plus représentatives de chaque objet réel du plan. Ces représentants sont appelés objet-clé et vues-clés. La qualité des résultats expérimentaux permet de proposer de nombreuses applications en aval.


  • Résumé

    The compact description of image and video content is currently a difficult task. We are interested in the objects that make up this content because of the representative power of these objects. After a review of the state of the art, this thesis presents a local segmentation method based on the irregular graph pyramid algorithm, which allows us to extract, using low-level features, regions of interest comparable to semantic objects. This method is used to precisely excise objects from still images, first in an interactive environment and then in an entirely automatic one. A motion estimation allows us to extend the process to videos by extracting the foreground entities from every frame. A filtering and a clustering of these entities allow us to retain only the most representative of each real object in the shot. These representations are called key-objects and key-views. The quality of the experimental results allows us to propose some future applications of our methods.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (183 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 135 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS07/INPG/0017/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS07/INPG/0017
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.