Construction et utilisation de la sémantique dans le cadre de l'annotation automatique d'images

par Christophe Millet

Thèse de doctorat en Signal et images

Sous la direction de Isabelle Bloch.

Soutenue en 2008

à Paris, ENST .


  • Résumé

    Cette thèse vise à améliorer l'annotation automatique d'images en introduisant de la connaissance et en proposant un système complètement automatique, où notamment la base d’apprentissage est construite automatiquement à partir des images du Web. Cette thèse est constituée de trois parties : La première partie catégorise une image en fonction de son type (photo, carte, peinture, clipart) puis pour les photographies, détermine le contexte de la scène : intérieur, extérieur, nuit, jour, nature, ville ? Y a-t-il des visages dans la photo ? Y a-t-il du ciel, de l’herbe, de l’eau, de la neige, une route dans l’image ? La deuxième partie construit automatiquement une base d’apprentissage pour n’importe quel objet. Ne connaissant que le nom de l'objet à apprendre, nous déduisons automatiquement sa couleur et le milieu dans lequel il se trouve à partir du web. Nous utilisons ces connaissances pour filtrer des images récupérées également sur Internet, c’est-à-dire rejeter les images ne correspondant pas au concept recherché, et isoler la région correspondant à l’objet dans l’image. La troisième partie concerne la désambiguïsation, i. E. La manière de choisir parmi plusieurs hypothèses de reconnaissance pour une région donnée celle qui permet une annotation globale de l’image sémantiquement cohérente. Deux sortes de désambiguïsation sont développées : l'une utilise les relations spatiales, et s’assure que par exemple le ciel est toujours au-dessus de la mer ; l'autre tient compte du contexte de l’image, en utilisant la relation entre les objets et les milieux dans lesquels ils se trouvent : on a plus de chance de trouver un éléphant dans la savane et un dauphin dans l'eau.

  • Titre traduit

    Automatic image annotation : consistent annotation and automatic creation of a learning database


  • Résumé

    This thesis tries to improve automatic image annotation by introducing knowledge in automatic image annotation, and by proposing a totally automatic system, where in particular the learning image database is automatically constructed with images from the Internet. This thesis is divided into three parts :The first part categorizes an image based on its type (photograph, map, painting, clipart) and, for photographs, determines the context of the depicted scene : indoor, outdoor, night, day, nature, city? Is there any face in the photograph ? Is there sky, grass, water, snow, road, etc. In the image ? The second part studies the possibility to automatically build a learning image database for any given object. Starting only from the name of the object that we wish to learn, we automatically deduce from the Web its colour and its typical environment. We then use this knowledge to filter the images retrieved from the Internet by removing the images that do not correspond to the concept of interest, and by isolating the region in the image that corresponds to the object. Eventually, the third part is about disambiguation, i. E. How to choose, among several hypotheses of recognized objects in each region, the one which gives the most semantically consistent annotation of the image. Two kinds of disambiguation are developed: the first one ensures that spatial relationships are respected, for example that a sky region is always above a water region. The second one takes into account the context of the image by using the relation between the objects and their typical context: the probability is higher to find an elephant in the savannah and a dolphin in the water.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (197 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 156 réf. bibliogr. Résumé en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.345 MILL
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.