Contribution à la détection et à la reconnaissance d'objets dans les images

par Hedi Harzallah

Thèse de doctorat en Mathématiques

Sous la direction de Cordelia Schmid et de Frédéric Jurie.

Soutenue le 16-09-2011

à Grenoble , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire Jean Kunztmann (laboratoire) , Institut national de recherche en informatique et en automatique (France). Unité de recherche (Grenoble, Isère) (laboratoire) et de LEAR (équipe de recherche) .

Le président du jury était Jean Ponce.

Le jury était composé de Cordelia Schmid, Frédéric Jurie, Pierre Pasquier.

Les rapporteurs étaient Michel Dhome, Michel Devy.


  • Résumé

    Cette thèse s'intéresse au problème de la reconnaissance d'objets dans les images vidéo et plus particulièrement à celui de leur localisation. Elle a été conduite dans le contexte d'une collaboration scientifique entre l'INRIA Rhône-Alpes et MBDA France. De ce fait, une attention particulière a été accordée à l’applicabilité des approches proposées aux images infra-rouges. La méthode de localisation proposée repose sur l'utilisation d'une fenêtre glissante incluant une cascade à deux étages qui, malgré sa simplicité, permet d'allier rapidité et précision. Le premier étage est un étage de filtrage rejetant la plupart des faux positifs au moyen d’un classifieur SVM linéaire. Le deuxième étage élimine les fausses détections laissées par le premier étage avec un classifieur SVM non-linéaire plus lent, mais plus performant. Les fenêtres sont représentées par des descripteurs HOG et Bag-of-words. La seconde contribution de la thèse réside dans une méthode permettant de combiner localisation d'objets et catégorisation d'images. Ceci permet, d'une part, de prendre en compte le contexte de l'image lors de la localisation des objets, et d'autre part de s'appuyer sur la structure géométrique des objets lors de la catégorisation des images. Cette méthode permet d'améliorer les performances pour les deux tâches et produit des détecteurs et classifieurs dont la performance dépasse celle de l'état de l'art. Finalement, nous nous penchons sur le problème de localisation de catégories d'objets similaires et proposons de décomposer la tâche de localisation d'objets en deux étapes. Une première étape de détection permet de trouver les objets sans déterminer leurs positions tandis qu’une seconde étape d’identification permet de prédire la catégorie de l'objet. Nous montrons que cela permet de limiter les confusions entre les classes, principal problème observé pour les catégories d'objets visuellement similaires. La thèse laisse une place importante à la validation expérimentale, conduites sur la base PASCAL VOC ainsi que sur des bases d’images spécifiquement réalisées pour la thèse.

  • Titre traduit

    Contribution to detection and recognition of objects in images


  • Résumé

    This thesis addresses the problem of object recognition in images and more precisely the problem of object localization. It have been conducted in the context of a scientific collaboration between INRIA Rhônes-Alpes and MBDA France. Therefore, a particular attention was accorded to the applicability of the proposed approaches on infrared images. The localization method proposed here relies on the sliding windows mechanism combined with a two stage cascade that, despite its simplicity, allies rapidity and precision. The first stage is a filtering stage that rejects most of the false positives using a linear classifier. The second stage prunes the detections of the first classifier using a slower yet efficient non-linear classifier. Windows are represented with HOG and Bag-of-words descriptors. The second contribution of this thesis is a method that combines object localization and image categorization. This allows, on the one hand, to take into account context information in localization, and on the other hand, to rely on geometrical structure of objects while performing image categorization. This combination leads to a significant quality improvement and obtains performance superior to the state of the art for both tasks. Finally, we consider the problem of localizing visually similar object categories and suggest to decompose the task of object localization into two steps. The first is a detection step that allows to find objects without determining their category while the second step, an identification step, predicts the objects categories. We show that this approach limits inter-class confusion, which is the main difficulty faced when localizing visually similar object classes. This thesis accords an important place to experimental validation conducted on PASCAL VOC databases as well as other databases specifically introduced for the thesis.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Service Interétablissement de Documentation. Documentation électronique.
  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service interétablissements de Documentation. STM. Documentation électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.