Détection automatique de relations visuelles
Auteur / Autrice : | Julia Peyre |
Direction : | Josef Sivic, Ivan Laptev, Cordelia Schmid |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 29/08/2019 |
Etablissement(s) : | Paris Sciences et Lettres (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
Equipe de recherche : Équipe de recherche Models of visual object recognition and scene understanding (Paris) | |
Jury : | Président / Présidente : Frédéric Jurie |
Examinateurs / Examinatrices : Josef Sivic, Ivan Laptev, Cordelia Schmid, Frédéric Jurie, Svetlana Lazebnik, Matthieu Cord | |
Rapporteurs / Rapporteuses : Svetlana Lazebnik, Matthieu Cord |
Mots clés
Résumé
Nous étudions le problème de détection de relations visuelles de la forme (sujet, prédicat, objet) dans les images, qui sont des entités intermédiaires entre les objets et les scènes visuelles complexes. Cette thèse s’attaque à deux défis majeurs : (1) le problème d’annotations coûteuses pour l’entrainement de modèles fortement supervisés, (2) la variation d’apparence visuelle des relations. Nous proposons un premier modèle de détection de relations visuelles faiblement supervisé, n’utilisant que des annotations au niveau de l’image, qui, étant donné des détecteurs d’objets pré-entrainés, atteint une précision proche de celle de modèles fortement supervisés. Notre second modèle combine des représentations compositionnelles (sujet, objet, prédicat) et holistiques (triplet) afin de mieux modéliser les variations d’apparence visuelle et propose un module de raisonnement par analogie pour généraliser à de nouveaux triplets. Nous validons expérimentalement le bénéfice apporté par chacune de ces composantes sur des bases de données réelles.