Thèse en cours

Les méthodes d'apprentissage efficaces en annotation pour la découverte et la détection d'objets

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu le 28/11/2022. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Van Huy Vo
Direction : Jean Ponce
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 28/11/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre
Partenaire(s) de recherche : Laboratoire : DIENS - Département d'informatique de l'École normale supérieure
Equipe de recherche : WILLOW
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Yannis Avrithis
Examinateurs / Examinatrices : Jean Ponce, Tinne Tuytelaars, Andrew Zisserman, Patrick Perez, Cordelia Schmid
Rapporteurs / Rapporteuses : Tinne Tuytelaars, Andrew Zisserman

Résumé

FR  |  
EN

Les modèles de détection d'objets dans les images sont des composants importants de systèmes intelligents comme les véhicules autonomes ou les robots. Ils sont typiquement obtenus par l'apprentissage supervisé, ce qui nécessite de grands jeux de données annotées à la main. La construction de tels jeux de données est pourtant coûteuse en temps et en argent, ce qui limite souvent leur taille et leur diversité et, par conséquent, restreint l'applicabilité des détecteurs d'objets. Afin d'éviter ces limitations, des alternatives qui demandent moins de données annotées pour la détection d'objets ont été proposées, comprenant l'apprentissage semi-supervisé, faiblement supervisé, actif ou non-supervisé. L'objectif de cette thèse est de développer de telles méthodes. En particulier, nous nous concentrons sur le problème de découverte d'objets non-supervisée (UOD) et une combinaison de l'apprentissage faiblement supervisé et actif pour la détection d'objets. Étant donné une collection d'images, la découverte d'objets non-supervisée vise à trouver les images qui contiennent les objets de la même catégorie, et localiser ces objets. Dans la première partie de la thèse, nous proposons quatre approches -- OSD, rOSD, LOD et LOST -- pour résoudre ce problème. Ces méthodes améliorent graduellement l'efficacité et l'applicabilité de l'UOD. OSD et rOSD supposent qu'il existe une structure de graphe dans les collections d'images où celles-ci sont les nœuds et deux images sont connectées si elles contiennent des objets d'une même catégorie. Elles reformulent l'UOD comme un problème d'optimisation discrète où les variables binaires décrivent la structure du graphe et les propositions de régions des images. Par rapport à OSD, rOSD introduit des modifications qui réduisent le coût de calcul et améliorent la performance. Différente d'OSD et rOSD, LOD formule l'UOD comme un problème de classement dans le graphe dont les nœuds sont les propositions de régions. Cela permet d'utiliser les méthodes de classement existantes pour trouver des noeuds bien connectés dans les graphes comme PageRank [Page, 1999]. Ces méthodes sont hautement efficaces et parallélisables, et permettent d'appliquer l'UOD à des jeux de données très grands. Finalement, LOST ne considère pas de relation entre les images. Elle se base sur la puissance des descripteurs des transformers auto-supervisés [Caron, 2021] et propose une procédure simple pour trouver un seul objet dans l'image. Puis, elle se sert des objets trouvés comme pseudo annotation pour entraîner des détecteurs d'objets qui sont capables de lier les images similaires et trouver plus d'objets par image. Il est important d'investiguer les capacités des méthodes non-supervisées mais, dans la pratique, nous avons souvent accès à certaines sources de supervision. Nous considérons dans la deuxième partie de la thèse un scénario pratique pour entraîner un détecteur d'objets où toutes les images d'entraînement possèdent une annotation faible (les catégories de ses objets) et un petit budget d'annotation additionnel est disponible. Nous entraînons d'abord un détecteur avec les annotations faibles. Puis, nous nous servons du budget additionnel pour annoter un petit nombre d'images d'entraînement qui sont choisies avec les stratégies d'apprentissage actif avec les boites englobantes. Nous peaufinons finalement le détecteur avec toutes les annotations disponibles. En particulier, nous proposons BiB, une stratégie d'apprentissage actif qui choisit un ensemble divers des images où le détecteur fait le plus d'erreurs. Nous montrons que BiB surpasse toutes les stratégies d'apprentissage actif conventionnelles. Notre méthode améliore significativement la performance du détecteur faiblement supervisé avec seulement un petit coût d'annotation additionnel (1-10 images par classes). Elle démontre alors un meilleur compromis entre la performance de détection et le coût d'annotation que l'apprentissage faiblement et complètement supervisé.