Thèse soutenue

Apprentissage avec des données annotées limitées pour une compréhension visuelle
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Mikita Dvornik
Direction : Cordelia SchmidJulien Mairal
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 26/11/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Équipe-projet Apprentissage de modèles à partir de données massives (Montbonnot, Isère ; 2019-....)
Jury : Président / Présidente : Vincent Lepetit
Examinateurs / Examinatrices : Cordelia Schmid, Julien Mairal, Andrea Vedaldi, Naila Murray
Rapporteurs / Rapporteuses : Martial Hebert, Andrea Vedaldi

Résumé

FR  |  
EN

La capacité des méthodes d'apprentissage profond à exceller en vision par ordinateur dépend fortement de la quantité de données annotées disponibles pour la formation. Pour certaines tâches, l'annotation peut être trop coûteuse et demander trop de travail, devenant ainsi le principal obstacle à une meilleure précision. Les algorithmes qui apprennent automatiquement à partir des données, sans supervision humaine, donnent de bien pires résultats que leurs homologues entièrement supervisés. Il y a donc une forte motivation à travailler sur des méthodes efficaces d'apprentissage avec des annotations limitées. Cette thèse propose d'exploiter les connaissances préalables sur la tâche et développe des solutions plus efficaces pour la compréhension des scènes et la classification de quelques images.Les principaux défis de la compréhension des scènes comprennent la détection d'objets, la sémantique et la segmentation des instances. De même, toutes ces tâches visent à reconnaître et localiser des objets, au niveau de la région ou au niveau plus précis des pixels, ce qui rend le processus d'annotation difficile. La première contribution de ce manuscrit est un réseau neuronal convolutionnel (CNN) qui effectue à la fois la détection d'objets et la segmentation sémantique. Nous concevons une architecture de réseau spécialisée, qui est formée pour résoudre les deux problèmes en un seul passage et qui fonctionne en temps réel. Grâce à la procédure de formation multitâche, les deux tâches bénéficient l'une de l'autre en termes de précision, sans données supplémentaires étiquetées.La deuxième contribution introduit une nouvelle technique d'augmentation des données, c'est-à-dire l'augmentation artificielle de la quantité de données de formation. Il vise à créer de nouvelles scènes par copier-coller d'objets d'une image à l'autre, dans un ensemble de données donné. Placer un objet dans un contexte approprié s'est avéré crucial pour améliorer la compréhension de la scène. Nous proposons de modéliser explicitement le contexte visuel à l'aide d'un CNN qui découvre les corrélations entre les catégories d'objets et leur voisinage typique, puis propose des emplacements réalistes à augmenter. Dans l'ensemble, le collage d'objets aux "bons endroits" permet d'améliorer les performances de détection et de segmentation des objets, avec des gains plus importants dans les scénarios d'annotations limitées.Pour certains problèmes, les données sont extrêmement rares et un algorithme doit apprendre de nouveaux concepts à partir de quelques exemples. Peu de classification consiste à apprendre un modèle prédictif capable de s'adapter efficacement à une nouvelle classe, avec seulement quelques échantillons annotés. Alors que la plupart des méthodes actuelles se concentrent sur le mécanisme d'adaptation, peu de travaux ont abordé explicitement le problème du manque de données sur la formation. Dans notre troisième article, nous montrons qu'en s'attaquant à la question fondamentale de la variance élevée des classificateurs d'apprentissage à faible tir, il est possible de surpasser considérablement les techniques existantes plus sophistiquées. Notre approche consiste à concevoir un ensemble de réseaux profonds pour tirer parti de la variance des classificateurs et à introduire de nouvelles stratégies pour encourager les réseaux à coopérer, tout en encourageant la diversité des prédictions. En faisant correspondre différentes sorties de réseaux sur des images d'entrée similaires, nous améliorons la précision et la robustesse du modèle par rapport à la formation d'ensemble classique. De plus, un seul réseau obtenu par distillation montre des performances similaires à celles de l'ensemble complet et donne des résultats à la pointe de la technologie, sans surcharge de calcul au moment du test.