Thèse soutenue

Vers un apprentissage sans exemple plus réaliste
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Yannick Le Cacheux
Direction : Michel Crucianu
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/12/2020
Etablissement(s) : Paris, CNAM
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Centre d'études et de recherche en informatique et communications (Paris)
Jury : Président / Présidente : Céline Hudelot
Examinateurs / Examinatrices : Hichem Sahbi, Hervé Le Borgne
Rapporteurs / Rapporteuses : Frédéric Jurie, Guillaume Gravier

Résumé

FR  |  
EN

Cette thèse porte sur la reconnaissance visuelle "zero-shot", qui vise à classifier des images de catégories non rencontrées par le modèle pendant la phase d’apprentissage. Après avoir classé les méthodes existantes en trois grandes catégories, nous défendons l’idée que les méthodes dites de classement se basent habituellement sur plusieurs hypothèses implicites préjudiciables. Nous proposons d’adapter leur fonction de coût pour leur permettre d’intégrer des relations inter et intra-classe. Nous proposons également un processus permettant de diminuer l’écart entre les performances sur les classes vues et non vues dont souffrent fréquemment ces méthodes. Dans notre évaluation expérimentale, ces contributions permettent à notre modèle d’égaler ou surpasser les performances des méthodes génératives, tant en étant moins restrictif. Dans un second temps, nous nous intéressons aux représentations sémantiques utilisées dans un contexte d’application à grande échelle. Dans ce contexte, l’information sémantique provient généralement de plongements lexicaux des noms de classe. Nous soutenons que les plongements habituels souffrent d’un manque de contenu visuel dans les corpus servant à leur apprentissage. Nous proposons donc de nouveaux corpus de texte davantage connotés visuellement, ainsi qu’une méthode permettant d’adapter les modèles de plongement à ces corpus. Nous proposons en outre de compléter ces représentations non supervisées par de courtes descriptions en langage naturel, dont la production ne requiert qu’un effort minimal comparé à des attributs génériques.