Apprentissage multi-modal pour la reconnaissance visuelle

par Valentin Gabeur

Projet de thèse en Informatique

Sous la direction de Karteek Alahari et de Cordelia Schmid.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire Jean Kuntzmann (Grenoble) (laboratoire) et de LEAR : Learning and Recognition in Vision (equipe de recherche) depuis le 18-02-2019 .


  • Résumé

    Développement d'un modèle appris à partir de différentes sources incluant des images, des vidéos, de l'audio et du texte. Chaque source d'information fournit différents indices à l'algorithme pour lui permettre de comprendre ce qui se déroule dans la scène.

  • Titre traduit

    Cross-Modal Learning for Scene Understanding


  • Résumé

    Development of a model learned from different sources, including image, video, audio and text data. Each data modality providing different cues about what is happening in a scene.