Découverte et apprentissage pour grandes collections de contenu multi-modal

par Alexandre Sablayrolles

Projet de thèse en Informatique

Sous la direction de Cordelia Schmid.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire Jean Kuntzmann (laboratoire) et de LEAR : Learning and Recognition in Vision (equipe de recherche) depuis le 01-09-2017 .


  • Résumé

    La vision par ordinateur a récemment connu de grands succès, et les modèles actuels obtiennent de très bonnes performances en classification d'images, détection d'objets et segmentation sémantique. Ces algorithmes nécessitent de grandes quantités de données annotées pour apprendre des représentations d'images (apprentissage supervisé). Ces jeux de données sont le fruit d'un important travail de collecte et d'annotation. D'un autre côté, une vaste quantité d'images est disponible sur Internet avec divers degrés d'information: étiquetage sous la forme de tags, localisation GPS, interaction avec des utilisateurs ("like"). Ce projet de recherche vise à diminuer le besoin de supervision pour permettre un passage à très grande échelle de ces algorithmes d'apprentissage. L'enjeu est la découverte automatique de concepts dans ces vastes bases de données.

  • Titre traduit

    Discovery and representation learning of multimodal content in large databases


  • Résumé

    Computer vision has seen recently huge successes, and state-of-the-art models reach excellent performance in image classification, object detection and semantic segmentation. These algorithms require lots of annotated data to learn image representations (supervised learning). Data collection and annotation is a tedious process, and it does not scale. On the other hand, a vast quantity of weakly-annotated images are available on the Internet: these images are associated with tags, captions, GPS coordinates or even users through feedback ("likes"). This research project aims at reducing the need of supervision and scale up vision algorithms, to discover automatically new concepts in these databases.