Apprentissage automatique à grande échelle depuis vidéos et langage naturel
Auteur / Autrice : | Antoine Miech |
Direction : | Josef Sivic, Ivan Laptev |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 14/10/2020 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
Jury : | Président / Présidente : Vincent Lepetit |
Examinateurs / Examinatrices : Josef Sivic, Ivan Laptev, Vincent Lepetit, Dima Damen, Bernard Ghanem, Cordelia Schmid, Jean-Baptiste Alayrac | |
Rapporteurs / Rapporteuses : Dima Damen, Bernard Ghanem |
Mots clés
Résumé
Nous nous intéressons à l’apprentissage automatique d’algorithmes pour la compréhension automatique de vidéos. Une majorité des approches en compréhension de vidéos dépend de larges bases de données de vidéos manuellement annotées pour l’entraînement. Cependant, la collection et l’annotation de telles bases de données est fastidieuse, coûte cher et prend du temps. Pour palier à ce problème, cette thèse se concentre sur l’exploitation de large quantité d’annotations publiquement disponible, cependant bruitées, sous forme de langage naturel. En particulier, nous nous intéressons à un corpus divers de métadonnées textuelles incluant des scripts de films, des titres et descriptions de vidéos internet ou encore des transcriptions de paroles. L’usage de ce type de données publiquement disponibles est difficile, car l’annotation y est faible. Pour cela, nous introduisons différentes approches d’apprentissage telles que de nouvelles fonctions de coûts ou architectures de réseaux de neurones, adaptées à de faibles annotations.