Thèse soutenue

Apprentissage automatique à grande échelle depuis vidéos et langage naturel

FR  |  
EN
Auteur / Autrice : Antoine Miech
Direction : Josef SivicIvan Laptev
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/10/2020
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Vincent Lepetit
Examinateurs / Examinatrices : Josef Sivic, Ivan Laptev, Vincent Lepetit, Dima Damen, Bernard Ghanem, Cordelia Schmid, Jean-Baptiste Alayrac
Rapporteurs / Rapporteuses : Dima Damen, Bernard Ghanem

Résumé

FR  |  
EN

Nous nous intéressons à l’apprentissage automatique d’algorithmes pour la compréhension automatique de vidéos. Une majorité des approches en compréhension de vidéos dépend de larges bases de données de vidéos manuellement annotées pour l’entraînement. Cependant, la collection et l’annotation de telles bases de données est fastidieuse, coûte cher et prend du temps. Pour palier à ce problème, cette thèse se concentre sur l’exploitation de large quantité d’annotations publiquement disponible, cependant bruitées, sous forme de langage naturel. En particulier, nous nous intéressons à un corpus divers de métadonnées textuelles incluant des scripts de films, des titres et descriptions de vidéos internet ou encore des transcriptions de paroles. L’usage de ce type de données publiquement disponibles est difficile, car l’annotation y est faible. Pour cela, nous introduisons différentes approches d’apprentissage telles que de nouvelles fonctions de coûts ou architectures de réseaux de neurones, adaptées à de faibles annotations.