Auteur / Autrice : | Gül Varol |
Direction : | Ivan Laptev, Cordelia Schmid |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 29/05/2019 |
Etablissement(s) : | Paris Sciences et Lettres (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....) | |
Equipe de recherche : Équipe de recherche Models of visual object recognition and scene understanding (Paris) | |
Jury : | Président / Présidente : Francis Bach |
Examinateurs / Examinatrices : Ivan Laptev, Cordelia Schmid, Francis Bach, Marc Pollefeys, Iasonas Kokkinos, Andrew Zisserman | |
Rapporteurs / Rapporteuses : Marc Pollefeys, Iasonas Kokkinos |
Mots clés
Résumé
Le contenu visuel se concentre souvent sur les humains. L’analyse automatique des humains à partir de données visuelles revêt donc une grande importance pour de nombreuses applications. Le but de cette thèse est d’apprendre des représentations visuelles pour l’analyse des humains. Un accent particulier est mis sur deux domaines étroitement liés de la vision artificielle : l’analyse du corps humain et la reconnaissance des actions. En résumé, nos contributions sont les suivantes : (i) nous générons des données synthétiques photoréalistes de personnes permettant l’entraînement de CNNs pour l’analyse du corps humain, (ii) nous proposons une architecture multitâche permettant d’obtenir une représentation volumétrique du corps à partir d’une seule image, (iii) nous étudions les avantages des convolutions temporelles à long terme pour la reconnaissance de l’action humaine à l’aide de CNNs 3D, (iv) nous incorporons une fonction de coût de similarité des vidéos multi-vues pour concevoir des représentations invariantes au changement de vue.