Techniques spatiales pour la compréhension vidéo
Auteur / Autrice : | Vladyslav Sydorov |
Direction : | Cordelia Schmid, Karteek Alahari |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 10/05/2021 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann (Grenoble) |
Equipe de recherche : Équipe-projet Apprentissage de modèles à partir de données massives (Montbonnot, Isère ; 2019-....) | |
Jury : | Président / Présidente : Nicolas Thome |
Rapporteurs / Rapporteuses : Mathieu Aubry, Ivan Laptev |
Mots clés
Résumé
La vidéo est une riche source d'informations visuelles qui a imprégné presque tous les aspects de la vie moderne et être capable de l'interpréter se traduit par la capture des nombreux aspects des phénomènes du monde réel. Cette thèse explore deux sujets connexes relatifs à la compréhension de la vidéo: la reconnaissance d'action et la détection d'action. Nous visons à reconnaître et à séparer les limites des catégories d'actions présentes dans un contenu vidéo réaliste.L'introduction de "deep learning" a eu un effet majeur sur les progrès des techniques de compréhension vidéo et a établi des 3D CNNs remarquablement efficaces comme méthode principale de traitement de la vidéo. Ces réseaux sont des outils puissants qui nécessitent des ressources de calcul étendues et de grandes quantités de données de formation à utiliser. Nous visons à appliquer ces modèles de la manière la plus efficace possible en tenant compte du pipeline qui les entoure: les étapes de prétraitement, les données sur lesquelles ils sont formés et la manière dont ils sont utilisés. Nous constatons que l'adoption d'une vue holistique aide les méthodes basées sur CNN à mieux réaliser les tâches de compréhension vidéo.Dans la première partie de cette thèse, nous abordons le problème du détail spatial limité des 3D CNNs. Nous présentons une manière de prioriser l'utilisation des ressources de calcul aux régions où elles sont les plus utiles en récupérant les régions «intéressantes» de la vidéo dans la résolution. Ceci est effectué par un mécanisme d'attention qui remonte par les étapes de prétraitement pour accéder à la vidéo originale, piloté par le signal de saillance du réseau qui peut être calculé efficacement pendant l'apprentissage. Nous effectuons des expériences sur Charades dataset et montrons un avantage clair de l'approche proposée.Dans la deuxième partie, nous traitons de la détection d'action spatio-temporelle. L'étendue spatiale des actions ne peut être annotée que dans le sous-ensemble d'images clés contenant les annotations temporelles. La majorité des approches traitent uniquement des images clés ou prédisent des annotations intermédiaires en suivant les détections humaines. Nous proposons une méthode d'utilisation des annotations au-delà des images clés, tout en tenant compte de leur fiabilité variable. Nous proposons également une solution pour la perte du contexte spatial global causée par la couche de RoI-pooling qui est couramment employée comme moyen de conditionner spatialement les détections. Nous validons expérimentalement les techniques proposées sur le dataset de détection spatio-temporelle DALY et montrons l'état de l'art des résultats.Dans les deux cas, nous menons des expériences sur des vidéos du monde réel à partir de benchmarks difficiles et montrons que le succès des méthodes de compréhension vidéo dépend à la fois des puissants réseaux CNN 3D et de la gestion prudente des machines qui les entourent.