Structured modeling and recognition of human actions in video

par Guilhem Chéron

Thèse de doctorat en Informatique

Sous la direction de Ivan Laptev et de Cordelia Schmid.

Le président du jury était Jürgen Gall.

Le jury était composé de Ivan Laptev, Cordelia Schmid, Jürgen Gall, Patrick Pérez, Cees G. M. Snoek, Jean Ponce.

Les rapporteurs étaient Patrick Pérez, Cees G. M. Snoek.

  • Titre traduit

    Modélisation structurée et reconnaissance des actions humaines dans les vidéos


  • Résumé

    La compréhension automatique de vidéos devrait impacter notre vie de tous les jours dans de nombreux domaines comme la conduite autonome, les robots domestiques, la recherche et le filtrage de contenu, les jeux vidéo, la défense ou la sécurité. Le nombre de vidéos croît plus vite chaque année, notamment sur les plateformes telles que YouTube, Twitter ou Facebook. L’analyse automatique de ces données est indispensable pour permettre à de nouvelles applications de voir le jour. L’analyse vidéo, en particulier en environnement non contrôlé, se heurte à plusieurs problèmes comme la variabilité intra-classe (les échantillons d’un même concept paraissent très différents) ou la confusion inter-classe (les exemples provenant de deux activités distinctes se ressemblent). Bien que ces difficultés puissent être traitées via des algorithmes d’apprentissage supervisé, les méthodes pleinement supervisées sont souvent synonymes d’un coût d’annotation élevé. Dépendant à la fois de la tâche à effectuer et du niveau de supervision requis, la quantité d’annotations nécessaire peut être prohibitive. Dans le cas de la localisation d’actions, une approche pleinement supervisée nécessite les boîtes englobantes de l’acteur à chaque image où l’action est effectuée. Le coût associé à l’obtention d’un telle annotation empêche le passage à l’échelle et limite le nombre d’échantillons d’entraînement. Trouver un consensus entre les annotateurs est également difficile et mène à des ambiguïtés dans l’étiquetage (Où commence l’action ? Quand se termine-t-elle ? Que doit inclure la boîte englobante ? etc.). Cette thèse adresse les problèmes évoqués ci-dessus dans le contexte de deux tâches, la classification et la localisation d’actions humaines. La classification consiste à reconnaître l’activité effectuée dans une courte vidéo limitée à la durée de l’action. La localisation a pour but de détecter en temps et dans l’espace des activités effectuées dans de plus longues vidéos. Notre approche pour la classification d’actions tire parti de l’information contenue dans la posture humaine et l’intègre avec des descripteurs d’apparence et de mouvement afin d’améliorer les performances. Notre approche pour la localisation d’actions modélise l’évolution temporelle des actions à l’aide d’un réseau récurrent entraîné à partir de suivis de personnes. Enfin, la troisième méthode étudiée dans cette thèse a pour but de contourner le coût prohibitif des annotations de vidéos et utilise le regroupement discriminatoire pour analyser et combiner différents types de supervision.


  • Résumé

    Automatic video understanding is expected to impact our lives through many applications such as autonomous driving, domestic robots, content search and filtering, gaming, defense or security. Video content is growing faster each year, for example on platforms such as YouTube, Twitter or Facebook. Automatic analysis of this data is required to enable future applications. Video analysis, especially in uncontrolled environments, presents several difficulties such as intraclass variability (samples from the same concept appear very differently) or inter-class confusion (examples from two different activities look similar). While these problems can be addressed with the supervised learning algorithms, fully-supervised methods are often associated with high annotation cost. Depending on both the task and the level of required supervision, the annotation can be prohibitive. For example, in action localization, a fully-supervised approach demands person bounding boxes to be annotated at every frames where an activity is performed. The cost of getting such annotation prohibits scalability and limits the number of training samples. Another issue is finding a consensus between annotators, which leads to labeling ambiguities (where does the action start? where does it end? what should be included in the bounding box? etc.). This thesis addresses above problems in the context of two tasks, namely human action classification and localization. The former aims at recognizing the type of activity performed in a short video clip trimmed to the temporal extent of the action. The latter additionally extracts the space-time locations of potentially multiple activities in much longer videos. Our approach to action classification leverages information from human pose and integrates it with appearance and motion descriptors for improved performance. Our approach to action localization models the temporal evolution of actions in the video with a recurrent network trained on the level of person tracks. Finally, the third method in this thesis aims to avoid a prohibitive cost of video annotation and adopts discriminative clustering to analyze and combine different levels of supervision.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Paris Sciences et Lettres. Thèses électroniques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.