Prédiction structurée pour le language et la vidéo

par Jean-Baptiste Alayrac

Thèse de doctorat en Mathématiques

Sous la direction de Josef Sivic, Simon Lacoste julien et de Ivan Laptev.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de École doctorale Sciences mathématiques de Paris centre (Paris) , en partenariat avec DIENS - Département d'informatique de l'École normale supérieure (laboratoire) et de École normale supérieure (Paris ; 1985-....) (établissement opérateur d'inscription) .


  • Résumé

    Le but de cette thèse est de développer des modèles, des représentations adaptées et des algorithmes de prédiction structurée afin de pouvoir analyser de manière automatique des activités humaines complexes commentées par du langage naturel. Dans un premier temps, nous présentons un modèle capable de découvrir quelle est la liste d'actions nécessaires à l'accomplissement de la tâche ainsi que de localiser ces actions dans le flux vidéo et dans la narration textuelle à partir de plusieurs vidéos tutorielles. La première hypothèse est que les gens réalisent les actions au moment où ils les décrivent. La seconde hypothèse est que ces tâches complexes sont réalisées en suivant un ordre précis d'actions.. Notre modèle est évalué sur un nouveau jeu de données de vidéos tutorielles qui décrit 5 tâches complexes. Nous proposons ensuite de relier les actions avec les objets manipulés. Plus précisement, on se concentre sur un type d'action particulière qui vise à modifier l'état d'un objet. Par exemple, cela arrive lorsqu'on sert une tasse de café ou bien lorsqu'on ouvre une porte. Ce type d'action est particulièrement important dans le contexte des vidéos tutorielles. Notre méthode consiste à minimiser un objectif commun entre les actions et les objets. Nous démontrons via des expériences numériques que localiser les actions aident à mieux reconnaître l'état des objets et inversement que modéliser le changement d'état des objets permet de mieux déterminer le moment où les actions se déroulent. Tous nos modèles sont basés sur du partionnement discriminatif, une méthode qui permet d'exploiter la faible supervision contenue dans ce type de vidéos. Cela se résume à formuler un problème d'optimisation qui peut se résoudre aisément en utilisant l'algorithme de Frank-Wolfe qui est particulièrement adapté aux contraintes envisagées. Motivé par le fait qu'il est très important d'être en mesure d'exploiter les quelques milliers de vidéos qui sont disponibles en ligne, nous portons enfin notre effort à rendre l'algorithme de Frank-Wolfe plus rapide et plus efficace lorsque confronté à beaucoup de données. En particulier, nous proposons trois modifications à l'algorithme Block-Coordinate Frank-Wolfe: un échantillonnage adaptatif des exemples d'entrainement, une version bloc des `away steps' et des `pairwise steps' initialement prévu dans l'algorithme original et enfin une manière de mettre en cache les appels à l'oracle linéaire.

  • Titre traduit

    Structured learning from video and natural language


  • Résumé

    The goal of this thesis is to develop models, representations and structured learning algorithms for the automatic understanding of complex human activities from instructional videos narrated with natural language. We first introduce a model that, given a set of narrated instructional videos describing a task, is able to generate a list of action steps needed to complete the task and locate them in the visual and textual streams. To that end, we formulate two assumptions. First, people perform actions when they mention them, i.e., there is a strong temporal correlation between text and video. Second, we assume that complex tasks are composed of an ordered sequence of action steps. Equipped with these two hypotheses, our model first clusters the textual inputs and then uses this output to refine the location of the action steps in the video. We evaluate our model on a newly collected dataset of instructional videos depicting 5 different complex goal oriented tasks, such as changing car tire or repotting a plant. We then present an approach to link actions and the manipulated objects. More precisely, we focus on actions that aim at modifying the state of a specific object, such as pouring a coffee cup or opening a door. Such actions are an inherent part of instructional videos. Our method is based on the optimization of a joint cost between actions and object states under constraints. The constraints reflect our assumption that there is a consistent temporal order for the changes in object states and manipulation actions. We demonstrate experimentally that object states help localizing actions and conversely that action localization improves object state recognition. All our models are based on discriminative clustering, a technique which allows to leverage the readily available weak supervision contained in instructional videos. In order to deal with the resulting optimization problems, we take advantage of a highly adapted optimization technique: the Frank-Wolfe algorithm. Motivated by the fact that scaling our approaches to thousands of videos is essential in the context of narrated instructional videos, we also present several improvements to make the Frank-Wolfe algorithm faster and more computationally efficient. In particular, we propose three main modifications to the Block-Coordinate Frank-Wolfe algorithm: gap-based sampling, away and pairwise Block Frank-Wolfe steps and a solution to cache the oracle calls. We show the effectiveness of our improvements on four challenging structured prediction tasks including foreground/background segmentation and human pose estimation.