Apprentissage automatique pour la reconnaissance d'action humaine et l'estimation de pose à partir de l'information 3D

par Diogo Carbonera Luvizon

Projet de thèse en STIC - Cergy

Sous la direction de David Picard et de Hedi Tabia.

Thèses en préparation à Cergy-Pontoise , dans le cadre de ED EM2PSI - Économie, Management, Mathématiques, Physique et Sciences Informatiques , en partenariat avec Equipes Traitement de l'Information et Systèmes (laboratoire) depuis le 15-10-2015 .


  • Résumé

    La reconnaissance d'actions humaines en 3D est une tâche difficile en raison de la complexité de mouvements humains et de la variété des poses et des actions accomplies par différents sujets. Les technologies récentes basées sur des capteurs de profondeur peuvent fournir les représentations squelettiques à faible coût de calcul, ce qui est une information utile pour la reconnaissance d'actions. Cependant, ces types de capteurs se limitent à des environnements contrôlés et génèrent fréquemment des données bruitées. Parallèlement à ce progrès technologique, les réseaux de neurones convolutifs (CNN) ont montré des améliorations significatives sur la reconnaissance d'actions et sur l'estimation de la pose humaine en 3D à partir des images couleurs. Malgré étant des problèmes étroitement liés, les deux tâches sont souvent traitées séparément dans la littérature. Dans ce travail, nous analysons le problème de la reconnaissance d'actions humaines dans deux scénarios: premièrement, nous explorons les caractéristiques spatiales et temporelles à partir de représentation de squelettes humains, ces qui sont agrégées par une méthode classique d'apprentissage de distance. Dans le deuxième scénario, nous montrons non seulement l'importance de la précision de la pose en 3D pour la reconnaissance d'actions, mais aussi que les deux tâches peuvent être efficacement effectués par un seul réseau de neurones profonds capable d'obtenir des résultats dans l'état de l'art. De plus, nous démontrons que l'optimisation de bout en bout en utilisant des poses comme contrainte intermédiaire conduit à une précision plus élevée sur la tâche d'action que l'apprentissage séparé. Enfin, nous proposons une nouvelle architecture évolutive pour l'estimation de la pose en 3D et la reconnaissance de l'actions simultanément et en temps réel. Cette architecture offre une gamme de performances vs compromis de vitesse avec une seule procédure d'entraînement multitâche et multimodal.

  • Titre traduit

    Machine Learning for Human Action Recognition and Pose Estimation based on 3D Information


  • Résumé

    3D human action recognition is a challenging task due to the complexity of human movements and to the variety on poses and actions performed by distinct subjects. Recent technologies based on depth sensors can provide 3D human skeletons with low computational cost, which is an useful information for action recognition. However, such low cost sensors are restricted to controlled environment and frequently output noisy data. Meanwhile, convolutional neural networks (CNN) have shown significant improvements on both action recognition and 3D human pose estimation from RGB images. Despite being closely related problems, the two tasks are frequently handled separated in the literature. In this work, we analyze the problem of 3D human action recognition in two scenarios: first, we explore spatial and temporal features from human skeletons, which are aggregated by a shallow metric learning approach. In the second scenario, we not only show that precise 3D poses are beneficial to action recognition, but also that both tasks can be efficiently performed by a single deep neural network and still achieves state-of-the-art results. Additionally, we demonstrate that optimization from end-to-end using poses as an intermediate constraint leads to significant higher accuracy on the action task than separated learning. Finally, we propose a new scalable architecture for real-time 3D pose estimation and action recognition simultaneously, which offers a range of performance vs. speed trade-off with a single multimodal and multitask training procedure.