Reconnaissance rapide et précise d'actions humaines à partir de caméras RGB-D.

par Enjie Ghorbel

Thèse de doctorat en Informatique

Sous la direction de Xavier Savatier et de Stéphane Lecœuche.

Soutenue le 12-10-2017

à Normandie , dans le cadre de École doctorale Sciences physiques mathématiques et de l'Information pour l'ingénieur (Saint-Etienne-du-Rouvray, Seine-Maritime ; ....-2016) , en partenariat avec Institut de recherche en systèmes électroniques embarqués (Saint-Étienne-du-Rouvray, Seine-Maritime) (équipe de recherche) , Institut de Recherche en Systèmes Electroniques Embarqués / IRSEEM EA 4353 (laboratoire) , Institut Mines-Télécom Lille Douai (laboratoire) , Ecole supérieure d'ingénieurs en génie électrique (Rouen) (Etablissement de préparation de la thèse) et de Université de Rouen Normandie (Etablissement de préparation de la thèse) .

Les rapporteurs étaient Saïda Bouakaz, François Brémond.


  • Résumé

    ARécemment, les caméras RGB-D ont été introduites sur le marché et ont permis l’exploration de nouvelles approches de reconnaissance d’actions par l’utilisation de deux modalités autres que les images RGB, à savoir, les images de profondeur et les séquences de squelette. Généralement, ces approches ont été évaluées en termes de taux de reconnaissance. Cette thèse s’intéresse principalement à la reconnaissance rapide d’actions à partir de caméras RGB-D. Le travail a été focalisé sur une amélioration conjointe de la rapidité de calcul et du taux de reconnaissance en vue d’une application temps-réel. Dans un premier temps, nous menons une étude comparative des méthodes existantes de reconnaissance d’actions basées sur des caméras RGB-D en utilisant les deux critères énoncés : le taux de reconnaissance et la rapidité de calcul. Suite aux conclusions résultant de cette étude, nous introduisons un nouveau descripteur de mouvement, à la fois précis et rapide, qui se base sur l’interpolation par splines cubiques de valeurs cinématiques du squelette, appelé Kinematic Spline Curves (KSC). De plus, afin de pallier les effets négatifs engendrés par la variabilité anthropométrique, la variation d’orientation et la variation de vitesse, des méthodes de normalisation spatiale et temporelle rapide ont été proposées. Les expérimentations menées sur quatre bases de données prouvent la précision et la rapidité de ce descripteur. Dans un second temps, un deuxième descripteur appelé Hiearchical Kinematic Coavarince(HKC) est introduit. Ce dernier est proposé dans l’optique de résoudre la question de reconnaissance rapide en ligne. Comme ce descripteur n’appartient pas à un espace euclidien, mais à l’espace des matrices Symétriques semi-Définies Positives (SsDP), nous adaptons les méthodes de classification à noyau par l’introduction d’une distance inspirée de la distance Log-Euclidienne, que nous appelons distance Log-Euclidienne modifiée. Cette extension nous permet d’utiliser des classifieurs adaptés à l’espace de caractéristiques (SPsD).Une étude expérimentale montre l’efficacité de cette méthode non seulement en termes de rapidité de calcul et de précision, mais également en termes de latence observationnelle. Ces conclusions prouvent que cette approche jointe à une méthode de segmentation d’actions pourrait s’avérer adaptée à la reconnaissance en ligne et ouvrent ainsi de nouvelles perspectives pour nos travaux futurs.

  • Titre traduit

    Fast and accurate human action recognition using RGB-D cameras


  • Résumé

    The recent availability of RGB-D cameras has renewed the interest of researchers in the topic of human action recognition. More precisely, several action recognition methods have been proposed based on the novel modalities provided by these cameras, namely, depth maps and skeleton sequences. These approaches have been mainly evaluated in terms of recognition accuracy. This thesis aims to study the issue of fast action recognition from RGB-D cameras. It focuses on proposing an action recognition method realizing a trade-off between accuracy and latency for the purpose of applying it in real-time scenarios. As a first step, we propose a comparative study of recent RGB-D based action recognition methods using the two cited criteria: accuracy of recognition and rapidity of execution. Then, oriented by the conclusions stated thanks to this comparative study, we introduce a novel, fast and accurate human action descriptor called Kinematic Spline Curves (KSC).This latter is based on the cubic spline interpolation of kinematic values. Moreover, fast spatialand temporal normalization are proposed in order to overcome anthropometric variability, orientation variation and rate variability. The experiments carried out on four different benchmarks show the effectiveness of this approach in terms of execution time and accuracy. As a second step, another descriptor is introduced, called Hierarchical Kinematic Covariance(HKC). This latter is proposed in order to solve the issue of fast online action recognition. Since this descriptor does not belong to a Euclidean space, but is an element of the space of Symmetric Positive semi-definite (SPsD) matrices, we adapt kernel classification methods by the introduction of a novel distance called Modified Log-Euclidean, which is inspiredfrom Log-Euclidean distance. This extension allows us to use suitable classifiers to the feature space SPsD of matrices. The experiments prove the efficiency of our method, not only in terms of rapidity of calculation and accuracy, but also in terms of observational latency. These conclusions show that this approach combined with an action segmentation method could be appropriate to online recognition, and consequently, opens up new prospects for future works.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Autre version

Reconnaissance rapide et précise d'actions humaines à partir de caméras RGB-D.


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rouen. BU Lettres, Sciences humaines. Service commun de la documentation.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

à

Informations

  • Sous le titre : Reconnaissance rapide et précise d'actions humaines à partir de caméras RGB-D.
  • Détails : 1 vol. (131 p.)
  • Notes : Texte en anglais.
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.