Segmentation et reconaissance des gestes pour l'interaction homme-robot cognitive

par Miguel Simao

Thèse de doctorat en Mécanique-matériaux

Sous la direction de Olivier Gibaru et de Pedro Neto.

Soutenue le 17-12-2018

à Paris, ENSAM en cotutelle avec l'Universidade de Coimbra , dans le cadre de SMI - Sciences des Métiers de l'Ingénieur , en partenariat avec LISPEN (laboratoire) et de Laboratoire d’Ingénierie des Systèmes Physiques et Numériques (laboratoire) .

Le président du jury était Richard Béarée.

Le jury était composé de Olivier Gibaru, Pedro Neto, Michael Wolf.

Les rapporteurs étaient Paulo A. Moreira.


  • Résumé

    Cette thèse présente un cadre formel pour l'interaction Homme-robot (HRI), qui reconnaître un important lexique de gestes statiques et dynamiques mesurés par des capteurs portatifs. Gestes statiques et dynamiques sont classés séparément grâce à un processus de segmentation. Les tests expérimentaux sur la base de données de gestes UC2017 ont montré une haute précision de classification. La classification pas à pas en ligne utilisant des données brutes est fait avec des réseaux de neurones profonds « Long-Short Term Memory » (LSTM) et à convolution (CNN), et sont plus performants que les modèles statiques entraînés avec des caractéristiques spécialement conçues, au détriment du temps d'entraînement et d'inférence. La classification en ligne des gestes permet une classification prédictive avec réussit. Le rejet des gestes hors vocabulaire est proposé par apprentissage semi-supervisé par un réseau de neurones du type « Auxiliary Conditional Generative Adversarial Networks ». Le réseau propose a atteint une haute précision de rejet de les gestes non entraînés de la base de données UC2018 DualMyo.

  • Titre traduit

    Gesture Segmentation and Recognition for Cognitive Human-Robot Interaction


  • Résumé

    This thesis presents a human-robot interaction (HRI) framework to classify large vocabularies of static and dynamic hand gestures, captured with wearable sensors. Static and dynamic gestures are classified separately thanks to the segmentation process. Experimental tests on the UC2017 hand gesture dataset showed high accuracy. In online frame-by-frame classification using raw incomplete data, Long Short-Term Memory (LSTM) deep networks and Convolutional Neural Networks (CNN) performed better than static models with specially crafted features at the cost of training and inference time. Online classification of dynamic gestures allows successful predictive classification. The rejection of out-of-vocabulary gestures is proposed to be done through semi-supervised learning of a network in the Auxiliary Conditional Generative Adversarial Networks framework. The proposed network achieved a high accuracy on the rejection of untrained patterns of the UC2018 DualMyo dataset.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Arts et Métiers. Campus. Bibliothèque.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.