Thèse en cours

MAchine Learning et MOtion CApture pour l'analyse de la Langue des Signes

FR  |  
EN
Auteur / Autrice : Perrine Chassat
Direction : Nicolas BrunelJuhyun Park
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 19/10/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : LaMME - Laboratoire de Mathématiques et Modélisation d'Evry
Equipe de recherche : Statistique pour la Génomique et la Génétique
référent : Université d'Évry Val d'Essonne

Résumé

FR  |  
EN

Après plus de 10 années de travail, Mocaplab a mis au point une solution, unique au niveau mondial, d'enregistrement fin de tout le signal de la langue des signes (corps, visage, doigts, yeux) permettant la création de corpus conséquents (plusieurs heures d'enregistrement). En s'inspirant des outils classiques développés pour étudier la parole, l'idée est alors d'utiliser les outils mathématiques actuels, notamment de statistiques et de machine learning, pour extraire de ces signaux “mouvements” acquis par motion capture, des “primitives” spécifiques à la nature de ces signaux étudiés. L'idée principale est d'imaginer des outils qui prennent en compte dans leur nature le fait qu'il s'agit de signaux de translation et rotation associés, régit par des contraintes physiques et neurologiques. L'objectif de cette thèse est d'identifier des primitives du mouvement des mains dans le contexte de la langue des signes, et de fournir des modèles et des outils de segmentation non-supervisée de séquence de langues de signes. Enfin, sur cette base, nous envisageons le développement de méthodes de classification (supervisée) de signaux de langue des signes. Analyse de données fonctionnelles Dans le contexte de la langue des signes, Il s'agit donc d'identifier le bon cadre mathématique et les propriétés indispensables dans le “signal mouvement”. Il s'agira d'identifier des primitives, descripteurs et autres 'traits cinétiques' impliqués dans la langue des signes, permettant d'imaginer en prime des solutions de segmentation et de classification et de reconnaissance. Pour cela, nous proposons d'utiliser des techniques issues de l'analyse des données fonctionnelles [Wang et al 2016]. Un point de départ de cette méthodologie consiste en l'estimation des trajectoires issus du motion capture et de la caractérisation de la géométrie et de la cinématique par des représentations fonctionnelles appropriées. Cette analyse simultanée est notamment possible dans la trajectoire d'une particule ponctuelle, en utilisant le cadre de Frénet-Serret et l'estimation du repère de Frénet [Brunel2014, Brunel2019, Park2019]. Recherche de primitives A partir de ces estimateurs, nous souhaitons modéliser et décomposer la variabilité de ces trajectoires qui peuvent être à valeurs dans des groupes de Lie, tels que le Groupe Spécial Orthogonal ou le Groupe Spécial Euclidien. Ainsi l'exploitation de séquences annotées ou non de langues des signes et l'analyse de la diversité de ces mesures pourra permettre de traiter les différents points : explorer et estimer des modèles statistiques décrivant le lien entre vitesse curvilinéaire et trajectoire identifier les sources de variations les plus importantes dans la forme des trajectoires Identifier des principes d'invariance dans les mouvements de chaque main Modéliser les positions et vitesse relatives des deux mains dans le cas de la langue des signes. Machine learning et Deep Learning Enfin, dans un objectif de classification supervisée, nous envisageons d'utiliser des réseaux de neurones et le Deep Learning pour modéliser les données temporelles de mouvement (ces modèles ont montré un grand succès dans la modélisation de données temporelles et complexes, e.g. réseaux récurrents, convolutifs, orientés graphes...), ou encore de données à valeurs dans des groupes de Lie, [Li, et al 2018]. Nous bénéficions notamment de la possibilité de générer de nouvelles données adaptées grâce l'accès au plateau de MOCAP (8 jours) pour le test et l'amélioration des modèles de deep learning.