Thèse en cours

reconnaissance et génération automatique du Cued Speech utilisant l'apprentissage profond

FR  |  
EN
Auteur / Autrice : Sanjana Sankar
Direction : Denis BeautempsThomas Hueber
Type : Projet de thèse
Discipline(s) : Signal Image Parole Télécoms
Date : Inscription en doctorat le 01/02/2021
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Grenoble Images parole signal automatique (2007-....)

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le Cued speech (CS) ou Langue française Parlée Complétée pour le français est un système dédié aux personnes sourdes à bases de gestes de la main pour la communication parlée. Il est composé d'un ensemble de formes de mains spécifiques placées à des positions particulières sur le visage ou sur le côté venant en appoint du mouvement des lèvres pour désambiguïser la lecture des lèvres et ainsi rendre complètement visible les phonèmes d'une langue donnée. L'objectif de la thèse est double: 1) concevoir un système visant à décoder automatiquement le CS en texte, 2) générer automatiquement des vidéos réalistes d'un interprète virtuel en CS à partir du texte. Ces modules sont nécessaires pour construire des systèmes de dialogue pour personnes sourdes. Le candidat retenu exploitera les techniques avancées en apprentissage profond pour modéliser les relations complexes entre lèvres, gestes de la main du CS et texte. Le plan de travail est : 1) l'extension des bases de données existantes à de nouveaux codeurs interprètes en CS en langues française et anglaise enregistrés en vidéo et en capture 3D du mouvement, 2) développer des méthodes de mapping séquence-à-séquence (s'appuyant par exemple sur des architectures de type Transformer et GAN) pour décoder le CS en texte, 3) développer les techniques de génération vidéo s'apuyant sur les techniques GAN pour synthétiser automatiquement des gestes réalistes du CS à partir du texte. Une période (M12-M13 et M24-M25) de détachement est prévue chez la société IVèS et à l'Université Libre de Bruxelles ULB (M19-M20). IVèS est très bien identifiée en France à Grenoble et Toulouse (cette société vient d'acquérir la société ELIOZ) dans le développement de services relais de téléphonie dédiés aux personnes sourdes. De son côté l'ULB apportera son expertise en développement du langage chez les enfants sourds, et notamment ceux équipés d'un implant cochléaire.