Interaction multimodale oro-gestuelle personne libre : application à l'interaction multi-utilisateur avec de grands écrans

par Sébastien Carbini

Thèse de doctorat en Signal, image, parole, télécoms

Sous la direction de Andrzej Duda et de Pierre-Yves Coulon.

Soutenue en 2006

à Grenoble, INPG .


  • Résumé

    Cette thèse propose de concevoir et d'étudier une interface multimodale permettant d'interagir à la voix et au geste avec un grand écran. Pour la reconnaissance de geste, la tête et les mains d'un utilisateur sont détectées et suivies en temps réel à partir d'une caméra stéréo. Chaque partie du corps a un modèle statistique dont les paramètres sont estimés à chaque nouvelle image par l'algorithme Expectation Maximisation. Le suivi permet de reconnaître des gestes de pointage, de sélection et des gestes bi-manuels simples (rotation, redimensionnement). Pour la parole, une brique de reconnaissance multi-locuteur déjà disponible a été utilisée. Dans un premier temps, la fusion du geste et de la parole permet d'obtenir une souris "oro-gestuelle" sans contact permettant d'interfacer la plupart des applications. Dans une version plus avancée, la prise en compte du contexte de l'application lors de la fusion permet des commandes multimodales plus intuitives.


  • Pas de résumé disponible.

  • Titre traduit

    Speech and gesture free person multimodal interaction : application to multi-user interaction with large displays


  • Résumé

    This thesis proposes to conceive and study a multimodal interface for speech and gesture interactions with a large screen. For gesture recognition, the head and the hands of a user are detected and tracked in real time from a stereo camera. Each body part has a statistical model whose parameters are estimated at each new image by the Expectation Maximisation algorithm. The tracking allows to recognize pointing, selection and simple bi-manual gestures (rotation, resizing). For speech recognition, a yet available multi-speaker automatic speech recognition system was used. First, speech is fused with gesture to obtain an "oro-gestural" contact-Iess mouse to interface most applications. Then, in a more advanced version, taking into account the context of the application during modalities fusion allows more intuitive multimodal commands.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (203 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 191-203

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS06/INPG/0074
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS06/INPG/0074/D
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : CARBINI i
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.