A contribution to mouth structure segmentation in images towards automatic mouth gesture recognition

par Juan Bernardo Gómez-Mendoza

Thèse de doctorat en Automatique

Sous la direction de Tanneguy Redarce.

Le président du jury était Carlos Alberto Parra Rodríguez.

Le jury était composé de Tanneguy Redarce, Carlos Alberto Parra Rodríguez, Philippe Bolon, John William Branch Bedoya, Flavio Prieto, Maciej Orkisz.

Les rapporteurs étaient Philippe Bolon.

  • Titre traduit

    Une contribution à la segmentation structurale d’une image de la bouche par reconnaissance gestuelle automatique


  • Résumé

    Ce travail présente une nouvelle méthodologie pour la reconnaissance automatique des gestes de la bouche visant à l'élaboration d'IHM pour la commande d'endoscope. Cette méthodologie comprend des étapes communes à la plupart des systèmes de vision artificielle, comme le traitement d'image et la segmentation, ainsi qu'une méthode pour l'amélioration progressive de l'étiquetage obtenu grâce à la segmentation. Contrairement aux autres approches, la méthodologie est conçue pour fonctionner avec poses statiques, qui ne comprennent pas les mouvements de la tête. Beaucoup d'interêt est porté aux tâches de segmentation d'images, car cela s'est avéré être l'étape la plus importante dans la reconnaissance des gestes. En bref, les principales contributions de cette recherche sont les suivantes: La conception et la mise en oeuvre d'un algorithme de rafinement d'étiquettes qui dépend d'une première segmentation/pixel étiquetage et de deux paramétres corrélés. Le rafineur améliore la précision de la segmentation indiquée dans l'étiquetage de sortie pour les images de la bouche, il apporte également une amélioration acceptable lors de l'utilisation d'images naturelles. La définition de deux méthodes de segmentation pour les structures de la bouche dans les images; l'une fondée sur les propriétés de couleur des pixels, et l'autre sur des éléments de la texture locale, celles-ci se complétent pour obtenir une segmentation rapide et précise de la structure initiale. La palette de couleurs s'avére particuliérement importante dans la structure de séparation, tandis que la texture est excellente pour la séparation des couleurs de la bouche par rapport au fond. La dérivation d'une procédure basée sur la texture pour l'automatisation de la sélection des paramètres pour la technique de rafinement de segmentation discutée dans la première contribution. Une version améliorée de l'algorithme d'approximation bouche contour présentée dans l'ouvrage de Eveno et al. [1, 2], ce qui réduit le nombre d'itérations nécessaires pour la convergence et l'erreur d'approximation finale. La découverte de l'utilité de la composante de couleur CIE à statistiquement normalisée, dans la différenciation lévres et la langue de la peau, permettant l'utilisation des valeurs seuils constantes pour effectuer la comparaison.


  • Résumé

    This document presents a series of elements for approaching the task of segmenting mouth structures in facial images, particularly focused in frames from video sequences. Each stage is treated separately in different Chapters, starting from image pre-processing and going up to segmentation labeling post-processing, discussing the technique selection and development in every case. The methodological approach suggests the use of a color based pixel classification strategy as the basis of the mouth structure segmentation scheme, complemented by a smart pre-processing and a later label refinement. The main contribution of this work, along with the segmentation methodology itself, is based in the development of a color-independent label refinement technique. The technique, which is similar to a linear low pass filter in the segmentation labeling space followed by a nonlinear selection operation, improves the image labeling iteratively by filling small gaps and eliminating spurious regions resulting from a prior pixel classification stage. Results presented in this document suggest that the refiner is complementary to image pre-processing, hence achieving a cumulative effect in segmentation quality. At the end, the segmentation methodology comprised by input color transformation, preprocessing, pixel classification and label refinement, is put to test in the case of mouth gesture detection in images aimed to command three degrees of freedom of an endoscope holder.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc’INSA. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.