Apport des mouvements buccaux, des mouvements extra-buccaux et du contexte facial à la perception de la parole chez l'enfant et chez l'adulte

par Grozdana Erjavec

Thèse de doctorat en Psychologie cognitive

Sous la direction de Denis Legros.

Soutenue le 16-12-2015

à Paris 8 , dans le cadre de École Doctorale cognition, langage, interaction (Saint-Denis, Seine-Saint-Denis) , en partenariat avec Cognitions humaine et artificielle (équipe de recherche) .

Le président du jury était Farid El Massioui.

Le jury était composé de Denis Legros, François Jouen.

Les rapporteurs étaient Ranka Bijeljać-Babic, Michèle Molina.


  • Résumé

    Le présent travail de thèse s’inscrit dans le domaine de recherche sur la perception audio-visuelle (AV) de la parole. Son objectif est de répondre aux questions suivantes : (i) Quelle est la nature du traitement de l’input visuel (holistique vs analytique) dans la perception AV de la parole ? (ii) Quelle est l’implication des régions faciales extra-buccales dans la perception AV de la parole ? (iii) Quel est le comportement oculaire des sujets lors de la perception AV de la parole ? (iv) Quelle est l’évolution de la perception AV de la parole dans les aspects (i), (ii) et (iii) au cours du développement. Le paradigme de dégradation de l’information auditive par le bruit a été utilisé dans deux expériences qui ont été menées avec des participants de quatre groupes d’âge, enfants, préadolescents, adolescents, adultes (16 participants par groupe). La tâche des participants consistait à répéter les syllabes de type consonne-voyelle /a/, faiblement et fortement dégradées par le bruit rose, présentées dans quatre conditions différentes. Ces conditions étaient les suivantes : une auditive (AU) et trois audio-visuelles (AV) (AV visage (AVV)), AV « bouche extraction » (AVB-E) (format bouche sans contrastes lumineux), AV « bouche-masquage » (AVB-M) (format bouche avec contrastes lumineux) pour l’expérience 1, et AVV, AV « bouche active » (AVV-BA) (format « visage » avec un contexte facial statique), AV « régions extra-buccales actives » (AVV-EBA) (format « visage » sans bouche) pour l’expérience 2. Le nombre total des répétitions correctes par condition (performance totale), la différence dans ce score entre chaque condition AV et la condition auditive (gain AV) et la durée totale des fixations oculaires dans la région buccale et les autres régions faciales (pour les formats AVV) ont été analysés. Les principaux résultats montrent que les mécanismes de traitement AV de la parole atteignent leur maturité avant l’enfance tardive. La vision du visage entier de l’orateur n’est pas avantageuse pour ce type de traitement. Elle semble même désavantageuse pour les adultes possiblement car elle déclenche le traitement d’autres aspects du visage (identité, expressions faciales) qui pourrait interférer avec le traitement des indices acoustiques relatifs à la parole. Pour les quatre groupes d’âge, la contribution des mouvements articulatoires dans les régions extra-buccales à la perception AV de la parole s’est avérée faible et limitée aux conditions de haute incertitude quant à l’information auditive. Pour les stimuli respectant les caractéristiques écologiques de l’information faciale, les patterns du comportement oculaire dans la perception bimodale de la parole varient en fonction du degré de dégradation de l’information auditive, mais semblent relativement stables durant la période allant de l’enfance à l’âge adulte. Finalement, les modalités de présentation de l’information visuelle localisée à la bouche ont affecté le comportement oculaire chez les adultes, les pré-adolescents et les enfants. Ceci suggère que le traitement visuo-attentionnel dans le cadre de la perception AV de la parle est sensible aux caractéristiques de bas niveau des stimuli visuels chez ces populations. Les variations au niveau du traitement visuo-attentionnel s’accompagnent, dans une certaine mesure, de variations dans la perception AV de la parole.

  • Titre traduit

    Contribution of oral movement, extraoral movement and facial context to speech perception in children and adults


  • Résumé

    The present thesis work fits into the domain/is incorporated within the framework of research on audio-visual (AV) speech perception. Its objective is to answer the following questions: (i) What is the nature of visual input processing (holistic vs analytic) in AV speech perception? (ii) What is the implication of extra-oral facial movement in AV speech perception? (iii) What are the oculomotor patterns in AV speech perception? (iv) What are the developmental changes in the above-mentioned aspects (i), (ii) and (iii)? The classic noise degradation paradigm was applied in two experiments conducted in the framework of the present thesis. Each experiment were conducted on participants of 4 age groups, adults, adolescents, pre-adolescents and children. Each group consisted of 16 participants. Participants’ task was to repeat consonant-vowel (/a/) syllables. The syllables were both mildly and strongly degraded by pink noise and were presented in four audio(-visual) conditions, one purely auditory (AO) and three audio-visual conditions. The AV conditions were the following: (i) AV face (AVF), (ii) AV « mouth extraction » (AVM-E ; mouth format without visual contrasts), (iii) AV « mouth window » (AVM-W ; mouth format with high visual contrasts) in experiment 1, and (i) AVF, (ii) AVF « mouth active (and facial frame static) » (AVF-MA), (iii) AVF « extra-oral regions active (and mouth absent) » (AVF-EOA) in experiment 2. The data relative to (i) the total number of correct repetitions (total performance), (ii) the difference in the correct repetitions score between each AV and the AO condition (AV gain), and (iii) the total fixations duration in the oral area and other facial areas (for the AV formats) were analyzed. The main results showed that the mechanisms involved in AV speech perception reach their maturity before late childhood. The vision of the talker’s full face does not seem to be advantageous in this context. It seems that the vision of the talker’s full face might perturb AV speech processing in adults, possibly because it triggers processing of other types of information (identity, facial expressions) which could in terms interfere with the processing of acoustic aspects of speech. The contribution of the extra-oral articulatory movement to AV speech perception was poor and limited to the condition of highly degraded auditory information. For ecologically presented facial information, the oculomotor patterns in AV speech perception varied as a function of the level of auditory information degradation, but appeared rather stable across the 4 groups. Finally, the modalities of the featural (mouth) facial information presentation affected the oculomotor behavior patterns in adults, pre-adolescents and children, thus suggesting a certain sensitivity of visuo-attentional processing to low-level visual stimuli characteristics in AV speech perception. The variations in visuo-attentional processing seemed to be associated to a certain extent with variations in AV speech perception.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 8-Vincennes Saint-Denis (Sciences humaines et sociales-Arts-Lettres-Droit). Service Commun de la Documentation. (Saint-Denis) .
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.