Identification des indices acoustiques utilisés lors de la compréhension de la parole dégradée

par Léo Varnet

Thèse de doctorat en Neurosciences

Sous la direction de Fanny Meunier et de Michel Hoen.

Soutenue le 18-11-2015

à Lyon 1 , dans le cadre de École Doctorale Neurosciences et Cognition (NSCo) , en partenariat avec Laboratoire Langage Cerveau Cognition (Bron) (laboratoire) .

Le président du jury était Jean-Luc Schwartz.

Le jury était composé de Fanny Meunier, Kenneth Knoblauch, Éric Truy.

Les rapporteurs étaient Willy Serniclaes, Christian Lorenzi.


  • Résumé

    Bien qu’il existe un large consensus de la communauté scientifique quant au rôle des indices acoustiques dans la compréhension de la parole, les mécanismes exacts permettant la transformation d’un flux acoustique continu en unités linguistiques élémentaires demeurent aujourd’hui largement méconnus. Ceci est en partie dû à l’absence d’une méthodologie efficace pour l’identification et la caractérisation des primitives auditives de la parole. Depuis les premières études de l’interface acoustico-phonétique par les Haskins Laboratories dans les années 50, différentes approches ont été proposées ; cependant, toutes sont fondamentalement limitées par l’artificialité des stimuli utilisés, les contraintes du protocole expérimental et le poids des connaissances a priori nécessaires. Le présent travail de thèse s’est intéressé { la mise en oeuvre d’une nouvelle méthode tirant parti de la situation de compréhension de parole dégradée pour mettre en évidence les indices acoustiques utilisés par l’auditeur.Dans un premier temps, nous nous sommes appuyés sur la littérature dans le domaine visuel en adaptant la méthode des Images de Classification à une tâche auditive de catégorisation de phonèmes dans le bruit. En reliant la réponse de l’auditeur { chaque essai à la configuration précise du bruit lors de cet essai, au moyen d’un Modèle Linéaire Généralisé, il est possible d’estimer le poids des différentes régions temps-fréquence dans la décision. Nous avons illustré l’efficacité de notre méthode, appelée Image de Classification Auditive, à travers deux exemples : une catégorisation /aba/-/ada/, et une catégorisation /da/-/ga/ en contexte /al/ ou /aʁ/. Notre analyse a confirmé l’implication des attaques des formants F2 et F3, déjà suggérée par de précédentes études, mais a également permis de révéler des indices inattendus. Dans un second temps, nous avons employé cette technique pour comparer les résultats de participants musiciens experts (N=19) ou dyslexiques (N=18) avec ceux de participants contrôles. Ceci nous a permis d’étudier les spécificités des stratégies d’écoute de ces différents groupes.L’ensemble des résultats suggèrent que les Images de Classification Auditives pourraient constituer une nouvelle approche, plus précise et plus naturelle, pour explorer et décrire les mécanismes { l’oeuvre au niveau de l’interface acoustico-phonétique.

  • Titre traduit

    Identification of acoustic cues involved in degraded speech comprehension


  • Résumé

    There is today a broad consensus in the scientific community regarding the involvement of acoustic cues in speech perception. Up to now, however, the precise mechanisms underlying the transformation from continuous acoustic stream into discrete linguistic units remain largely undetermined. This is partly due to the lack of an effective method for identifying and characterizing the auditory primitives of speech. Since the earliest studies on the acoustic–phonetic interface by the Haskins Laboratories in the 50’s, a number of approaches have been proposed; they are nevertheless inherently limited by the non-naturalness of the stimuli used, the constraints of the experimental apparatus, and the a priori knowledge needed. The present thesis aimed at introducing a new method capitalizing on the speech-in-noise situation for revealing the acoustic cues used by the listeners.As a first step, we adapted the Classification Image technique, developed in the visual domain, to a phoneme categorization task in noise. The technique relies on a Generalized Linear Model to link each participant’s response to the specific configuration of noise, on a trial-by-trail basis, thereby estimating the perceptual weighting of the different time-frequency regions for the decision. We illustrated the effectiveness of our Auditory Classification Image method through 2 examples: a /aba/-/ada/ categorization and a /da/-/ga/ categorization in context /al/ or /aʁ/. Our analysis confirmed that the F2 and F3 onsets were crucial for the tasks, as suggested in previous studies, but also revealed unexpected cues. In a second step, we relied on this new method to compare the results of musical experts (N=19) or dyslexics participants (N=18) to those of controls. This enabled us to explore the specificities of each group’s listening strategies.All the results taken together show that the Auditory Classification Image method may be a more precise and more straightforward approach to investigate the mechanisms at work at the acoustic-phonetic interface.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.