Thèse soutenue

Codage efficace de la parole à court terme
FR  |  
EN
Accès à la thèse
Auteur / Autrice : François Deloche
Direction : Jean-Pierre Nadal
Type : Thèse de doctorat
Discipline(s) : Sciences cognitives (option : neurosciences computationnelles)
Date : Soutenance le 22/10/2019
Etablissement(s) : Paris, EHESS
Ecole(s) doctorale(s) : École doctorale de l'École des hautes études en sciences sociales
Jury : Président / Présidente : Judit Gervain
Examinateurs / Examinatrices : Judit Gervain, Frédéric Bimbot, Bruno Torrésani, Gilles Chardon, Shihab A. Shamma
Rapporteurs / Rapporteuses : Frédéric Bimbot, Bruno Torrésani

Résumé

FR  |  
EN

L’analyse de données de parole a montré que la sélectivité fréquentielle de la cochlée est adaptée à la structure statistique de la parole. Ce résultat est conforme à l'hypothèse du codage efficace selon laquelle le traitement sensoriel adopte un schéma de codage qui est optimal pour les stimuli naturels. Cependant, le signal de la parole possède une structure riche, même sur des petites échelles de temps, du fait de la diversité des facteurs acoustiques à l'origine de la génération de la parole. Cette complexité de structure motive l'idée qu'une représentation non linéaire de la parole pourrait aboutir à un schéma de codage plus efficace qu‘une simple représentation linéaire. La première étape dans la recherche de stratégies efficaces est la description de la structure statistique de la parole à un niveau fin. Dans cette thèse, j'explore la structure statistique au niveau des phonèmes en adoptant une approche paramétrique pour la représentation du signal. La décomposition la plus parcimonieuse est recherchée parmi une famille de dictionnaires de filtres de Gabor dont la sélectivité fréquentielle suit différentes lois de puissance dans la gamme des hautes fréquences 1-8kHz. L'utilisation de ces dictionnaires comme représentations temps-fréquence parcimonieuses est justifiée mathématiquement et empiriquement. Un lien formel avec les travaux précédents, fondés sur l'Analyse en Composantes indépendantes (ACI), est présenté. Les lois de puissance des représentations parcimonieuses offrent une interprétation riche de la structure statistique de la parole, et peuvent être reliées à des facteurs acoustiques clés déduits de l'analyse de données réelles et synthétiques. Les résultats montrent en outre qu'une stratégie de codage efficace, reflétant le comportement non linéaire de la cochlée, consiste à réduire la sélectivité fréquentielle avec le niveau d'intensité sonore.