Thèse soutenue

Caractérisation du liage et de la fusion audiovisuels dans le cadre de l'analyse de la scène audiovisuelle

FR  |  
EN
Auteur / Autrice : Ganesh Attigodu Chandrashekara
Direction : Jean-Luc SchwartzFrédéric Berthommier
Type : Thèse de doctorat
Discipline(s) : Sciences cognitives, psychologie cognitive et neurocognition
Date : Soutenance le 29/02/2016
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Grenoble Images parole signal automatique (2007-....)
Jury : Président / Présidente : Anne Guérin-Dugué
Examinateurs / Examinatrices : Luc Arnal
Rapporteurs / Rapporteuses : Salvador Soto-Faraco, Nicolas Grimault

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse porte sur l’intégration de deux concepts : l’Analyse de Scènes Auditives (ASA) et la fusion audiovisuelle (AV) en perception de parole. Nous introduisons "l’Analyse de Scènes de Parole Audio Visuelles" (AVSSA) comme une extension du modèle à deux étages caractéristique de l’ASA vers des scènes audiovisuelles et nous proposons qu'un indice de cohérence entre modalités auditive et visuelle est calculé avant la fusion AV, ce qui permet de déterminer si les entrées sensorielles doivent être cognitivement liées : c’est le « modèle à deux étages » de la fusion AV. Des expériences antérieures sur la modulation de l'effet McGurk par des contextes AV cohérents vs. incohérents présentés avant la cible McGurk ont permis de valider le modèle à deux étages. Dans ce travail de thèse, nous étudions le processus AVSSA au sein de l'architecture à deux étages dans différentes dimensions telles que l'introduction de bruit, le mélange de sources AV, la recherche de corrélats neurophysiologiques et l’évaluation sur différentes populations.Une première série d'expériences chez les jeunes adultes a permis la caractérisation du mécanisme de liage AV en introduisant du bruit et les résultats ont montré que les participants étaient en mesure d'évaluer à la fois le niveau de bruit acoustique et la cohérence AV et de contrôler la fusion AV en conséquence. Dans une deuxième série d'expériences comportementales impliquant une compétition entre sources AV, nous avons montré que l’AVSSA permet d'évaluer la cohérence entre caractéristiques visuelles et auditives dans une scène complexe, afin d'associer les composants adéquats d'une source de parole AV donné, et de fournir pour le processus de fusion une évaluation de la cohérence de la source AV extraite. Il apparaît également que la fusion dépend du focus attentionnel sur une source ou l'autre. Puis une expérience EEG a cherché à mettre en évidence un marqueur neurophysiologique du processus de liage-déliage et a montré qu’un contexte AV incohérent peut moduler l'effet de l'entrée visuelle sur la composante N1 / P2. Une dernière série d'expériences a été axée sur l’évaluation du liage AV et de sa dynamique dans une population âgée, et a fourni des résultats similaires à ceux des adultes plus jeunes mais avec une plus grande dynamique de déliage. L'ensemble des résultats a permis de mieux caractériser le processus AVSSA et a été intégré dans la proposition d'une architecture neurocognitive améliorée pour la fusion AV dans la perception de la parole.