Thèse soutenue

Analyse de scènes de parole multisensorielle : mise en évidence et caractérisation d'un processus de liage audiovisuel préalable à la fusion
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Olha Nahorna
Direction : Jean-Luc SchwartzFrédéric Berthommier
Type : Thèse de doctorat
Discipline(s) : Ingenierie cognition interaction apprentissage création
Date : Soutenance le 02/10/2013
Etablissement(s) : Grenoble
Ecole(s) doctorale(s) : École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Grenoble Images parole signal automatique
Jury : Président / Présidente : Sonia Kandel
Examinateurs / Examinatrices : Daniel Pressnitzer
Rapporteurs / Rapporteuses : Virginie Van Wassenhove, Cécile Colin

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Dans la parole audiovisuelle, les flux auditifs et visuels cohérents sont généralement fusionnés en un percept unifié. Il en résulte une meilleure intelligibilité dans le bruit, et cela peut induire une modification visuelle du percept auditif dans le célèbre « effet McGurk » (le montage d'un son « ba » avec une image d'un locuteur prononçant « ga » est souvent perçu comme « da »). La vision classique considère que le traitement est effectué indépendamment dans les systèmes auditif et visuel avant que l'interaction ne se produise à un certain niveau de représentation, ce qui résulte en un percept intégré. Cependant certaines données comportementales et neurophysiologiques suggèrent l'existence d'un processus à deux niveaux. Le premier niveau implique le liage des éléments d'information auditive et visuelle appropriés avant de donner naissance à un percept fusionné au second niveau. Pour démontrer l'existence de ce premier niveau, nous avons élaboré un paradigme original qui vise à tenter de « délier » ces deux flux. Notre paradigme consiste à faire précéder l'effet McGurk (indicateur de la fusion audiovisuelle) par un contexte soit cohérent soit incohérent. Dans le cas du contexte incohérent on observe une diminution significative de perception d'effet McGurk, donc une décroissance de la fusion audiovisuelle. Les différent types d'incohérence (syllabes acoustiques superposées à des phrases visuelles, modifications phonétiques ou temporelles du contenu acoustique de séquences régulières de syllabes audiovisuelles) peuvent réduire significativement l'effet McGurk. Le processus de déliage est rapide, une unique syllabe incohérente suffisant pour obtenir un résultat de déliage maximal. Par contre le processus inverse de « reliage » par un contexte cohérent suivant le déliage est progressif, puisqu'il apparaît qu'au minimum trois syllabes cohérentes sont nécessaires. Nous pouvons également geler le sujet dans son état délié en rajoutant une pause entre un contexte incohérent et l'effet McGurk. Au total 7 expériences ont été effectuées pour démontrer et décrire le processus de liage dans la parole audiovisuelle. Les données sont interprétées dans le cadre du modèle à deux niveaux « liage et fusion ».