Influence du son lors de l’exploration de scènes naturelles dynamiques : prise en compte de l’information sonore dans un modèle d’attention visuelle

par Antoine Coutrot

Thèse de doctorat en Signal, image, paroles, télécoms

Sous la direction de Alice Caplier et de Nathalie Guyader.

Le président du jury était Jean-Luc Schwartz.

Le jury était composé de Alice Caplier, Nathalie Guyader, Olivier Le Meur.

Les rapporteurs étaient Matei Mancas, Patrick Le Callet.


  • Résumé

    Nous étudions l'influence de différents attributs audiovisuels sur l'exploration visuelle de scènes naturelles dynamiques. Nous démontrons que si la façon dont nous explorons une scène dépend avant tout de son contenu visuel, dans certaines situations le son influence significativement les mouvements oculaires. La présence de son assure une meilleure cohérence entre les positions oculaires de différents observateurs, attirant leur attention et donc leur regard vers les mêmes régions. L'effet du son se retrouve tout particulièrement dans les scènes de conversation, où la présence du signal de parole associé augmente le nombre de fixations sur le visage des locuteurs, et donc la cohérence entre les scanpaths. Nous proposons un modèle de saillance audiovisuelle repérant automatiquement le visage des locuteurs afin d'en rehausser la saillance. Ces résultats s'appuient sur les mouvements oculaires de 148 participants enregistrés sur un total de plus de 75 400 frames (125 vidéos) dans 5 conditions expérimentales différentes.

  • Titre traduit

    Influence of sound on visual exploration of dynamic natural scenes : integration of auditory information in a visual attention model


  • Résumé

    We study the influence of different audiovisual features on the visualexploration of dynamic natural scenes. We show that, whilst the way a person explores a scene primarily relies on its visual content, sound sometimes significantly influences eye movements. Sound assures a better coherence between the eye positions of different observers, attracting their attention and thus their gaze toward the same regions. The effect of sound is particularly strong in conversation scenes, where the related speech signal boosts the number of fixations on speakers' faces, and thus increases the consistency between scanpaths. We propose an audiovisual saliency model able to automatically locate speakers' faces so as to enhance their saliency. These results are based on the eye movements of 148 participants recorded on more than 75,400 frames (125 videos) in 5 different experimental conditions.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Informations

  • Détails : 1 vol. (XIV-192 p.)
  • Annexes : Bibliographie p.139-163.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : GIPSA-lab. Bibliothèque.
  • Disponible pour le PEB
  • Cote : 2014 COU
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.