Évaluer l'apport du binaural dans une application mobile audiovisuelle

par Julian Moreira

Thèse de doctorat en Informatique

Sous la direction de Stéphane Natkin et de Isabelle Viaud-Delmon.

Le président du jury était Alexandre Garcia.

Le jury était composé de Rozenn Nicol, Laetitia Gros, Cécile Le Prado.

Les rapporteurs étaient Mathieu Paquier, Pierre Jouvelot.


  • Résumé

    Les terminaux mobiles offrent à ce jour des performances de plus en plus élevées (CPU, résolution de l’écran, capteurs optiques, etc.) Cela rehausse la qualité vidéo des services média, que ce soit pour le visionnage de contenu vidéo (streaming, TV, etc.) ou pour des applications interactives telles que le jeu vidéo. Mais cette évolution concernant l'image n'est pas ou peu suivie par l'intégration de systèmes de restitution audio de haute qualité dans ce type de terminal. Or, parallèlement à ces évolutions concernant l'image, des solutions de son spatialisé sur casque, à travers notamment la technique de restitution binaurale basée sur l'utilisation de filtres HRTF (Head Related Transfer Functions) voient le jour.Dans ce travail de thèse, nous nous proposons d’évaluer l’intérêt que peut présenter le son binaural lorsqu'il est utilisé sur une application mobile audiovisuelle. Une partie de notre travail a consisté à déterminer les différents sens que l’on pouvait donner au terme « application mobile audiovisuelle » et parmi ces sens ceux qui d’une part étaient pertinents et d’autre part pouvaient donner lieu à une évaluation comparative avec ou sans son binaural.Le couplage entre son binaural et visuel sur mobile occasionne en premier lieu une question d’ordre perceptive : comment peut-on organiser spatialement une scène virtuelle dont le son peut se déployer tout autour de l’utilisateur, et dont le visuel est restreint à un si petit écran ? La première partie de cette thèse est consacrée à cette question. Nous menons une expérience visant à étudier le découplage spatial possible entre un son binaural et un visuel rendus sur smartphone. Cette expérience révèle une forte tolérance de l’être humain face aux dégradations spatiales pouvant survenir entre les deux modalités. En particulier, l’absence d’individualisation des HRTF, ainsi qu’un très grand découplage en élévation ne semblent pas affecter la perception. Par ailleurs, les sujets semblent envisager la scène « comme si » ils y étaient eux-mêmes directement projetés, à la place de la caméra, et cela indépendamment de leur propre distance à l’écran. Tous ces résultats suggèrent la possibilité d’une association entre son binaural et visuel sur mobile dans des conditions d’utilisation proches du grand public.Dans la seconde partie de la thèse, nous tentons de répondre à la question de l’apport du binaural en déployant une expérience « hors les murs », dans un contexte plausible d’utilisation grand public. Trente sujets jouent dans leur vie quotidienne à un jeu vidéo de type Infinite Runner, développé pour l’occasion en deux versions, une avec du son binaural, et l’autre avec du son monophonique. L’expérience dure cinq semaines, à raison de deux sessions par jour. Ce protocole procède de la méthode dite "Experience Sampling Method", sur l’état de l’art de laquelle nous nous sommes appuyés. Nous calculons à chaque session des notes d’immersion, de mémorisation et de performance, et nous comparons les notes obtenues entre les deux versions sonores. Les résultats indiquent une immersion significativement meilleure pour le binaural. La mémorisation et la performance ne sont en revanche pas soumises à un effet statistiquement significatif du rendu sonore. Au-delà des résultats, cette expérience nous permet de discuter de la question de la validité des données en fonction de la méthode de déploiement, en confrontant notamment bien-fondé théorique et faisabilité pratique.

  • Titre traduit

    Assessing the quality of experience of audiovisual services in a context of mobility : contribution of sound immersion


  • Résumé

    In recent years, smartphone and tablet global performances have been increased significantly (CPU, screen resolution, webcams, etc.). This can be particularly observed with video quality of mobile media services, such as video streaming applications, or interactive applications (e.g., video games). However, these evolutions barely go with the integration of high quality sound restitution systems. Beside these evolutions though, new technologies related to spatialized sound on headphones have been developed, namely the binaural restitution model, using HRTF (Head Related Transfer Functions) filters.In this thesis, we assess the potential contribution of the binaural technology to enhance the quality of experience of an audiovisual mobile application. A part of our work has been dedicated to define what is an “audiovisual mobile application”, what kind of application could be fruitfully experienced with a binaural sound, and among those applications which one could lead to a comparative experiment with and without binaural.In a first place, the coupling of a binaural sound with a mobile-rendered visual tackles a question related to perception: how to spatially arrange a virtual scene whose sound can be spread all around the user, while its visual is limited to a very small space? We propose an experiment in these conditions to study how far a sound and a visual can be moved apart without breaking their perceptual fusion. The results reveal a strong tolerance of subjects to spatial discrepancies between the two modalities. Notably, the absence or presence of individualization for the HRTF filters, and a large separation in elevation between sound and visual don’t seem to affect the perception. Besides, subjects consider the virtual scene as if they were projected inside, at the camera’s position, no matter what distance to the phone they sit. All these results suggest that an association between a binaural sound and a visual on a smartphone could be used by the general public.In the second part, we address the main question of the thesis, i.e., the contribution of binaural, and we conduct an experiment in a realistic context of use. Thirty subjects play an Infinite Runner video game in their daily lives. The game was developed for the occasion in two versions, a monophonic one and a binaural one. The experiment lasts five weeks, at a rate of two sessions per day, which relates to a protocol known as the “Experience Sampling Method”. We collect at each session notes of immersion, memorization and performance, and compare the notes between the monophonic sessions and the binaural ones. Results indicate a significantly better immersion in the binaural sessions. No effect of sound rendering was found for memorization and performance. Beyond the contribution of the binaural, we discuss about the protocol, the validity of the collected data, and oppose theoretical considerations to practical feasibility.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.