Optimisation du son 3D immersif, qualité et transmission

par Abderrahmane Smimite

Thèse de doctorat en Signaux et Images

Sous la direction de Azeddine Beghdadi et de Ken Chen.

Le président du jury était Younès Bennani.

Le jury était composé de Pascal Chédeville.

Les rapporteurs étaient Abdelhakim Saadane, Hossam Afifi.


  • Résumé

    Cette étude porte sur trois problématiques reliées à l’utilisation du son multicanal 3D dans le contexte des applications Audio Professionnelles. Le système SIRIUS est présenté. Il s’agit d’une technique de transport du son multicanal qui répond aux contraintes de Fiabilité, Synchronisation et Latence des applications professionnelles et garantie un compromis entre ces différents aspects. Le système peut fonctionner sur les infrastructures LAN classiques et coexister avec d’autres types de trafic réseau. Il est aussi basé sur une couche protocolaire n’utilisant que des protocoles standards, ce qui lui procure un certain niveau d’interopérabilité avec des technologies équivalentes. La seconde contribution est la méthodologie AQUA. Il s’agit d’une nouvelle approche pour l’évaluation de la qualité du son multicanal qui propose des outils efficaces pour l’analyse subjective et objective de la qualité. La partie subjective consiste en un nouveau protocol pour les tests d’écoute qui combine l’analyse de l’information perceptive et spatiale. La précision de la localisation est évaluée grâce au suivi des gestes des auditeurs. Notre méthode, basée sur l’utilisation de la Kinect, permet d’obtenir cette information d’une façon rapide et précise. Le protocole utilise notamment l’analyse EEG pour étudier les biais psychologiques et filtrer efficacement les sujets. La partie objective repose sur un moteur binaural qui convertit le flux multicanal en un flux stereo binaural plus simple à analyser et qui préserve l’information spatiale. Le signal audio résultant est analysé par un modèle perceptif et un modèle spatial qui permettent d’estimer une représentation interne équivalente. Les variables la constituant alimentent ensuite un Réseau de Neurones Artificiel qui permet d’obtenir une note objective de qualité. Parallèlement, le modèle psychologique simule le comportement humain en ajustant la note en fonction des notes précédentes. Les performances obtenues montrent que le système peut être utilisé pour prédire la qualité perceptive et spatiale du son multicanal avec un grand niveau de précision et de réalisme. Le dernier axe d’étude porte sur l’optimisation de la qualité d’écoute dans les systèmes audio surround. Etant donné leur problème de Sweet Spot, et la complexité des systèmes suggérant de l’élargir, on propose une technique basée sur le suivi de la position réelle des auditeurs. Le suivi est réalisé d’une façon non-intrusive par l’analyse d’images thermiques. Les canaux audio initiaux sont considérés comme des sources virtuelles et sont re-mixés par VBAP pour simuler leur déplacement vers l’auditeur. Les performances obtenues montrent un suivi efficace et une amélioration de l’expérience d’écoute.

  • Titre traduit

    Immersive 3D sound optimization, transport and quality assessment


  • Résumé

    In this work, three complementary topics regarding the use of multichannel spatial audio in professional applications have b e en studied. SIRIUS, is an audio transport mechanism designed to convey multiple professional-grade audio channels over a regular LAN while maintaining their synchronization. The system reliability is guaranteed by using a FEC mechanism and a selective redundancy, without introducing any important network overload. The system also offers a low latency that meet the professional applications requirements and can operate on the existing infrastructures and coexist with other IT traffic. The system relies on standard protocols and offers a high level of interoperability with equivalent technologies. The overall performances satisfy Pro Audio requirements. The second contribution is AQUA, a comprehensive framework for multichannel audio quality assessment that provides efficient tools for both subjective and objective quality evaluation. The subjective part consists of a new design of reliable listening tests for multichannel sound that analyze both perceptual and spatial information. Audio localization accuracy is reliably evaluated using our gesture-based protocol build around the Kinect. Additionally, this protocol relies on EEG signals analysis for psychological biases monitoring and efficient subjects screening. The objective method uses a binaural model to down-mix the multichannel audio signal into a 2-channels binaural mix that maintains the spatial cues and provides a simple and scalable analysis. The binaural stream is processed by a perceptual and spatial models that calculate relevant cues. Their combination is equivalent to the internal representation and allows the cognitive model to estimate an objective quality grade. In parallel, the psychological model simulate the human behavior by adjusting the output grades according to the previous ones (i.e., the experience effect). The overall performance shows that AQUA model can accurately predict the perceptual and spatial quality of a multichannel audio in a very realistic manner. The third focus of the study is to optimize the listening experience in surround sound systems (OPTIMUS). Considering the sweet spot issue in these systems and the complexity of its widening, we introduce a tracking technique that virtually moves the sweet spot location to the actual position of listener(s). Our approach is non-intrusive and uses thermal imaging for listeners identification and tracking. The original channels are considered as virtual sources and remixed using the VBAP technique. Accordingly, the audio system virtually follows the listener actual position. For home-cinema application, the kinect can be used for the tracking part and the audio adjustment can be done using HRTFs and cross-talk cancellation filters. The system shows an improvement of the localization accuracy and the quality of the listening experience.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Informations

  • Détails : 1 vol. (163 p.)
  • Annexes : Bibliogr. p. 147-163

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
  • PEB soumis à condition
  • Cote : TH 2014 056
  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.