Enrichissement de la conférence audio en voix sur IP au travers de l'amélioration de la qualité et de la spatialisation sonore

par Arnault Nagle

Thèse de doctorat en Signal et images

Sous la direction de Dirk Slock.

Soutenue en 2008

à Paris, ENST .


  • Résumé

    Ce travail de thèse s'intéresse à la conférence audio en Voix sur IP et plus précisément à son enrichissement au travers de l'amélioration de la qualité (bande élargie et traitement d'amélioration) et de la spatialisation sonore. Cette évolution de la conférence audio sera examinée à la lumière des architectures centralisée et distribuée de la conférence sur IP standard. L'objectif est d'étudier des solutions en termes d'architecture intégrant la spatialisation et des extensions pour gérer et contrôler cette spatialisation. Il conviendra aussi d'effectuer les tests montrant les qualités audio et de spatialisation résultantes. Notre première contribution a été de proposer des architectures permettant d'allier la conférence audio en voix sur IP, les méthodes de spatialisation retenues, les terminaux ou ponts de conférence ainsi que les traitements d'améliorations. La seconde contribution de nos travaux consiste en la définition d’extensions nécessaires à la gestion et au transport du son spatialisé. Notre troisième contribution s'exprime au travers d'une campagne de tests pour valider nos solutions en termes de qualité audio et de qualité de spatialisation. Nous avons montré que les codeurs n'étaient pas perçus de la même façon suivant le type d’écoute : monaurale ou diotique. Il ressort de ces tests que les codeurs G. 711 et G. 722 sont les plus adaptés à la conférence audio centralisée. Concernant la conférence audio distribuée, les codeurs wideband AMR-WB à 23. 85 kbits/s, G. 729. 1 à 32 kbits/s et G. 722 à 64 kbits/s et narrowband G. 711, AMR à 12. 2 kbits/s et G. 729. 1 à 12 kbits/s semblent les plus adaptés quelle que soit la perte de trames.

  • Titre traduit

    Audio conferencing enhancement through 3D sound and high quality speech


  • Résumé

    This thesis deals with audio conferencing over IP and its improvement through high quality and 3D sound. Our goal is to develop solutions enabling the merging of well-known architectures such as the centralized or the loosely coupled ones, techniques impacting quality and 3D sound. We have to define the controls to manage 3D audio conferencing for each architecture. Quality tests and tests about spatialization must be performed to validate our solutions. The first axis of this thesis is looking further into those current architectures in order to propose solutions integrating 3D sound and improvement techniques. The second axis of our research relies on the definition of the controls enabling the management of the audio conferencing. We define the necessary extensions to control the positions of each participant in the audio conferencing according to each architecture. Our third axis deals with quality tests and tests about spatialization in order to validate the dual-mono coding method and select the most appropriate coders. First we prove that the monaural hearing and the diotic hearing are not equivalent. Second, coders G. 711 and G. 722 are the most suitable for the centralized audio conferencing with a high audio quality compared to CELP coders. They have low-complexity, and are robust to packet losses, multi-talker, 3D sound and tandeming. For the wideband loosely coupled architecture, AMR-WB at 23. 85 kbits/s, G. 729. 1 at 32 kbits/s, and G. 722 seem to be the best coders whatever the packet losses are. In narrowband, G. 711, AMR at 12. 2 kbits/s, and G. 729. 1 at 12 kbits/s are the best ones. Coders have to be chosen according to the bitrate and complexity constraints.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XVI-172 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 98 réf. bibliogr. Résumé en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.331 NAGL
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.