Codage audio stéréo avancé

par Julien Capobianco

Thèse de doctorat en Sciences de l'ingénieur

Sous la direction de Laurent Daudet et de Pierrick Philippe.

Soutenue le 03-06-2015

à Paris 6 , dans le cadre de École doctorale Sciences mécaniques, acoustique, électronique et robotique de Paris , en partenariat avec Institut Langevin ondes et images (laboratoire) .

Le jury était composé de Gaël Richard, Sylvain Marchand, Olivier Derrien, Benoit Fabre, Gregory Pallone.


  • Résumé

    Depuis une dizaine d’années, des techniques de codage joint, exploitant les relations et les redondances entre canaux audios, ont été développées afin de réduire davantage la quantité d’information nécessaire à la représentation des signaux multicanaux. Dans cette thèse, nous étudions plus particulièrement le codage des signaux audio stéréo en l’absence d’informations à priori sur la nature des sources en présences, leur nombre et la manière dont elles sont spatialisées. Cette situation correspond à l’immense majorité des enregistrements commerciaux dans l’industrie de la musique et du multimédia de manière générale. Nous étudions des approches paramétrique et signal de la problématique de codage de ces sources, où les deux sont souvent mêlées. Dans ce contexte, trois types d’approches sont utilisés. L’approche paramétrique spatiale consiste à réduire le nombre de canaux audio de la source à coder et à recréer le nombre de canaux d’origine à partir des canaux réduits et de paramètres spatiaux, extraits des canaux d’origine. L’approche signal conserve le nombre de canaux d’origine, mais encode des canaux construits à partir de ces derniers et présentant moins de redondances. Enfin, l’approche mixte introduite dans MPEG USAC utilise un signal audio et un signal résiduel, issu d’une prédiction, et dont les paramètres sont codés conjointement. Dans cette thèse, nous analysons tout d’abord les caractéristiques d’un signal stéréo issu d’un enregistrement commercial et les techniques de production associées. Cette étude nous mène à une réflexion sur les rapports entre les modèles paramétriques d’émetteur, obtenus en analysant les techniques de production des enregistrements commerciaux, et les modèles de récepteur qui sont au coeur du codage spatial paramétrique. A partir de cette mise en perspective nous présentons et étudions les trois approches évoquées plus haut. Pour l’approche purement paramétrique, nous montrons l’impossibilité d’arriver à la transparence pour la majorité des sources audios, nous menons une réflexion sur les représentations paramétriques et proposons des techniques afin de réduire le débit de leurs paramètres et d’améliorer la qualité audio. Ces améliorations passent par une meilleur segmentation du signal audio, basée sur les transitoires, sur des caractéristiques perceptives de certains indices spatiaux et sur une meilleur estimation des indices spatiaux. L’approche mixte étant récemment standardisée dans MPEG USAC, nous l’étudions en détail, puis nous proposons une nouvelle technique de codage qui exploite au mieux l’allocation du résidu aux bandes fréquentielles, lorsque celui-ci n’est pas utilisé sur l’ensemble de la bande passante du signal. Enfin, nous concluons en évoquant l’avenir du codage audio spatial généraliste et mettons l’accent sur l’importance de développer des techniques de classification et de segmentation audio pour optimiser le rapport qualité/débit.

  • Titre traduit

    Advanced stereo audio coding


  • Résumé

    During the last ten years, technics for joint coding exploiting relations and redundancies between channels have been developped in order to further reduce the amount of information needed to represent multichannel audio signals.In this document, we focus on the coding of stereo audio signals where prior informations on the nature of sources in presence, their number or the manner they are spatialized is unknown. Such signals are actually the most representative in commercial records of music industry and in multimedia entertainment in general. To address the coding problematic of these signals, we study parametric and signal approaches, where both of them are often mixed.In this context, three types of approaches are used. The spatial parametric approach reduce the number of audio channels of the signal to encode and recreate the original number of channels from reduced channels and spatial parameters extracted from original channels. The signal approach keep the original number of channels, but encode mono signals, built from the combination of the original ones and containing less redundancies. Finally, the hybrid approach introduced in the MPEG USAC standard keep the two channels of a stereo signal, but one is a mono downmix and the other is a residual signal, resulting from a prediction on the downmix, where prediction parameters are encoded as side information.In this document, we first analyse the characteristics of a stereo audio signal coming from a commercial recording and the associated production techniques. This study lead us to consider the relations between the emitter parametric models, elaborated from our analysis of commercial recording production techniques, and the receiver models which are the basis of spatial parametric coding. In the light of these considerations, we present and study the three approaches mentioned earlier. For the parametric approach, we show that transparency cannot be achieved for most of the stereo audio signals, we have a reflection on parametric representations and we propose techniques to improve the audio quality and further reduce the bitrate of their parameters. These improvements are obtained by applying a better segmentation on the signal, based on the significant transient, by exploiting perceptive characteristics of some spatial cues and by adapting the estimation of spatial cues. As the hybrid approach has been recently standardized in MPEG USAC, we propose a full review of it, then we develop a new coding technique to optimize the allocation of the residual bands when the residual is not used on the whole bandwidth of the signal to encode. In the conclusion, we discuss about the future of the general spatial audio coding and we show the importance of developping new technics of segmentation and classification for audio signals to further adapt the coding to the content of the signal.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.