Model-based techniques for flexible speech and audio coding

par Marie Oger

Thèse de doctorat en Automatique, traitement du signal et des images

Sous la direction de Marc Antonini et de Stéphane Ragot.


  • Résumé

    L’objectif de cette thèse est de développer des techniques de codage de parole et audio optimales et plus flexibles que avec l’état de l’art, pouvant s’adapter en temps réel à différentes contraintes (débit, largeur de bande, retard). Cette problématique est étudiée à l’aide de différents outils : modélisation statistique, théorie de la quantification à haut débit, codage entropique flexible. On propose d’abord une nouvelle technique de codage flexible des coefficients de prédiction linéaire (LPC) combinant une transformée de Karhumen-Loeve (KLT) et une quantification scalaire basée sur un modèle gaussien généralisé. Les performances sont équivalentes à celle du quantificateur utilisé dans l’AMR-WB. De plus la complexité est moindre. Puis, on propose deux techniques de codage audio par transformée flexible, l’une utilisant le codage « stack-run » et l’autre le codage par plans de bits basé modèle. Dans les deux cas, le signal après pondération perceptuelle et transformation discrète en cosinus modifié (MDCT) est modélisé par une distribution gaussienne généralisée qui sert à optimiser le codage. La qualité du codeur stack-run est meilleure que ITU-T G. 722. 1 à bas débit et équivalente à haut débit. Par contre, le codeur stack-run est plus complexe et son coût mémoire est faible. L’avantage du codage par plans de bits est d’être scalable en débit. Nous proposons d’utiliser le modèle gaussien généralisé afin d’initialiser les tables de probabilités du codage arithmétique utilisé dans le codage par plan de bits. La qualité associée est inférieure à celle du codeur stack-run à bas débit et équivalente à haut débit. Par contre, la complexité de calcul est proche de G. 722. 1.

  • Titre traduit

    Model-based techniques for flexible speech and audio coding


  • Résumé

    The objective of this thesis is to develop optimal speech and audio coding techniques which are more flexible than the state of the art and can adapt in real-time to various constraints (rate, bandwidth, delay). This problem is addressed using several tools : statistical models, high-rate quantization theory, flexible entropy coding. Firstly, a novel method of flexible coding for linear prediction coding (LPC) coefficients is proposed using Karhunen-Loeve transform (KLT) and scalar quantization based on generalized Gaussian modelling. This method has a performance equivalent to the LPC quantizer used in AMR-WB with a lower complexity. Then, two transform audio coding structures are proposed using either stack-run coding or model-based bit plane coding. In both case the coefficients after perceptual weighting and modified discrete cosine transform (MDCT) are approximated by a generalized Gaussian distribution. The coding of MDCT coefficients is optimized according to this model. The performance is compared with that of ITU-T G. 7222. 1. The stack-run coder is better than G. 7222. 1 at low bit rates and equivalent at high bit rates. However, the computational complexity of the proposed stack-run coder is higher and the memory requirement is low. The bit plane coder has the advantage of being bit rate scalable. The generalized Gaussian model is used to initialize the probability tables of an arithmetic coder. The bit plane coder is worse than stack-run coding at low bit rates and equivalent at high bit rates. It has a computational complexity close to G. 7222. 1 while memory requirement is still low.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xvi-116 p.)
  • Annexes : Bibliogr. p. [105]-116. Résumés en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Bibliothèque Sciences.
  • Non disponible pour le PEB
  • Cote : 07NICE4109
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.