Codage haute qualité des signaux de parole (20 Hz - 15 kHz) à très faible retard et au débit de 64 kbit/s

par Carlo Murgia

Thèse de doctorat en Signal, image, parole

Sous la direction de Gang Feng.

Soutenue en 1997

à Grenoble INPG , en partenariat avec Institut de la communication parlée (Grenoble1983-2007) (laboratoire) .


  • Résumé

    Cette etude a pour objectif l'elaboration d'algorithmes performants de compression des signaux audio (parole et musique) de la bande fm (20 hz - 15 khz) a tres faible retard et au debit de 64 kbit/s. Nous avons choisi la technique ld-celp comme algorithme de base. Ce codeur a initialement ete concu pour la quantification a tres faible retard des signaux de parole de la bande telephonique (300-3400 hz) et standardise a l'itu-t sous le sigle g. 728. Une partie de notre travail a consiste a etendre cet algorithme a la bande fm en optimisant sa structure et en exploitant au mieux les proprietes du systeme perceptif humain. Ensuite, en nous basant sur cette technique, nous avons mis au point d'autres schemas de compression de haute qualite et a faible retard. Dans un premier temps nous avons modifie l'algorithme du g. 728 pour l'adapter a la bande fm. Pour ce faire, nous avons mis au point une procedure et des outils de test permettant d'optimiser les parametres de cet algorithme au sens d'un critere de distorsion perceptuelle. En particulier, nous avons developpe un algorithme d'evaluation de la qualite subjective denomme mpeq : mesure perceptuelle d'evaluation de la qualite. Grace a ces optimisations nous avons pu atteindre une bonne qualite des signaux codes. Cependant, la quasi-transparence ne peut etre atteinte que par l'introduction d'algorithmes de mise en forme optimale du bruit de quantification. Nous avons ainsi propose de nouveaux algorithmes bases sur la modelisation par prediction lineaire de la courbe de masquage. Dans un second temps, nous avons etudie des codeurs permettant de reduire la complexite sans perte significative de qualite. Nous avons exploite l'utilisation des dictionnaires ternaires algebriques et propose un codeur predictif adaptatif a faible retard base sur la quantification vectorielle gain-forme. Ces techniques de compression permettent une reduction de la complexite allant jusqu'a 30% tout en garantissant une qualite satisfaisante pour la parole et la musique. Les algorithmes proposes ont ete evalues par des tests d'ecoutes formels. La qualite des signaux codes par nos codeurs est comparable a celle du standard mpeg layer ii et significativement superieure a celle du standard mpeg layer i et ceci pour un retard de seulement 0,15 ms contre un retard de 35 ms pour les codeurs mpeg.

  • Titre traduit

    Very low delay and high quality coding of 20 hz - 15 khz speech signals at 64 kbit/s


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. 140 p.)
  • Annexes : 120 REF.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Disponible pour le PEB
  • Bibliothèque : GIPSA-lab. Bibliothèque.
  • Disponible pour le PEB
  • Cote : 1997 MUR

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : IMAG-1997-MUR
  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 1997INPG0187
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.