Optimisation d'un schéma de codage de la parole à très bas débit, par indexation d'unités de taille variable

par Marc Padellini

Thèse de doctorat en Électronique. Traitement du signal

Sous la direction de Geneviève Baudoin et de François Capman.

Soutenue en 2006

à Marne-la-Vallée .


  • Résumé

    Cette thèse a pour but d'étudier un schéma de codage à très bas débit, de l’ordre de 500 bit/s, s’appuyant sur des techniques de reconnaissance et de synthèse vocale. Elle s'inscrit dans la continuité des travaux menés à la fois au cours du projet RNRT SYMPATEX et de la thèse de Cernocky. L’encodeur effectue une reconnaissance d’unités élémentaires de parole à l’aide de modèles de Markov cachés. Le décodeur intègre une approche de synthèse par concaténation d'unités acoustiques. Ce schéma exploite un grand corpus de parole stocké dans le système et organisé en une base de synthèse. L’encodeur y recherche les unités qui représentent au mieux la parole, puis transmet leurs indices ainsi que des paramètres prosodiques. Le décodeur y extrait les unités à concaténer pour restituer la parole. Les problèmes traités au cours de cette thèse portent sur l'amélioration de la qualité générale du schéma de codage. Une approche de sélection dynamique des unités est proposée à cet effet. De plus, le fonctionnement du schéma a été étendu à des conditions réalistes d'utilisation. Ainsi, le schéma est étudié dans plusieurs environnements bruyants et une méthode d’adaptation au bruit est proposée. L’extension au mode indépendant du locuteur est réalisée par un apprentissage conjoint sur un grand nombre de locuteurs, associé à une classification hiérarchique des locuteurs permettant de constituer un jeu de bases de synthèse proche du locuteur à coder. Enfin, la complexité du schéma est analysée et une méthode de compression de la base de synthèse est proposée

  • Titre traduit

    Optimisation of a very low bit rate speech coder scheme based on variable length units indexing


  • Résumé

    This thesis aims at studying a speech coding scheme operating at a very low bit rate, around 500 bits/s, relying on speech recognition and speech synthesis techniques. It follows the work carried out by the RNRT project SYMPATEX and Cernocky’s [1] thesis. On one hand, elementary speech units are recognized by the coder, using Hidden Markov Models. On the other hand, a concatenative speech synthesis is used in the decoder. This system takes advantage of a large speech corpus stored in the system, and organized in a synthesis database. The encoder looks up in the corpus the units that best fit the speech to be encoded, then unit indexes and prosodic parameters are transmitted. The decoder retrieves in the database the units to be concatenated. This thesis deals with issues on the overall speech quality of the encoding scheme. A dynamic unit selection is proposed to this purpose. Furthermore, the scheme has been extended to operate under realistic conditions. Noisy environments have been studied, and a noise adaptation module was created. Extension to speaker independent mode is achieved by training the system on a large number of speakers, and using a hierarchic classification of speakers to create a set of synthesis databases which is close to the test speaker. Finally, complexity of the whole scheme is analyzed, and a method to compress the database is proposed

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (145 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 127-134 (94 réf.)

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Gustave Eiffel. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 2006 PAD 0293
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.