Traitement de la parole s'appuyant sur des unites segmentales determinees automatiquement : applications au codage a tres bas debit et a la verification du locuteur

par Jan Černocký

Thèse de doctorat en Sciences appliquées

Sous la direction de Gérard Chollet.

Soutenue en 1998

à Paris 11 .

    mots clés mots clés


  • Résumé

    Les systemes courants de traitement automatique de la parole (tap) - la reconnaissance, la synthese, le codage a tres bas debit et la verification du locuteur independante du texte - sont bases sur des unites de type sous-mot, definies a l'aide d'un savoir-faire phonetique. Cette these porte sur une approche alternative : une determination des unites a l'aide des techniques alisp (traitement automatique de parole, independant de la langue). La methode proposee comporte deux etapes : premierement, l'ensemble des unites est defini et une transcription initiale de la base de donnees de parole est obtenue ; nous avons utilise des techniques de decomposition temporelle (dt), de classification non-supervisee et des multigrammes. Ensuite, nous modelisons les unites a l'aide des modeles de markov caches (hmm). La premiere application testee a ete en codage de parole a tres bas debit. Nous avons du resoudre des problemes specifiques a la re-synthese dans le decodeur. En utilisant l'ensemble d'unites donne, nous avons obtenu un signal de parole intelligible au debit moyen de 120 bps (pour le codage des unites) dans deux jeux d'experiences dependantes du locuteur. Dans une deuxieme application, nous avons utilise ces unites comme pre-traitement d'un systeme de verification segmental, base sur des perceptrons multi-couche (mlp). Nous avons montre que le systeme segmental obtenait des performances comparables a un systeme avec une determination globale des scores. Nous avons etudie la correspondance entre une segmentation alisp et une transcription phonetique : nous avons trouve une correspondance consistante, si bien qu'eloignee d'une correspondance biunivoque. Nous discutons par ailleurs, differentes voix possibles d'utilisation des unites alisp en reconnaissance de parole.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 155 P.
  • Annexes : 107 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : TH2014-014018
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.