Une architecture logicielle pour le decodage acoustico-phonetique, applications a la detection d'evenements phonetiques

par Paul Deléglise

Thèse de doctorat en Sciences appliquées

Sous la direction de Xavier Rodet.

Soutenue en 1991

à Paris 6 .

    mots clés mots clés


  • Résumé

    Les travaux presentes dans cette these sont centres sur le decodage acoustico-phonetique dans les systemes automatiques de reconnaissance de la parole. Ce decodage est une etape importante et delicate car il correspond au passage d'une representation numerique continue a une representation symbolique discrete et elle necessite l'utilisation de differents types de savoir-faire. Nous proposons une architecture logicielle permettant pour chaque situation du decodage acoustico-phonetique de realiser et d'appliquer un operateur integrant les savoir-faire utilisables dans cette situation. Cette architecture est construite autour d'un mecanisme efficace d'echanges entre les processus symboliques et les processus numeriques. La generalite de ce mecanisme utilisant des objets permet de realiser les operateurs sur trois niveaux: procedural, applicatif et declaratif. Les traitements numeriques et graphiques sont pris en charge par le niveau procedural, le traitement symbolique et le controle sont repartis suivant leur degre de complexite entre les niveaux declaratif et applicatif. Il est alors possible d'enchainer les diverses procedures d'un operateur avec un controle efficace et de disposer de differentes descriptions du signal de parole. Cette architecture a ete validee par trois applications. Les deux premieres utilisent la capacite de filtrage des situations possibles. Ainsi tant pour la classification voise/non voise que pour l'identification des fricatives sourdes. L'architecture nous a permis de selectionner pour chaque situation phonetique rencontree le traitement et la description adaptee. La troisieme validation repose sur la facilite de l'architecture a enchainer les traitements pour le developpement et l'analyse d'une nouvelle technique: la decomposition temporelle. Celle-ci fournit une representation de l'evolution spectrale. Les resultats obtenus en decodage acoustico-phonetique sur un corpus de noms epeles en continue sont meilleurs que ceux obtenus avec une modelisation de markov


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Annexes : 153 REF

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Accessible pour le PEB
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : PMC RT P6 1991
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.