Inference de variantes de prononciation a partir de signaux acoustiques pour la reconnaissance automatique de la parole

par HOUDA ABI AKL MOKBEL

Thèse de doctorat en Traitement du signal et des télécommunications

Sous la direction de Régine André-Obrecht.

Soutenue en 1998

à Rennes 1 .

    mots clés mots clés


  • Résumé

    Le travail presente s'interesse a la determination automatique d'une ou de plusieurs transcriptions phonetiques pour un mot donne a partir de realisations acoustiques (prononciations) de ce mot et d'une modelisation contextuelle des phonemes de la langue. Les approches developpees reposent sur une recherche preliminaire des n-meilleurs decodages phonetiques de chacune des prononciations disponibles. C'est dans cet ensemble de decodages phonetiques que s'effectue la recherche de la meilleure ou des meilleures transcriptions phonetiques des mots. Differents criteres de recherche sont etudies. Dans un premier temps, deux criteres de selection furent compares : le critere de la frequence d'occurrence qui choisit la transcription ou les transcriptions les plus frequentes dans l'ensemble des decodages phonetiques, et le critere du maximum de vraisemblance, qui choisit les transcriptions les plus vraisemblables dans cet ensemble. Cette etude a montre la superiorite du critere du maximum de vraisemblance surtout lorsque le vocabulaire est grand et lorsque le nombre de prononciations disponibles est faible. Ensuite, une procedure de partitionnement permettant de determiner le nombre optimal de transcriptions pour chaque mot a ete developpee et evaluee. Cette procedure part du principe que dans l'ensemble de transcriptions selectionnees, chaque transcription doit decrire une partie des prononciations du mot. Donc le but est de trouver les bonnes transcriptions et d'associer chaque prononciation a une transcription (c'est-a-dire a une variante de prononciation). Afin d'optimiser la procedure de recherche de l'ensemble optimal de transcriptions, tout en diminuant le cout calculatoire, deux algorithmes iteratifs ont ete concus et evalues. Avec ces deux algorithmes, un compromis etait recherche entre vraisemblance et nombre d'elements de l'ensemble a determiner. Les resultats obtenus sur des petits vocabulaires ont montre l'efficacite de ces techniques. Par contre, sur un vocabulaire difficile, comme celui des nombres (de 00 a 99), les performances ne sont pas satisfaisantes. Ceci nous a pousses a explorer, en plus de la vraisemblance de l'ensemble des transcriptions du mot, un critere de distance entre les transcriptions. L'objectif est, soit de garder dans l'ensemble optimal, les transcriptions du mot qui sont suffisamment similaires, soit de rejeter de cet ensemble les transcriptions qui pretent a confusion avec des transcriptions d'autres mots du vocabulaire. L'introduction de ce critere de distance n'a pas ete benefique de point de vue performances.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 172 p.
  • Annexes : 81 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 1999/162
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : ALBERS i
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.