Un modèle de composante phonologique pour la reconnaissance de la parole : Apprentissage à partir de corpus

par Alix de Ginestel-Mailland

Thèse de doctorat en Informatique

Sous la direction de Guy Pérennou.

Soutenue le 29-08-2029

à Toulouse 3 .


  • Résumé

    La reconnaissance automatique de la parole continue doit prendre en compte la variabilite de prononciation. Le role d'une composante phonologique est de modeliser ce phenomene, le plus souvent, a partir d'une base de regles. Notre travail a pour but de traduire les variations phonologiques de maniere a les integrer dans des modeles de markov caches qui sont actuellement les plus performants en reconnaissance automatique de la parole. Pour cela, nous avons utilise de nouveaux types d'unites phonologiques et phonetiques: les groupes a prononciations multiples (ou gpm) et les groupes phonologiques contextuels (ou gpc). Nous avons concu et implemente une composante phonologique qui procede a partir de deux bases de regles: l'une phonologique traduisant les gpc en gpm dans un contexte donne, l'autre phonetique representant les prononciations possibles des differents gpm. Cette composante genere, a partir d'une enonce orthographique, un enonce unique (ou enonce phonotypique) decrivant toutes les variantes phonetiques possibles de l'enonce initial. Cette composante requiert un apprentissage sur un grand corpus de parole afin que la majorite des gpm y soient attestes et que les probabilites attachees aux regles phonetiques soient correctement estimees pour representer le modele de prononciation d'un groupe de locuteurs. L'apprentissage a ete effectue sur le corpus bref80 corpus developpe dans le cadre du pole parole du gdr-prc communication homme-machine par le limsi. Il offre une base d'investigation interessante car il comprend des enregistrements de parole continue d'un groupe de locuteurs. Pour effectuer l'apprentissage, nous avons realise un systeme permettant d'aligner un enonce phonotypique issu de la composante phonologique avec une transcription phonetique auditive. Nous presentons, dans ce memoire, les realisations des differents groupes de consonnes finales

  • Titre traduit

    A model of phonological component for speech recognition. Learning from corpora


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : [9]-179 p

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 1996TOU30032
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : GINESTEL-MAILLAND d

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Accessible pour le PEB
  • Cote : MF-1996-GIN
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.