Reconnaissance multilocuteur de mots isolés fondée sur une approche phonétique

par Abdelkhalek Messaoudi

Thèse de doctorat en Informatique

Sous la direction de Joseph Mariani.

Soutenue en 1987

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .

Le président du jury était Christian Fluhr.

Le jury était composé de Jean Caelen, Jean-Luc Gauvain, C. Gagnoulet, Christian Fluhr, Joseph Mariani.


  • Résumé

    L'objet de cette thèse est l'étude d'un système de reconnaissance multilocuteur de mots isolés qui ne nécessite pas d'apprentissage oral. Ce système est fondé sur une approche phonétique où chaque phonème est représenté par un dictionnaire de formes spectrales. Un algorithme de classification automatique a permis de construire les dictionnaires phonétiques à partir d'un corpus multilocuteur segmenté et étiqueté manuellement. La phase d'apprentissage consiste simplement à introduire au clavier, sous forme phonétique, la liste des mots à reconnaître. Chacun de ces mots est représenté par un automate d'états fini lié à son modèle de production. Chaque état correspond à l'émission d'un phonème auquel est associée la durée moyenne de son élocution. Durant la phase de reconnaissance, une distance globale entre le mot inconnu et chacun des modèles de référence est évaluée par un algorithme de programmation dynamique. Cet algorithme permet de trouver la séquence d'états qui minimise la somme des distances locales entre les échantillons centisecondes du mot à identifier et les états du modèle.

  • Titre traduit

    Speaker-independent isolated-word recognition based on a phonetic


  • Résumé

    This thesis describes a speaker-independent isolated word recognition system which does not require any vocal training phase. The system is based on a phonetic approach which allows each phoneme to be represented by a spectral codebook. A clustering algorithm was used to build phonetic codebooks from a manually segmented and labelled multispeaker database. The training phase only consists in introducing the vocabulary words in phonetic form via a keyboard. Each word is represented by a production model in which each state corresponds to a phoneme pronunciation. A phoneme average duration is associated to the state. During the recognition phase, a global distance between the unknown word and each model is evaluated using dynamic time warping. This algorithm permits to find the best state sequence that minimizes the cumulated distances between spectral vectors of the unknown word and the reference model states.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (111 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 102-109

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(1987)406
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : TH2014-034742
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.