Une approche methodologique de l'utilisation des stan appliquee a la reconnaissance visuelle de la parole

par ABDUL RAUF BAIG

Thèse de doctorat en Informatique

Sous la direction de ROLAND BADUEL.

Soutenue en 2000

à Rennes 1 .

    mots clés mots clés


  • Résumé

    Ce travail de these a pour but d'evaluer les capacites et les limites d'un modele neuronal, appele stan, en le confrontant a une application reelle reputee delicate : la lecture labiale automatique basee uniquement sur la modalite visuelle. Derive de modeles neuronaux biologiques, le stan presente la particularite de traiter conjointement les informations spatiales et temporelles contenues dans les donnees. Cette caracteristique lui permet en outre de traiter des sequences de type asynchrones. Avant de mettre en uvre le stan sur une application, il s'est avere necessaire d'enrichir le modele et, en particulier, de developper des algorithmes d'apprentissage. Pour ce faire, nous avons d'abord adapte a la dynamique asynchrone des stan deux modeles spatio-temporels derives du perceptron multi-couches et de la carte auto-organisatrice de kohonen. Ensuite, dans le but de n'avoir que des architectures composees d'unites autonomes elementaires, nous avons mis au point deux autres algorithmes d'apprentissage. Il s'agit de l'algorithme supervise de rce et de l'algorithme non supervise des kmeans. Par ailleurs, pour structurer la demarche de conception d'un systeme de reconnaissance s'appuyant sur les stan, nous proposons une procedure qui guide l'utilisateur etape-par-etape en suivant une approche derivee d'une demarche classique. Cette procedure est appliquee au probleme de la lecture labiale. Un module de pre-traitements extrait l'information contenue dans le mouvement des levres et la convertit en impulsions. Celles-ci sont alors soumises a un module de quantification puis a un module de classification qui fait la reconnaissance. Les resultats obtenus, sur une base de donnees mono-locuteur de chiffres francais, sont tout a fait encourageants comparativement a ceux que l'on trouve dans la litterature. Ils ouvrent des perspectives a la technique mise en uvre pour qu'elle soit etendue a des bases de donnees multi-locuteurs et a un plus grand vocabulaire, ceci dans un contexte temps reel.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 177 p.
  • Annexes : 134 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2000/10
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.