Etude de la fusion des donnees heterogenes pour la reconnaissance automatique de la parole audiovisuelle

par ALEXANDRINA ROGOZAN

Thèse de doctorat en Sciences et techniques

Sous la direction de Paul Deléglise.

Soutenue en 1999

à PARIS 11, ORSAY .

    mots clés mots clés


  • Résumé

    L'utilisation de connaissances supplementaires conjointement au signal de parole ameliore les performances et la robustesse des systemes de reconnaissance de la parole. L'utilisation de donnees sur la forme et le mouvement des levres du locuteur semble etre une voie prometteuse pour la reconnaissance automatique surtout en milieu sonore bruite. Notre recherche concerne particulierement le processus d'integration des informations visuelles avec celles acoustiques. Si cette integration est fort seduisante, la problematique soulevee est loin d'etre simple. Se pose la question du niveau d'integration : est-ce celui de donnees ou de resultats. Il y a les phenomenes de decalage temporel entre les realisations auditive et visuelle de phonemes. Intervient le probleme d'adaptation des contributions des modalites acoustique et visuelle selon leur fiabilite relative. Enfin se pose la question de la pertinence de l'utilisation pour le traitement de la parole visible d'unites de decision specifiques, nommees visemes. Les systemes developpes au moyen des modeles de markov caches respectent successivement une fusion des donnees par identification directe (id), une fusion des resultats apres identification separee (is) et une fusion hybride de type id+is. Chaque modalite est impliquee avec un poids different adapte dynamiquement en fonction du rapport signal sur bruit et du contenu phonetique des phrases. Nous avons teste les performances des systemes sur un corpus monolocuteur de lettres connectees. Les tests realises pour differents niveaux de bruit ont montre une amelioration des performances du fait de la ponderation adaptative, les meilleures performances etant obtenues avec le systeme id+is. Celles-ci peuvent etre davantage ameliorees en utilisant un ensemble des visemes adapte. Nous avons defini cet ensemble au moyen des cartes auto-organisantes de kohonen. Pour renforcer le role de visemes, nous les avons utilises avec un apprentissage discriminant fonde sur reseaux de neurones.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 140 p.
  • Annexes : 107 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : TH2014-014244
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.