Indexation de donnees audio : segmentation et regroupement par locuteurs

par Perrine Delacourt

Thèse de doctorat en Chimie

Sous la direction de Christian Wellekens.

Soutenue en 2000

à Paris, ENST .

    mots clés mots clés


  • Résumé

    Le traitement de l'information multimedia requiert de nouveaux outils tels des analyseurs de contenus ou indexeurs. Parmi ceux-ci, l'indexation par locuteurs d'un document audio tient une place essentielle. Il s'agit de savoir qui parle et quand afin de saisir la coherence du dialogue. Nous proposons un systeme d'indexation qui repond aux hypotheses suivantes : aucune connaissance a priori sur les locuteurs ou sur le langage, le nombre de locuteurs est inconnu et les personnes ne parlent pas simultanement. Ce systeme d'indexation se decompose en plusieurs etapes : la segmentation en locuteurs, le regroupement des segments, la modelisation des locuteurs et enfin, la reconnaissance de la sequence de locuteurs. Ensuite, nous nous concentrons sur les deux premieres etapes. La segmentation en locuteurs vise a obtenir des segments ne contenant les paroles que d'un seul locuteur et les plus longs possibles. Nous mettons en uvre une technique de segmentation en deux passes. La premiere passe detecte les changements de locuteurs potentiels. Elle repose sur le calcul du rapport de vraisemblance generalise entre deux portions de signal. La seconde passe de notre technique de segmentation est basee sur le critere d'information bayesien qui permet de valider ou non les points de changement de locuteurs resultant de la premiere passe. Une fois les segments de locuteurs obtenus, l'etape suivante consiste a regrouper tous les segments appartenant a un membre locuteur, afin d'obtenir un important volume de donnees dudit locuteur pour la construction d'un modele fiable. Le rapport de vraisemblance et le critere d'information bayesien ayant prouve leur efficacite au cours de la segmentation, nous les utilisons respectivement comme critere de regroupement et comme critere d'arret pour le regroupement hierarchique. L'efficacite des algorithmes proposes a ete evaluee sur differentes bases de donnees de parole telles que timit, switchboard, des bases du cnet et des journaux televises.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 186 p.
  • Annexes : 96 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : MF-2000-DEL
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.