Segmentation en locuteurs de documents audio et audiovisuels : application à la recherche d'information multimédia

par Daniel Moraru

Thèse de doctorat en Signal, image, parole, télécoms

Sous la direction de Eric Castelli et de Laurent Besacier.

Soutenue en 2004

à Grenoble, INPG .

    mots clés mots clés


  • Résumé

    Cette thèse se situe à la frontière des domaines de la recherche d'information multimédia et du traitement automatique de la parole. Dans ce dernier domaine, une nouvelle tâche est apparue ces dernières années : la transcription enrichie d'un document audio. Une meta-donnée importante pour la transcription enrichie est l'information locuteur qui précise pour un document donné "Qui parle et quand?". La segmentation d'un document en locuteurs est l'objet principal de cette thèse. Au delà de la réalisation d'un système de segmentation en locuteurs basé sur la mode��lisation statistique du locuteur, notre intérêt s'est porté sur l'intégration d'informations a priori dans un système de segmentation et aussi sur son application à la recherche d'information multimédia. Dans tous les cas, nos travaux de recherche ont été validés dans un cadre expérimental rigoureux autour de campagnes d'évaluation internationales sur des données de différents types : enregistrements téléphoniques, journaux télévisés ou réunions. Nos expérimentations concernant l'apport de différentes informations a priori, ont montré une réduction importante d'erreur de segmentation dans le cas de l'utilisation des certaines informations (une annotation incomplète disponible, une pré-segmentation acoustique obtenue automatiquement). Concernant l'utilisation de l'information locuteur pour l'indexation d'une grande collection de documents audio-visuels, les résultats expérimentaux montrent son apport dans des tâches de recherche et, inversement, montrent l'intérêt du canal vidéo pour la segmentation en locuteurs Notre travail se termine avec la proposition d'un système de segmentation en histoires de documents vidéo qui utilisent simultanément des données audio, vidéo et texte.


  • Pas de résumé disponible.

  • Titre traduit

    Speaker segmentation of audio and audio-visual documents : application to multimedia information retrieval


  • Résumé

    This thesis work is at the frontier between multimedia information retrieval and automatic speech processing. During the last years, a new task emerged in speech processing: the rich transcription of an audio document. An important meta-data for rich transcription is the speaker information which tells us "Who spoke when?" for a given audio document. The speaker segmentation task is the main subject of this research work. Beyond the development of a speaker segmentation system based on speaker statistical modeling, our research interest concerned the use of a priori information for speaker segmentation and also its application to multimedia information retrieval. Our research work was validated in a rigorous experimental frame-work during international evaluation campaigns on different data types: telephone data, broadcast news data and meeting data. Our experiments concerning the influence of different a priori information have shown a significant speaker segmentation error reduction for certain information (an incomplete speaker annotation, an automatic acoustic pre-segmentation). Concerning the use of speaker information for very large audio-video database indexation, the experiments have shown its importance for information retrieval tasks but also the interest of using the video channel for speaker segmentation itself. To conclude our research work, we propose a story segmentation system for video documents which simultaneously uses audio, video and text data.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 198 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 189-198

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS04/INPG/0147
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS04/INPG/0147/D
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.