Thèse soutenue

Segmentation en locuteurs de documents audio et audiovisuels : application à la recherche d'information multimédia

FR  |  
EN
Auteur / Autrice : Daniel Moraru
Direction : Eric CastelliLaurent Besacier
Type : Thèse de doctorat
Discipline(s) : Signal, image, parole, télécoms
Date : Soutenance en 2004
Etablissement(s) : Grenoble INPG

Résumé

FR  |  
EN

"Cette thèse se situe à la frontière des domaines de la recherche d'information multimédia et du traitement automatique de la parole. Dans ce dernier domaine, une nouvelle tâche est apparue ces dernières années : la transcription enrichie d'un document audio. Une meta-donnée importante pour la transcription enrichie est l'information locuteur qui précise pour un document donné "Qui parle et quand?". La segmentation d'un document en locuteurs est l'objet principal de cette thèse. Au delà de la réalisation d'un système de segmentation en locuteurs basé sur la modélisation statistique du locuteur, notre intérêt s'est porté sur l'intégration d'informations a priori dans un système de segmentation et aussi sur son application à la recherche d'information multimédia. Dans tous les cas, nos travaux de recherche ont été validés dans un cadre expérimental rigoureux autour de campagnes d'évaluation internationales sur des données de différents types : enregistrements téléphoniques, journaux télévisés ou réunions. Nos expérimentations concernant l'apport de différentes informations a priori, ont montré une réduction importante d'erreur de segmentation dans le cas de l'utilisation des certaines informations (une annotation incomplète disponible, une pré-segmentation acoustique obtenue automatiquement). Concernant l'utilisation de l'information locuteur pour l'indexation d'une grande collection de documents audio-visuels, les résultats expérimentaux montrent son apport dans des tâches de recherche et, inversement, montrent l'intérêt du canal vidéo pour la segmentation en locuteurs Notre travail se termine avec la proposition d'un système de segmentation en histoires de documents vidéo qui utilisent simultanément des données audio, vidéo et texte. "