Thèse soutenue

Modélisation linguistique pour l'indexation automatique de documents audiovisuels

FR  |  
EN
Auteur / Autrice : Alexandre Allauzen
Direction : Jean-Luc Gauvain
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2003
Etablissement(s) : Paris 11

Résumé

FR  |  
EN

La plupart des méthodes d'indexation de documents audiovisuels (AV) sont en pratique manuelles. En France, l'Institut National de l'Audiovisuel (INA) a en charge plus de 50 000 heures diffusées chaque année, et plus d'un million d'heures d'archives. L'automatisation du processus d'indexation doit donc être pensé afin de répondre aux spécificités de cet usage. L'état de l'art en matière d'indexation automatique AV est constitué d'un système de reconnaissance de la parole (RAP) allié à des techniques de recherches d'information. La transcription automatique est donc l'accès premier au contenu AV et les erreurs qu'elle peut contenir en détermine la pertinence. Les erreurs de transcription sont principalement dues à l'écart entre ces modèles et la réalité rencontrée dans les documents AV. En particulier, le contenu lexical et linguistique des transcriptions automatiques est conditionné par le vocabulaire et le modèle de langage (ML). Cette thèse porte sur l'adaptation du vocabulaire et du ML d'un système de RAP en vue de l'indexation de documents AV, qu'ils soient d'archives, ou contemporains. Une des difficultés est de disposer de données électroniques, qui soient appropriées à la tâche. La première solution proposée est de construire un ML à vocabulaire ouvert grâce à la technique du repli lexical. Des expériences interactives et automatiques sont menées sur un corpus de journaux télévisés. La seconde solution consiste à utiliser des données de sites Web pour constituer les ressources contemporaines à l'émission. Deux expériences sont menées. La première, sur le corpus ECHO contenant des archives des années quarante à nos jours, souligne les écarts d'époques entre les données d'entraînement et les émissions d'archive. Dans la seconde, des algorithmes sont développés pour adapter quotidiennement le vocabulaire et le ML de référence afin de transcrire des journaux télévisés. Différentes configuration de corpus montrent l'impact de la sélection des données d'adaptation.