Modélisation linguistique pour l'indexation automatique de documents audiovisuels
Auteur / Autrice : | Alexandre Allauzen |
Direction : | Jean-Luc Gauvain |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2003 |
Etablissement(s) : | Paris 11 |
Résumé
La plupart des méthodes d'indexation de documents audiovisuels (AV) sont en pratique manuelles. En France, l'Institut National de l'Audiovisuel (INA) a en charge plus de 50 000 heures diffusées chaque année, et plus d'un million d'heures d'archives. L'automatisation du processus d'indexation doit donc être pensé afin de répondre aux spécificités de cet usage. L'état de l'art en matière d'indexation automatique AV est constitué d'un système de reconnaissance de la parole (RAP) allié à des techniques de recherches d'information. La transcription automatique est donc l'accès premier au contenu AV et les erreurs qu'elle peut contenir en détermine la pertinence. Les erreurs de transcription sont principalement dues à l'écart entre ces modèles et la réalité rencontrée dans les documents AV. En particulier, le contenu lexical et linguistique des transcriptions automatiques est conditionné par le vocabulaire et le modèle de langage (ML). Cette thèse porte sur l'adaptation du vocabulaire et du ML d'un système de RAP en vue de l'indexation de documents AV, qu'ils soient d'archives, ou contemporains. Une des difficultés est de disposer de données électroniques, qui soient appropriées à la tâche. La première solution proposée est de construire un ML à vocabulaire ouvert grâce à la technique du repli lexical. Des expériences interactives et automatiques sont menées sur un corpus de journaux télévisés. La seconde solution consiste à utiliser des données de sites Web pour constituer les ressources contemporaines à l'émission. Deux expériences sont menées. La première, sur le corpus ECHO contenant des archives des années quarante à nos jours, souligne les écarts d'époques entre les données d'entraînement et les émissions d'archive. Dans la seconde, des algorithmes sont développés pour adapter quotidiennement le vocabulaire et le ML de référence afin de transcrire des journaux télévisés. Différentes configuration de corpus montrent l'impact de la sélection des données d'adaptation.