Indexation de documents audio : Cas des grands volumes de données - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

Indexation de documents audio : Cas des grands volumes de données

Résumé

This thesis is devoted to techniques for speaker-based recognition systems to scale up to large amounts of data and speaker models. We have chosen to partition audio documents (news broadcast) according to speakers. The mel-cepstral acoustic characteristics of each speaker are model through a probabilistic Gaussian mixture model. First, speaker change detection in the stream is carried out by Bayesian hypothesis testing. The scheme is incremental : as new speakers are detected, they are either identied in the database or new entries are created in the database. First, we have examined some issues related to building a tree structure exploiting a similarity between speaker models. Several contributions were made. First, a proposal for organising a set of speaker models, based on an elementary model grouping. Then, we used an approximation of Kullback-Leibler divergence for this purpose. Finally, through two studies using binary of nary tree structures, we discuss the way of a version suitable for incremental processing. Finally, perspectives are drawn regarding joint audio/video analysis and future needs are analyzed.
Cette thèse est consacrée à l’'élaboration et l’'évaluation des techniques visant à renforcer la robustesse des systèmes d’'indexation de documents audio au sens du locuteur. L’'indexation audio au sens du locuteur consiste à reconnaître l’'identité des locuteurs ainsi que leurs interventions dans un ux continu audio ou dans une base de données d’'archives audio, ne contenant que la parole. Dans ce cadre nous avons choisi de structurer les documents audio (restreints à des journaux radiodiffusés) selon une classication en locuteurs. La technique utilisée repose sur l’'extraction des coefficients mel-cepstrales, suivi par l’'apprentissage statistique de modèles de mélange de gaussiennes (MMG) et sur la détection des changements de locuteur au moyen de test d’'hypothèse Bayésien. Le processus est incrémental : au fur et à mesure que de nouveaux locuteurs sont détectés, ils sont identifiés à ceux de la base de données ou bien, le cas échéant, de nouvelles entrées sont créées dans la base. Comme toute structure de données adaptée au problème incrémental, notre système d’'indexation permet d’'effectuer la mise à jour des modèles MMG de locuteur à l’'aide de l’'algorithme fusion des MMG. Cet algorithme à été conçu à la fois pour créer une structure ascendante en regroupant deux à deux les modèles GMM jugés similaires. Enn, à travers de deux études utilisant des structures arborescentes binaire ou n’'aire, une réexion est conduite an de trouver une structure ordonnée et adaptée au problème incrémental. Quelques pistes de réexions sur l’'apport de l’'analyse vidéo sont discutées et les besoins futurs sont explorés.
Fichier principal
Vignette du fichier
these-rougui.pdf (1.6 Mo) Télécharger le fichier

Dates et versions

tel-00450812 , version 1 (27-01-2010)

Identifiants

  • HAL Id : tel-00450812 , version 1

Citer

Jamal Rougui. Indexation de documents audio : Cas des grands volumes de données. Interface homme-machine [cs.HC]. Université de Nantes, 2008. Français. ⟨NNT : ⟩. ⟨tel-00450812⟩
194 Consultations
1580 Téléchargements

Partager

Gmail Facebook X LinkedIn More