Indexation audio-visuelle des personnes dans un contexte de télévision

par Meriem Bendris

Thèse de doctorat en Signal et images

Sous la direction de Gérard Chollet et de Delphine Charlet.

Soutenue en 2011

à Paris, Télécom ParisTech .


  • Résumé

    Le développement et l'amélioration du réseau Internet a permis de mettre un grand nombre de contenus télévisuels à disposition des utilisateurs. Afin de faciliter la navigation parmi ces vidéos, il est intéressant de développer des technologies pour indexer les personnes automatiquement. Les solutions actuelles proposent de construire l'index audio-visuel des personnes par combinaison des index audio et visuel obtenus de manière indépendante. Malheureusement, pour les émissions de télévision, il est difficile de détecter et de regrouper les personnes automatiquement à cause des nombreuses ambiguïtés dans l'audio, le visuel et leur association (interactivité des dialogues, variations de pose du visage, asynchronie entre la parole et l'apparence, etc). Les approches basées sur la fusion des index audio et visuel combinent les erreurs d'indexation issues de chaque modalité. Les travaux présentés dans ce rapport exploitent la complémentarité entre les informations audio et visuelle afin de palier aux faiblesses de chaque modalité. Ainsi, une modalité peut appuyer l'indexation d'une personne lorsque l'autre est jugée peu fiable. Nous proposons une procédure de correction mutuelle des erreurs d'indexation de chaque modalité. D'abord, les erreurs sont détectées automatiquement à l'aide d'indicateurs de présence de visage parlant. Puis, la modalité qui a échoué est corrigée grâce à un schéma automatique. Nous avons proposé en premier lieu un système initial d'indexation de visages parlants basé sur la détection et le regroupement du locuteur et du costume. Nous proposons une méthode de combinaison d'index basée sur la maximisation de la couverture globale des groupes de personnes. Ce système, évalué sur des émissions de plateaux, obtient une grande précision (90%), mais un faible rappel (seulement 55% des visages parlants sont détectés). Afin de détecter automatiquement la présence d'un visage parlant dans le processus de correction mutuelle, nous avons développé une nouvelle méthode de détection de mouvement des lèvres basée sur la mesure du degré de désordre de la direction des pixels autour de la région des lèvres. L'évaluation, réalisée sur le corpus de d'émission de plateaux, montre une amélioration significative de la détection des visages parlants comparé à l'état de l'art dans ce contexte. En particulier, notre méthode s'avère être plus robuste à un mouvement global du visage. Enfin, nous avons proposé deux schémas de correction. Le premier est basé sur une modification systématique de la modalité considérée a priori la moins fiable. Le second compare des scores de vérification de l'identité non supervisée afin de déterminer quelle modalité a échoué et la corriger. Les modèles non supervisés des personnes sont appris à partir des ensembles homogènes de visages parlants obtenus automatiquement par le système initial. Les deux méthodes de correction conduisent à une amélioration significative des performances (+2 à 5% de la F-mesure). Nous nous sommes également intéressés aux systèmes biométriques audio-visuels et particulièrement sur les techniques de fusion tardives pour la vérification d'identité. Nous avons proposé une méthode de fusion dépendante de la qualité du signal dans chaque modalité.

  • Titre traduit

    Audio-visual indexing of people in TV-context


  • Résumé

    With increasing internet use, the amount of multimedia content multiplies, making it necessary to develop technologies in order to enable users to browse through the multimedia data. One key element for browsing is the presence of people. However, structuring TV-Content in terms of people is a hard problem due to many difficulties in audio and visual modalities as well as in their association (short speaker turns, variations in facial expressions and pose, no synchronization between sequences of a person's appearance and sequences of his/her speech). The goal underlying this dissertation is to structure TV-Content by person in order to allow users to navigate through sequences in which a particular individual appears. To this end, most methods propose indexing people separately by the audio and visual information and then associating the results of each in order to obtain a talking-face index. Unfortunately, this type of approach combines clustering errors present in each modality. Our work seeks to capitalise on interactions between the audio and visual modalities rather than treating them separately. We propose a mutual correction scheme for audio and visual clustering errors. First, the clustering errors are detected using indicators that suspect a talking-face presence (Step 1). Then, the incorrect label is corrected according to an automatic modification scheme (Step 2). In more detail, first we proposed a Baseline system of talking faces indexing in which audio and visual indexes of people are generated independently by speaker and clothes clustering. Then, we proposed a fusion method based on maximizing global coverage of detected clusters. Results on a TV-show database show a high precision (90%), but with a significant missed-detection rate (only 55% of talking faces sequences are detected). In order to automatically detect a talking face presence (in the step 1), we exploited the fact that the lip-activity is strongly related to speech activity. We developed a new method for lip-activity detection in TV-Context based on the disorder of the directions of pixels. An evaluation is performed on manually annotated TV-Shows and significant improvement is observed compared to the state-of-the-art in TV-Contexts. Next, the modification method is based on the paradigm that one modality (either audio or visual) is more reliable than the other. We proposed two modification schemes: one based on systematic correction of the supposedly less reliable modality a priori while the second proposes comparing unsupervised audio-visual model scores to determine which modality failed. The unsupervised models are trained from the homogeneous sets of talking faces obtained automatically by the Baseline system. Experiments conducted on a TV-show database show that the proposed correction schemes yield significant improvement in performance, mainly due to an important reduction of missed talking-faces. We have investigated also on late fusion techniques for identity verification in biometric systems. We have proposed a fusion method based on the signal quality in each modality.   

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (181 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 94 réf. bibliogr. Résumé en anglais et en français

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.3 BEND
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.