Similarité des séquences vidéo : application aux rushes

par Émilie Dumont

Thèse de doctorat en Automatique, traitement du signal et des images

Sous la direction de Bernard Merialdo.


  • Résumé

    Cette thèse se situe dans le contexte de l'analyse de vidéos; en particulier des vidéos appelées rushes. Les rushes d'un film sont constitués des documents originaux (bobines de film, bandes sons,. . . ) produits au tournage et issus de la caméra et de l'appareil d'enregistrement sonore. Ce sont des documents uniques, bruts, qui seront utilisés au montage et en postproduction. Nous proposons différents outils pour l'exploitation des rushes tels que des méthodes pour supprimer les séquences outils et poubelles du flux vidéo; une méthode de recherche de plans vidéos grâce à l'utilisation d'un plan vide����o; une mesure du contenu visuel d'une séquence vidéo ainsi qu'une structuration de la vidéo permettant de supprimer la redondance dans une vidéo en se basant sur l'alignement de séquences vidéos. Ensuite ces outils ont été incorporés dans des systèmes pour la création de résumés vidéo de rushes. Le premier système se base uniquement sur la mesure du contenu vidéo, le deuxième utilise l'alignement des séquences; en parallèle, nous avons développé une architecture permettant une collaboration entre laboratoires. Nous avons soumis ces différents systèmes à la campagne d'évaluation internationale TRECVID. Les résultats obtenus furent satisfaisants. Cependant cette méthode d'évaluation est manuelle, nous avons donc étudié de l'automatisation de cette évaluation.

  • Titre traduit

    Video sequence similarity application to rushes


  • Résumé

    The purpose of this document is video analysis and in particular analysis of video rushes. In filmmaking, rushes is the term used to describe the raw, unedited, footage shots which are created during the making of a motion picture. We propose several tools to explore rushes. The first one is a tool to remove redundancy : the redundancy can be absolute (i. E. The content is not needed) or relative (i. E. The content is repetitive). An other method is a shot video search using a visual dictionary based on the paradigm of textual document search. In order to create video summarization, we propose a method to represent the quantity of the relevant visual content of a video sequence. A second technique is to align repetitive video sequences in order to parse the video and remove repetitive takes. At the same time, we present a collaborative architecture allowing to fuse different partner analysis in order to exploit their different competences. These systems were evaluated by TRECVID. Results encouraged us to continue on this direction. The main problem is that the TRECVID evaluations are currently performed by human judges. This creates fundamental difficulties because evaluation experiments are expensive to reproduce, and subject to the variability of human judgment. Therefore, we propose an approach to automate this evaluation procedure using the same quality criteria. Through experiments, we show a good correlation with the manual evaluation.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (vi-149 p.)
  • Annexes : Bibliogr. p. 3-4 et p.129-141. Résumés en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Bibliothèque Sciences.
  • Non disponible pour le PEB
  • Cote : 09NICE4021
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.