Indexation et recherche de plans videos par le contenu sémantique

par Fabrice Souvannavong

Thèse de doctorat en Signal et images

Sous la direction de Bernard Merialdo et de Benoit Huet.

Soutenue en 2005

à Paris, ENST .


  • Résumé

    Nous abordons dans ce mémoire le problème délicat de l'indexation de plans vidéo et en particulier l'indexation automatique par le contenu sémantique. L'indexation est l'opération qui consiste à extraire une signature numérique ou textuelle qui décrit le contenu de manière précise et concise afin de permettre une recherche efficace dans une base de données. L'aspect automatique de l'indexation est important puisque nous imaginons bien la difficulté d'établir les signatures manuellement sur de grandes quantités de données. Jusqu'à présent les systèmes automatiques d'indexation et de recherche d'images ou de vidéos se sont concentrés sur la description et l'indexation du contenu purement visuel. Les signatures permettaient d'effectuer une recherche principalement sur les couleurs et les textures des images. A présent, le nouveau défi est d'ajouter à ces signatures une description sémantique du contenu de manière automatique. Un éventail des techniques utilisées pour l'indexation du contenu visuel est tout d'abord présenté. Ensuite nous introduisons une méthode pour calculer une signature précise et compacte à partir des régions des images clefs des plans. Il s'agit d'une adaptation de l'analyse de la sémantique latente qui fut initialement introduite pour indexer le texte. La tâche délicate de la recherche par le contenu sémantique est ensuite abordée. Les expériences sont conduites dans le cadre de l'évaluation TRECVID qui nous permet d'obtenir une grande quantité de vidéo avec leurs annotations. Nous poursuivons la classification sémantique en étudiant la fusion de systèmes de classification. Finalement nous introduisons une nouvelle méthode d'apprentissage actif.

  • Titre traduit

    Semantic indexing and retrieval of video shot content


  • Résumé

    In this thesis, we address the fussy problem of video content indexing and retrieval and in particular automatic semantic video content indexing. Indexing is the operation that consists in extracting a numerical or textual signature that describes the content in an accurate and concise manner. The objective is to allow an efficient search in a database. The automatic aspect of the indexing is important since we can imagine the difficulty to annotate video shots in huge databases. Until now, systems were concentrated on the description and indexing of the visual content. The search was mainly led on colors and textures of video shots. The new challenge is now to automatically add to these signatures a semantic description of the content. First, a range of indexing techniques is presented. Second, we introduce a method to compute an accurate and compact signature from key-frames regions. This method is an adaptation of the latent semantic indexing method originally used to index text documents. Third, we address the difficult task of semantic content retrieval. Experiments are led in the framework of TRECVID. It allows having a huge amount of videos and their labels. Fourth, we pursue on the semantic classification task through the study of fusion mechanisms. Finally, this thesis concludes on the introduction of a new active learning approach to limit the annotation effort.

Autre version

Cette thèse a donné lieu à une publication en 2005 par École nationale supérieure des télécommunications à Paris

Indexation et recherche de plans vidéo par le contenu sémantique


Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (121 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 138 réf. bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.341 SOUV
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.
Cette thèse a donné lieu à 1 publication .

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2005 par École nationale supérieure des télécommunications à Paris

Informations

  • Sous le titre : Indexation et recherche de plans vidéo par le contenu sémantique
  • Dans la collection : ENST , 2005 , 0751-1353
  • Détails : 1 vol. (XVII-121 p.)
  • Annexes : Bibliogr. p. 114. Résumé en français et en anglais
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.