Structuration multimodale des vidéos de sports par modèles stochastiques

par Ewa Kijak

Thèse de doctorat en Traitement du signal et des télécommunications

Sous la direction de Patrick Gros.

Soutenue en 2003

à Rennes 1 .


  • Résumé

    Cette étude présente une méthode de structuration d'une vidéo utilisant des indices sonores et visuels. Cette méthode repose sur un modèle statistique de l'entrelacement temporel des plans de la vidéo. La structure de la vidéo est représentée par un modèle de Markov caché hiérarchique, intégrant les informations a priori sur le contenu de la vidéo, ainsi que sur les règles d'édition. Les indices visuels sont utilisés pour caractériser le type des plans. Les indices audio décrivent les événements sonores apparaissant durant un plan. L'approche est validée dans le cadre des vidéos de tennis, celles-ci présentant une structure intrinsèque hiérarchique bien définie. En résultat de l'analyse de l'entrelacement temporel des différents types de plans, des scènes caractéristiques du tennis sont identifiées. De plus, chaque plan de la vidéo est assigné à un niveau de hiérarchie décrit en terme de point, jeu et set. Cette classification et segmentation simultanées de la structure globale de la vidéo peuvent être utilisées pour la création de résumés vidéo ou pour permettre une navigation non linéaire dans le document.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 152 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. : 132 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA Rennes 2003/108
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.