Structuration multimodale des vidéos de tennis en utilisant des modèles segmentaux

par Emmanouil Delakis

Thèse de doctorat en Informatique

Sous la direction de Patrick Gros et de Guillaume Gravier.

Soutenue en 2006

à Rennes 1 .


  • Résumé

    L'analyse automatique du contenu de la vidéo est un sujet de recherche émergent avec de nombreuses applications pratiques sur de grandes bases de données de vidéo ou sur les enregistreurs vidéo personnels. Le centre de cette étude est la construction automatique de la table des matières d'une émission de tennis en utilisant les modèles markoviens et la programmation dynamique. Motivé par le besoin de représentations multimodales plus efficaces, on propose l'utilisation des caractéristiques segmentaires dans le cadre des modèles de segment, au lieu des caractéristiques en trames des modèles de Markov cachés. En considérant chaque scène de la vidéo comme un segment, les points de synchronisation entre différentes modalités sont prolongés aux frontières de la scène, qui est l'unité thématique de base de la vidéo. Les caractéristiques visuelles venant de la vidéo diffusée et les caractéristiques auditives enregistrées dans le court sont traitées avant fusion dans leurs propres segments, avec leurs propres modèles et taux d'échantillonage. Diverses techniques pour modéliser les segments sont examinées, y compris les modèles de Markov cachés de densité discrète ou continue, les modèles bigrames ou des approches connexionistes, fonctionnant sur les caractéristiques audiovisuelles automatiquement extraites. Des modèles de segments et des modèles de Markov cachés, avec des topologies hiérarchiques ou ergodiques, sont établis et comparés sur un corpus de 15 heures de vidéo de tennis. Les paramètres des modèles sont estimés sur des données étiquetées. Selon le modèle segmentaire utilisé, la fusion asynchrone avec des modèles de segments peut atteindre le même niveau de performance que les modèles de Markov cachés. La fusion des ressources textuelles de la vidéo, c'est-à-dire les annonces de points, est également considérée. Pour exploiter entièrement leur contenu sémantique sur l'évolution réelle du jeu et tenir compte des événements non reconnus, un arrangement original du décodage de Viterbi a été développé. Il produit des solutions qui sont conformes aux annonces de points et apporte ainsi une nette amélioration de la performance du système.

  • Titre traduit

    Multimodal tennis video structure analysis with segment models


  • Pas de résumé disponible.

Autre version

Cette thèse a donné lieu à une publication en 2010 par [CCSD] à Villeurbanne

Structuration multimodale des vidéos de tennis en utilisant des modèles segmentaux

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XIV-A36-133 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 123-133

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes. Service commun de la documentation. BU Beaulieu.
  • Disponible pour le PEB
  • Cote : TA RENNES 2006/80
  • Bibliothèque :
  • Disponible pour le PEB
  • Cote : I.4 - DEL

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2006REN1S080
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.