Supervised Learning Approaches for Automatic Structuring of Videos

Danila Potapov

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Méthodes d'apprentissage supervisé pour la structuration automatique de vidéos

FR |

EN

Auteur / Autrice :	Danila Potapov
Direction :	Cordelia Schmid, Zaid Harchaoui
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques et Informatique
Date :	Soutenance le 22/07/2015
Etablissement(s) :	Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) :	École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble, Isère, France ; 1995-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Jean Kuntzmann (Grenoble, Isère, France ; 2007-....) - LEAR - Learning and recognition in vision
Jury :	Président / Présidente : Ivan Laptev
	Examinateurs / Examinatrices : Florent Perronnin, Matthijs Douze
	Rapporteurs / Rapporteuses : Patrick Perez

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Vision par ordinateur

Mots clés libres

Analyse de vidéos

Classification de vidéos

Résumé automatique de vidéos

Vision par ordinateur

Apprentissage statistique

Résumé

FR |

EN

L'Interprétation automatique de vidéos est un horizon qui demeure difficile a atteindre en utilisant les approches actuelles de vision par ordinateur. Une des principales difficultés est d'aller au-delà des descripteurs visuels actuels (de même que pour les autres modalités, audio, textuelle, etc) pour pouvoir mettre en oeuvre des algorithmes qui permettraient de reconnaitre automatiquement des sections de vidéos, potentiellement longues, dont le contenu appartient à une certaine catégorie définie de manière sémantique. Un exemple d'une telle section de vidéo serait une séquence ou une personne serait en train de pêcher; un autre exemple serait une dispute entre le héros et le méchant dans un film d'action hollywoodien. Dans ce manuscrit, nous présentons plusieurs contributions qui vont dans le sens de cet objectif ambitieux, en nous concentrant sur trois tâches d'analyse de vidéos: le résumé automatique, la classification, la localisation temporelle.Tout d'abord, nous introduisons une approche pour le résumé automatique de vidéos, qui fournit un résumé de courte durée et informatif de vidéos pouvant être très longues, résumé qui est de plus adapté à la catégorie de vidéos considérée. Nous introduisons également une nouvelle base de vidéos pour l'évaluation de méthodes de résumé automatique, appelé MED-Summaries, ou chaque plan est annoté avec un score d'importance, ainsi qu'un ensemble de programmes informatiques pour le calcul des métriques d'évaluation.Deuxièmement, nous introduisons une nouvelle base de films de cinéma annotés, appelée Inria Action Movies, constitué de films d'action hollywoodiens, dont les plans sont annotés suivant des catégories sémantiques non-exclusives, dont la définition est suffisamment large pour couvrir l'ensemble du film. Un exemple de catégorie est ''course-poursuite''; un autre exemple est ''scène sentimentale''. Nous proposons une approche pour localiser les sections de vidéos appartenant à chaque catégorie et apprendre les dépendances temporelles entre les occurrences de chaque catégorie.Troisièmement, nous décrivons les différentes versions du système développé pour la compétition de détection d'événement vidéo TRECVID Multimédia Event Detection, entre 2011 et 2014, en soulignant les composantes du système dont l'auteur du manuscrit était responsable.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Méthodes d'apprentissage supervisé pour la structuration automatique de vidéos

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Méthodes d'apprentissage supervisé pour la structuration automatique de vidéos

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses