Thèse soutenue

FR
Auteur / Autrice : Cristina Garcia Cifuentes
Direction : Frédéric JurieGabriel Brostow
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance en 2012
Etablissement(s) : Caen

Résumé

FR  |  
EN

Cette thèse porte sur la classification de vidéos --étape importante de la compréhension des vidéos-- en se focalisant sur la reconnaissance d'actions. Nous nous plaçons dans le cas où des modèles de catégories sémantiques sont à construire automatiquement à partir de données d’entrainement: des extraits vidéo associées à des catégories. Aucune information n'est fournie quant à la localisation spatio-temporelle de l'action dans la vidéo, ni aux éléments indicatifs de la catégorie. Nous explorons trois façons d'exploiter ces annotations faibles dans le cadre des représentations de vidéos dites ��sacs à mots»: (1) une supervision cohérente dès les premières étapes du pipeline, (2) la combinaison d'attributs hétérogènes en nature et en échelle, et (3) des représentations intermédiaires basées sur des régions de sorte à identifier des zones pertinentes dans les vidéos. Pour la quantification de descripteurs locaux, nous proposons une nouvelle fonction objectif d’entrainement de forêts aléatoires, qui vise explicitement à accroitre la capacité discriminatoire des sacs de mots obtenus. Nos forêts sont plus robustes dans l’incorporation d’éléments de contexte pendant la quantification, limitant les risques de la combinaison naïve d’attributs. Nous montrons que les représentations intermédiaires apportent des informations complémentaires améliorant la performance des sacs de mots. De plus, nous proposons une nouvelle application de la classification de vidéos dans le contexte du pistage. Nous montrons que des annotations faibles peuvent être utilisées pour classer des vidéos en types de modèle dynamique. Cette sélection de modèle par classification améliore la qualité du pistage.