Thèse soutenue

Reconnaissance d’action humaine dans des vidéos
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Piotr Tadeusz Biliński
Direction : François Brémond
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/12/2014
Etablissement(s) : Nice
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) - STARS / INRIA Sophia Antipolis
Jury : Président / Présidente : Frédéric Precioso
Examinateurs / Examinatrices : François Brémond, Frédéric Precioso, Ram Nevatia, Frédéric Jurie, Ivan Laptev
Rapporteurs / Rapporteuses : Ram Nevatia, Frédéric Jurie

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse traite de la reconnaissance automatique d'action humaine dans des vidéos. La reconnaissance d'action humaine est indispensable pour déterminer quelles actions humaines se produisent dans des vidéos. Ce problème est particulièrement difficile en raison d'énormes variations dans les aspects visuels et de mouvement des personnes et des actions, les changements de point de vue de la caméra, le fond mobile, des occlusions, la présence de bruit, ainsi que l'énorme quantité de données vidéos. Tout d'abord, nous passons en revue, évaluons et comparons les techniques les plus importantes et les plus populaires de l'état de l'art pour la reconnaissance d'action, ensuite, nous proposons une plateforme basée sur des caractéristiques locales, que nous utilisons tout au long de ce travail de thèse pour étudier de nouveaux algorithmes. En plus, nous introduisons une nouvelle base de données (Hôpital CHU de Nice) avec des actions de la vie quotidienne de patients âgés dans cet hôpital. Ensuite, nous proposons deux descripteurs spatio-temporels locaux pour la reconnaissance d'action dans les vidéos. Le premier descripteur est basé sur une représentation des matrices de covariance, modélisant les relations linéaires entre les caractéristiques bas niveaux. Le deuxième descripteur est basé sur les covariances browniennes, et modélise tous les types de relations possibles entre les caractéristiques bas niveaux. Après, nous proposons trois représentations de caractéristiques de hauts niveaux pour dépasser les limites des techniques utilisant l'encodage des sacs de mots. La première représentation est basée sur le principe des trajectoires relatives denses. Nous proposons une représentation objet-centrée des caractéristiques locales des trajectoires de mouvement, ce qui permet d'utiliser l'information spatiale par une technique de codage des caractéristiques locales. La deuxième représentation encode les relations entre les caractéristiques locales par paires. Le principe est dextraire les relations d'apparence entre les caractéristiques (à la fois visuelles et de mouvement), et dutiliser l'information géométrique pour décrire la façon dont ces relations d'apparence sont disposées mutuellement dans l'espace spatio-temporel. La troisième représentation calcule les statistiques des paires concomitantes des mots visuels dans les voisinages multi-échelles centrées les caractéristiques. La représentation basée sur les caractéristiques contextuelles proposées encode linformation sur la densité locale de ces caractéristiques, les relations entre les paires des caractéristiques locales et leur ordre spatio-temporel. Finalement, les techniques proposées permettent d'obtenir une performance meilleure ou semblable par rapport à l'état de l'art, sur des bases de données représentant une grande diversité dactions humaines (Weizmann, KTH, URADL, MSR Daily Activity 3D, HMDB51, et Hôpital CHU de Nice).