Thèse soutenue

Étude de la classification des vidéos de foule par apprentissage profond

FR  |  
EN
Auteur / Autrice : Mounir Bendali-Braham
Direction : Pierre-Alain MullerLhassane IdoumgharGermain Forestier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/01/2022
Etablissement(s) : Mulhouse
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences de l'information et de l'ingénieur (Strasbourg ; 1997-....)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique, Mathématiques, Automatique et Signal (Mulhouse) - Institut de Recherche en Informatique Mathématiques Automatique Signal - IRIMAS - UR 7499 / IRIMAS

Résumé

FR  |  
EN

Du fait de la multiplication des rassemblements dans les grandes villes, leur encadrement constitue un enjeu majeur pour les forces de l’ordre. Fort heureusement, les forces de l’ordre peuvent compter sur la présence des caméras de vidéoprotection pour optimiser leur intervention. Toutefois, le traitement automatique des vidéos qu’elles récoltent n’est pas réalisé de manière systématique, ce qui retarde le temps de réaction des forces de l’ordre. Cette thèse apporte une pierre à l’édifice de cette automatisation en mettant en place des modèles réalisant une classification des vidéos de comportements de foule. Après avoir étudié les travaux existants en analyse de foule et proposé une taxonomie permettant de classer les travaux de l’état-de-l’art, nous avons proposé de classer les clips vidéo issus du jeu de données Crowd-11. Ce jeu de données comporte onze catégories de mouvements assez représentatives des comportements de foule pouvant se dérouler dans les espaces publics et privés. Dans le cadre d’un travail préliminaire sur l’apprentissage par transfert, nous avons étudié et analysé la classification des clips vidéo de foule réalisée par des réseaux de neurones convolutifs. Nos meilleurs réseaux classent correctement la majeure partie des clips de l’ensemble de test. Toutefois, une étude plus approfondie de leurs résultats nous a permis de constater qu’ils éprouvent des difficultés avec trois classes de mouvements assez similaires. Afin de pallier les limites rencontrées par nos premiers réseaux, nous avons proposé deux nouvelles approches : la première approche exploite la détection de têtes, en tant qu’étape de pré-traitement, avant de recourir à la classification. La deuxième approche se base sur la classification ensembliste qui associe les connaissances de plusieurs méthodes de classification permettant de produire de meilleures décisions. Dans le cadre de l'exploitation de la détection de têtes, nous nous sommes basés sur les déplacements des têtes des personnes détectées dans les clips vidéo de foule. Les positions des têtes, extraites de toutes les personnes apparaissant dans les scènes du jeu de données, ont été rassemblées dans des cartes de détection de têtes. Ces cartes ont été envoyées en entrée des réseaux de neurones convolutifs pour caractériser les comportements de foule et les classer. Dans le cadre de la classification ensembliste, plusieurs modèles entraînés différemment ont été réunis dans un ensemble pour classer des clips vidéo de foule. Huit ensembles de modèles homogènes ont été étudiés et analysés. Par la suite, des ensembles de modèles hétérogènes ont été mis en place pour étudier toutes les combinaisons possibles des ensembles de modèles homogènes. L’objectif de cette étude a été de trouver la combinaison qui associe le mieux les compétences de chaque ensemble homogène pour obtenir l’ensemble de modèles hétérogènes le plus performant.