Détection non supervisée d'évènements rares dans un flot vidéo : application à la surveillance d'espaces publics

par Bertrand Luvison

Thèse de doctorat en Vision pour la Robotique

Sous la direction de Jean-Thierry Lapresté.

Le président du jury était Serge Miguet.

Le jury était composé de Catherine Achard, Jenny Benois Pineau, Quoc-Cuong Pham, Thierry Chateau, Patrick Sayd, Jean-Marc Odobez.

Les rapporteurs étaient Catherine Achard, Jenny Benois Pineau.


  • Résumé

    Cette thèse est une collaboration entre le LAboratoire des Sciences et Matériaux pour l’Électronique et d’Automatique (LASMEA) de Clermont-Ferrand et le Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA LIST à Saclay. La première moitié de la thèse a été accomplie au sein de l’équipe ComSee (1) du LASMEA et la deuxième au LVIC. L’objectif de ces travaux est de concevoir un système de vidéo-assistance temps réel pour la détection d’évènements dans des scènes possiblement denses.La vidéosurveillance intelligente de scènes denses telles que des foules est particulièrement difficile, principalement à cause de leur complexité et de la grande quantité de données à traiter simultanément. Le but de cette thèse consiste à élaborer une méthode de détection d’évènements rares dans de telles scènes, observées depuis une caméra fixe. La méthode en question s’appuie sur l’analyse automatique de mouvement et ne nécessite aucune information à priori. Les mouvements nominaux sont déterminés grâce à un apprentissage statistique non supervisé. Les plus fréquemment observés sont considérés comme des évènements normaux. Une phase de classification permet ensuite de détecter les mouvements déviant trop du modèle statistique, pour les considérer comme anormaux. Cette approche est particulièrement adaptée aux lieux de déplacements structurés, tels que des scènes de couloirs ou de carrefours routiers. Aucune étape de calibration, de segmentation de l’image, de détection d’objets ou de suivi n’est nécessaire. Contrairement aux analyses de trajectoires d’objets suivis, le coût calculatoire de notre méthode est invariante au nombre de cibles présentes en même temps et fonctionne en temps réel. Notre système s’appuie sur une classification locale du mouvement de la scène, sans calibration préalable. Dans un premier temps, une caractérisation du mouvement est réalisée, soit par des méthodes classiques de flot optique, soit par des descripteurs spatio-temporels. Ainsi, nous proposons un nouveau descripteur spatio-temporel fondé sur la recherche d’une relation linéaire entre les gradients spatiaux et les gradients temporels en des zones où le mouvement est supposé uniforme. Tout comme les algorithmes de flot optique, ce descripteur s’appuie sur la contrainte d’illumination constante.Cependant en prenant en compte un voisinage temporel plus important, il permet une caractérisation du mouvement plus lisse et plus robuste au bruit. De plus, sa faible complexité calculatoire est bien adaptée aux applications temps réel. Nous proposons ensuite d’étudier différentes méthodes de classification : La première, statique, dans un traitement image par image, s’appuie sur une estimation bayésienne de la caractérisation du mouvement au travers d’une approche basée sur les fenêtres de Parzen. Cette nouvelle méthode est une variante parcimonieuse des fenêtres de Parzen. Nous montrons que cette approche est algorithmiquement efficace pour approximer de manière compacte et précise les densités de probabilité. La seconde méthode, basée sur les réseaux bayésiens, permet de modéliser la dynamique du mouvement. Au lieu de considérer ce dernier image par image, des séquences de mouvements sont analysées au travers de chaînes de Markov Cachées. Ajouté à cela, une autre contribution de ce manuscrit est de prendre en compte la modélisation du voisinage d’un bloc afin d’ajouter une cohérence spatiale à la propagation du mouvement. Ceci est réalisé par le biais de couplages de chaînes de Markov cachées.Ces différentes approches statistiques ont été évaluées sur des données synthétiques ainsi qu’en situations réelles, aussi bien pour la surveillance du trafic routier que pour la surveillance de foule.Cette phase d’évaluation permet de donner des premières conclusions encourageantes quant à la faisabilité de la vidéosurveillance intelligente d’espaces possiblement denses.


  • Résumé

    The automatic analysis of crowded areas in video sequences is particularly difficult because ofthe large amount of information to be processed simultaneously and the complexity of the scenes. We propose in this thesis a method for detecting abnormal events in possibly dense scenes observed from a static camera. The approach is based on the automatic classification of motion requiring no prior information. Motion patterns are encoded in an unsupervised learning framework in order to generate a statistical model of frequently observed (aka. normal) events. Then at the detection stage, motion patterns that deviate from the model are classified as unexpected events. The method is particularly adapted to scenes with structured movement with directional flow of objects or people such as corridors, roads, intersections. No camera calibration is needed, nor image segmentation, object detection and tracking. In contrast to approaches that rely on trajectory analysis of tracked objects, our method is independent of the number of targets and runs in real-time. Our system relies on a local classification of global scene movement. The local analysis is done on each blocks of a regular grid. We first introduce a new spatio-temporal local descriptor to characterize the movement efficiently. Assuming a locally uniform motion of space-time blocks of the image, our approach consists in determining whether there is a linear relationship between spatial gradients and temporal gradients. This spatio-temporal descriptor holds the Illumination constancy constraint like optical flow techniques, but it allows taking into account the spatial neighborhood and a temporal window by giving a smooth characterization of the motion, which makes it more robust to noise. In addition, its low computational complexity is suitable for real-time applications. Secondly, we present two different classification frameworks : The first approach is a static (frame by frame) classification approach based on a Bayesian characterization of the motion by using an approximation of the Parzen windowing method or Kernel Density Estimation (KDE) to model the probability density function of motion patterns.This new method is the sparse variant of the KDE (SKDE). We show that the SKDE is a very efficient algorithm giving compact representations and good approximations of the density functions. The second approach, based on Bayesian Networks, models the dynamics of the movement. Instead of considering motion patterns in each block independently, temporal sequences of motion patterns are learned by using Hidden Markov Models (HMM). The second proposed improvement consists in modeling the movement in one block by taking into account the observed motion in adjacent blocks. This is performed by the coupled HMM method. Evaluations were conducted to highlight the classification performance of the proposed methods,on both synthetic data and very challenging real video sequences captured by video surveillance cameras.These evaluations allow us to give first conclusions concerning automatic analyses of possibly crowded area.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque Clermont Université (Clermont-Ferrand).
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.