Analyse sémantique d'un trafic routier dans un contexte de vidéo-surveillance

par Mathieu Brulin

Thèse de doctorat en Informatique

Sous la direction de Henri Nicolas.

Le président du jury était Pascal Desbarats.

Le jury était composé de Marc Chaumont, Christophe Maillet.

Les rapporteurs étaient Christine Fernandez-Maloigne, Marc Gelgon.


  • Résumé

    Les problématiques de sécurité, ainsi que le coût de moins en moins élevé des caméras numériques, amènent aujourd'hui à un développement rapide des systèmes de vidéosurveillance. Devant le nombre croissant de caméras et l'impossibilité de placer un opérateur humain devant chacune d'elles, il est nécessaire de mettre en oeuvre des outils d'analyse capables d'identifier des évènements spécifiques. Le travail présenté dans cette thèse s'inscrit dans le cadre d'une collaboration entre le Laboratoire Bordelais de Recherche en Informatique (LaBRI) et la société Adacis. L'objectif consiste à concevoir un système complet de vidéo-surveillance destiné à l'analyse automatique de scènes autoroutières et la détection d'incidents. Le système doit être autonome, le moins supervisé possible et doit fournir une détection en temps réel d'un évènement.Pour parvenir à cet objectif, l'approche utilisée se décompose en plusieurs étapes. Une étape d'analyse de bas-niveau, telle que l'estimation et la détection des régions en mouvement, une identification des caractéristiques d'un niveau sémantique plus élevé, telles que l'extraction des objets et la trajectoire des objets, et l'identification d'évènements ou de comportements particuliers, tel que le non respect des règles de sécurité. Les techniques employées s'appuient sur des modèles statistiques permettant de prendre en compte les incertitudes sur les mesures et observations (bruits d'acquisition, données manquantes, ...).Ainsi, la détection des régions en mouvement s'effectue au travers la modélisation de la couleur de l'arrière-plan. Le modèle statistique utilisé est un modèle de mélange de lois, permettant de caractériser la multi-modalité des valeurs prises par les pixels. L'estimation du flot optique, de la différence de gradient et la détection d'ombres et de reflets sont employées pour confirmer ou infirmer le résultat de la segmentation.L'étape de suivi repose sur un filtrage prédictif basé sur un modèle de mouvement à vitesse constante. Le cas particulier du filtrage de Kalman (filtrage tout gaussien) est employé, permettant de fournir une estimation a priori de la position des objets en se basant sur le modèle de mouvement prédéfini.L'étape d'analyse de comportement est constituée de deux approches : la première consiste à exploiter les informations obtenues dans les étapes précédentes de l'analyse. Autrement dit, il s'agit d'extraire et d'analyser chaque objet afin d'en étudier son comportement. La seconde étape consiste à détecter les évènements à travers une coupe du volume 2d+t de la vidéo. Les cartes spatio-temporelles obtenues sont utilisées pour estimer les statistiques du trafic, ainsi que pour détecter des évènements telles que l'arrêt des véhicules.Pour aider à la segmentation et au suivi des objets, un modèle de la structure de la scène et de ses caractéristiques est proposé. Ce modèle est construit à l'aide d'une étape d'apprentissage durant laquelle aucune intervention de l'utilisateur n'est requise. La construction du modèle s'effectue à travers l'analyse d'une séquence d'entraînement durant laquelle les contours de l'arrière-plan et les trajectoires typiques des véhicules sont estimés. Ces informations sont ensuite combinées pour fournit une estimation du point de fuite, les délimitations des voies de circulation et une approximation des lignes de profondeur dans l'image. En parallèle, un modèle statistique du sens de direction du trafic est proposé. La modélisation de données orientées nécessite l'utilisation de lois de distributions particulières, due à la nature périodique de la donnée. Un mélange de lois de type von-Mises est utilisée pour caractériser le sens de direction du trafic.

  • Titre traduit

    semantic analysis of road trafic in a context of video-surveillance


  • Résumé

    Automatic traffic monitoring plays an important role in traffic surveillance. Video cameras are relatively inexpensive surveillance tools, but necessitate robust, efficient and automated video analysis algorithms. The loss of information caused by the formation of images under perspective projection made the automatic task of detection and tracking vehicles a very challenging problem, but essential to extract a semantic interpretation of vehicles behaviors. The work proposed in this thesis comes from a collaboration between the LaBRI (Laboratoire Bordelais de Recherche en Informatique) and the company Adacis. The aim is to elaborate a complete video-surveillance system designed for automatic incident detection.To reach this objective, traffic scene analysis proceeds from low-level processing to high-level descriptions of the traffic, which can be in a wide variety of type: vehicles entering or exiting the scene, vehicles collisions, vehicles' speed that are too fast or too low, stopped vehicles or objects obstructing part of the road... A large number of road traffic monitoring systems are based on background subtraction techniques to segment the regions of interest of the image. Resulted regions are then tracked and trajectories are used to extract a semantic interpretation of the vehicles behaviors.The motion detection is based on a statistical model of background color. The model used is a mixture model of probabilistic laws, which allows to characterize multimodal distributions for each pixel. Estimation of optical flow, a gradient difference estimation and shadow and highlight detection are used to confirm or invalidate the segmentation results.The tracking process is based on a predictive filter using a motion model with constant velocity. A simple Kalman filter is employed, which allow to predict state of objets based on a \textit{a priori} information from the motion model.The behavior analysis step contains two approaches : the first one consists in exploiting information from low-level and mid-level analysis. Objects and their trajectories are analysed and used to extract abnormal behavior. The second approach consists in analysing a spatio-temporal slice in the 3D video volume. The extracted maps are used to estimate statistics about traffic and are used to detect abnormal behavior such as stopped vehicules or wrong way drivers.In order to help the segmentaion and the tracking processes, a structure model of the scene is proposed. This model is constructed using an unsupervised learning step. During this learning step, gradient information from the background image and typical trajectories of vehicles are estimated. The results are combined to estimate the vanishing point of the scene, the lanes boundaries and a rough depth estimation is performed. In parallel, a statistical model of the trafic flow direction is proposed. To deal with periodic data, a von-Mises mixture model is used to characterize the traffic flow direction.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?