Système de caméras intelligentes pour l'étude en temps-réel de personnes en mouvement

par Andres Burbano lopez

Thèse de doctorat en Traitement du signal et des images

Sous la direction de Samir Bouaziz.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec SATIE - Systèmes et Applications des Technologies de l'Information et de l'Energie (laboratoire) et de Université Paris-Sud (établissement opérateur d'inscription) .


  • Résumé

    Dans ce travail de thèse, nous avons exploré des voies technologiques et scientifiques afin d'obtenir des informations fiables et viables (industriellement) pour étudier le comportement de personnes en mouvement dans les grands espaces. La solution proposée se compose d'un réseau de caméras intelligentes en position zénithale avec la caractéristique que sa puissance de calcul se trouve dans des nœuds distribués. De plus, notre système est facile à déployer, a configurer et peut être industrialisé à très faible coût. Notre recherche est divisée en 4 parties principales. Les travaux ont débuté par l'évaluation de l'influence de la position de la caméra sur l'observation de la scène, en mettant en évidence l'importance de son placement en position zénithale pour réduire les occultations et diminuer les variations d'échelle. Ensuite, on a caractérisé les performances des caméras 3D disponibles sur le marché par des méthodes adaptées pour mésuser la stabilité temporelle des cartes de profondeur acquises, la précision de la distance mesurée, la résolution de la profondeur et la fiabilité de la détection des personnes de chaque capteur. Comme résultat, nous avons opté pour le capteur optique actif ASUS Xtion Pro, qui constitue un bon compromis entre les différentes caractéristiques évaluées. En second lieu, nous avons conçu et réalisé une caméra intelligente autonome, capable d'extraire des propriétés spatio-temporelles et physiques des personnes en produisant des données riches permettant l'identification et le suivi de plusieurs cibles en temps-réel. L'autonomie de cette caméra est assurée par l'intégration des chaînes de traitements (hors ligne et en ligne), et une conception hardware adaptée à une architecture nœuds distribués. Le traitement hors ligne a permis de reconstruire l'arrière-plan, pour permettre la séparation des personnes du fond de la scène et le filtrage des cibles non désirées (enfants ou caddies). Le traitement en ligne mis en place assure la séparation entre personnes (segmentation à deux niveaux), puis la similitude des gens et la déformation du modèle (vecteur de caractéristiques humaines). Enfin, nous avons évalué nos algorithmes de détection et suivi et ses performances. Notre solution garantit l'exécution des traitements en temps-réel (~20 fps), suffisamment réactive pour détecter des déplacements rapides avec une précision jusqu'à 99 %. En troisième lieu, nous avons créé un réseau de caméras pour étudier le comportement de personnes en mouvement sur de grands espaces, en assurant une collecte massive de données provenant de plusieurs sources. Ce réseau a une architecture distribuée et est composé de plusieurs nœuds intelligents qui apportent de la puissance de calcul et qui étendent la région globale d'observation. Nous avons utilisé un système de calibration extrinsèque pour créer un repère unique global et un système d'étiquetage centralisé pour gérer les personnes qui transitent d'une caméra à une autre, permettant l'extension à de grands espaces. En quatrième lieu, nous avons étudié le comportement des personnes en mouvement en utilisant des trajectoires récupérées par notre système et d'autres capables de suivre des personnes dans de grands espaces. Nous avons proposé des méthodes pour la détection de personnes en temps-réel dans les zones d'intérêt, la génération des cartes d'occupation, d'entrées et de sorties en fonction de l'utilisation de l'espace. Pour l'analyse de trajectoires, nous avons segmenté de flux comportementaux et représenté dynamiquement les trajectoires. Nous avons également mis en évidence les verrous scientifiques à lever et confronté notre solution à la réalité du terrain, en termes de faisabilité, de coût de conception, de complexité d'utilisation et de maintenabilité. Nous sommes arrivés à une solution viable techniquement et économiquement, avec une simplicité de mise en œuvre sur le terrain.

  • Titre traduit

    Smart camera system for kinetic behavior study in real-time.


  • Résumé

    In this thesis, we explored technological and scientific pathways in order to obtain reliable and viable information (industrially) to study the behavior of people in motion in wide-open spaces. The proposed solution consists of a network of smart cameras in overhead position with the characteristic of a computing power that lies in the distributed nodes. In addition, our system is easy to deploy, to configure and can be industrialized at a very low cost. Our research is divided into four main parts. First, our work began by assessing the influence of the position of the camera on the observation of the scene, highlighting the importance of its placement in overhead position to reduce the occlusion and decrease the scale variations. Then, the performance of the 3D cameras available on the market was characterized by methods adapted to measure the temporal stability of the acquired depth maps, the accuracy of the measured distance, the depth resolution and the people detection reliability from each sensor. As a result, we opted for the active optical sensor ASUS Xtion Pro, which represents an appropriate compromise between the different evaluated characteristics. Secondly, we have designed and built an autonomous smart camera, capable of extracting people's spatiotemporal and physical properties by producing rich data, enabling the identification and tracking of several targets in real time. The autonomy of this camera is ensured by the integration of processing chains (offline and online), and a hardware design adapted to a distributed nodes architecture. The Offline processing allowed to rebuild the background, conduct people separation from the background and to filter unwanted targets (children or caddies). The online processing ensures separation between people (two-level segmentation), then the similarity of people and the deformation of the model (human feature descriptor). Finally, we assessed our detection and tracking algorithms performances. Our solution ensures a performance with a throughput of up to 20 frames per second, sufficiently responsive to detect fast movements with a precision of up to 99%. Thirdly, we have created a network of cameras to study the behavior of people in motion on large spaces, ensuring a massive collection of data from several sources. This network has a distributed architecture and is composed of several smart nodes that bring computational power and extend the overall region of observation. We used an extrinsic calibration system to create a single global coordinate system and a labeling centralized system to manage people transiting from one camera to another, allowing the extension to large spaces. Fourth, we studied people in motion behavior using trajectories recovered by our and other systems, capable of tracking people in large spaces. We have proposed methods for people detection in real-time in zones of interest, as well as occupancy, points of entry and exit maps generation considering people's use of space. For trajectory analysis, we used behavioral flow segmentation and trajectories dynamic representation. We have also highlighted the scientific challenges to overcome, and have confronted our solution to the reality on the field, in terms of feasibility, cost of design, usability, and maintainability. We arrived at a technically and economically viable solution that is simple to install.