Détection/reconnaissance d'objets urbains à partir de données 3D multi capteurs prises au niveau du sol, en continu

par Younes Zegaoui

Projet de thèse en Informatique

Sous la direction de Marc Chaumont et de Gérard Subsol.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier) (laboratoire) et de Département Robotique (equipe de recherche) depuis le 01-11-2017 .


  • Résumé

    L'objectif de la thèse est de développer des méthodologies et algorithmes de segmentation / détection / localisation / identification / labellisation d'objets urbains à partir de données 3D prises au niveau du sol. Ces données 3D seront acquises en continu et pourront être multi-sources (Lidar terrestre, radar, optique, ...). Il y a donc un vrai challenge dans le traitement de ces gros jeux de données, mais également de par la nature non-structurée des données. Les données sont, en effet, représentées sous forme de nuage de points ; il n'y a donc pas d'information de surface immédiatement exploitable. En cela, le sujet de thèse se positionne différemment par rapport aux deux sujets CIFRE précédents, qui considéraient uniquement des données représentables sous forme d'images (image colorimétrique, image infrarouge, image d'élévation de terrain). Dans la thèse que nous proposons ici, le volume de données peut également être nettement plus important puisqu'il peut y avoir une acquisition effectuée lors d'un déplacement spatial" et avec une acquisition "en continu". L'objectif de la thèse est donc d'enrichir des plans et des cartes pour une intégration dans un logiciel de Système d'Information Géographique (SIG) mais également de mettre en place une analyse et un suivi de ces objets urbains. En d'autres termes, nous pouvons considérer que l'algorithme proposé doit prendre en entrée des données 3D "non structurées" géoréférencées, et doit détecter et localiser des objets urbains (par exemple des arbres). Notons que cet algorithme pourrait se voir aider dans sa localisation par des données additionnelles comme le cadastre, des vues aériennes, ainsi que des prédictions de présence obtenues par des approches comme celles que nous avons étudiées lors de la thèse CIFRE effectuée par Lionel Pibre, "Localisation d'objets urbains à partir de sources multiples dont des images aériennes, et analyse de leur état, leur évolution temporelle ou leur relation avec leur voisinage ", et débutée en septembre 2015. Un autre des objectifs est de pouvoir avoir une analyse plus fine de la géométrie de l'objet urbain. En résumé, l'algorithme doit retourner un ensemble de polygones localisant et étiquetant dans une carte de référence, des objets urbains, avec en plus une caractérisation et une analyse de la géométrie de ces objets. Les études que nous avons menées au sein du LIRMM sur les objets urbains, nous ont permis de systématiser l'approche de détection/localisation à partir d'images aériennes, et ainsi comparer les diverses approche de segmentation et proposer des méthodologies permettant un début d'automatisation. Les travaux sur la détection de tombes nous ont permis d'obtenir de très bons résultats avec un rappel de 73% pour une précision de 73% pour un objet "tombe" [Pasquet2015]. Les travaux sur les bouches d'égout ont permis via la fusion de deux approches et un nombre restreint d'images d'apprentissage, de localiser dans une image 40% des bouches d'égout pour une précision de 80% [Pasquet2016b]. Les travaux en cours sur la détection d'arbres à partir d'image aériennes provenant des capteurs photométrique, infrarouge, et altimétrique ont aussi confirmé que les approches que nous utilisions étaient au niveau de l'état de l'art [Pibre2017]. Dans ces trois applications, nous avons utilisé des approches de détection/classification basées sur les approches de "Deep Learning" qui ont permis d'obtenir de très bons résultats depuis 4-5 ans dans les compétitions de classification d'images. Le traitement d'images 3D structurées est un sujet qui commence à être exploré [Song2014] car les capteurs RGB-D sont maintenant opérationnels et permettent de faciliter les tâches usuelles en vision. L'information 3D permet en effet de faciliter la reconnaissance des objets et en particulier de mieux gérer les variations de textures, l'illumination, les formes, les points de vue, les occultations, ou le bruit capteur. Ce type de recherche se positionne différemment par rapport à notre proposition puisque nous traiterons de données 3D qui ne seront pas forcément structurées comme des nuages de points. La proposition VoxNet [Maturana2015], qui exploite directement le nuage de points RGB-D et des données LiDAR est plus dans la lignée des recherches que nous souhaitons mettre en place. Pour le moment, l'approche souffre d'un manque de sémantique, et les objets ne sont pas à proprement parler, reconnus comme tel. Cela dit, la piste initiée dans ce papier est intéressante, car le gros volume de données est bien traité par un réseau convolutif. Des approches ont d'ailleurs été proposées dans ce sens en ajoutant par exemple une information de pose [Sedaghat2016]. D'autres approches, plus liées à la détection de paquet de points appartenant à un même objet, sont mises en place dans les voitures autonomes. On pourra également s'inspirer de ce type d'approche [Engelcke2016]. Le sujet de thèse se positionne de manière originale dans son objectif de localisation automatique d'objets urbains bien ciblés (arbre, tombe, bouche d'égout mais aussi poteau électrique ou téléphonique, lampadaire ...) – sujet peu exploré pour la modélisation d'environnement urbain - mais aussi par son cadre impliquant l'utilisation de données 3D non structurées, les Réseaux de Neurones Convolutif, et la fusion avec d'autres données urbaines (plans, relevés des bâtiments). Berger-Levrault pourra bénéficier des solutions proposées durant la thèse dans le cadre de son activité de R&D, et l'équipe ICAR du LIRMM développera sa collaboration sur un sujet scientifique très en pointe et d'un grand intérêt applicatif.

  • Titre traduit

    Detection/ Recognition of Urban Objects from Multi 3D Data sensors taken at ground level, continuously


  • Résumé

    The objective of the thesis is to develop methodologies and algorithms for segmentation / detection / localization / identification / labeling of urban objects using 3D data taken at ground level. These 3D data will be acquired continuously and can be multi-sources (terrestrial Lidar, radar, optical, ...).    There is therefore a real challenge in the processing of these large datasets, but also due to the unstructured nature of the data. The data are, in fact, represented in the form of a cloud of points; so there is no surface information immediately available. In this, the thesis subject is positioned differently from the two previous CIFRE subjects, which considered only data that can be represented in the form of images (colorimetric image, infrared image, elevation image). In the thesis that we propose here, the volume of data can also be considerably greater since there can be an acquisition performed during a spatial displacement and with a "continuous"acquisition.    The objective of the thesis is therefore to enrich plans and maps for integration into a Geographic Information System (GIS) software but also to set up an analysis and a follow-up of these urban objects. In other words, we can consider that the proposed algorithm must take as input georeferenced "unstructured" 3D data, and must detect and locate urban objects (eg trees). Note that this algorithm could be helped in its localization by additional data such as the cadastre, aerial views, as well as predictions of presence obtained by approaches like those we studied during the CIFRE thesis carried out by Lionel Pibre, “Localization of urban objects from multiple sources including aerial images, and analysis of their state, temporal evolution or relationship with their neighborhood ", and started in September 2015. Another objective is to be able to have a finer analysis of the geometry of the urban object. In summary, the algorithm must return a set of polygons locating and labeling in a reference map, urban objects, with in addition a characterization and an analysis of the geometry of these objects.    The studies we carried out within the LIRMM on urban objects, allowed us to systematize the detection / localization approach from aerial images, thus comparing the various approach of segmentation and proposing methodologies allowing a start of automating. The work on the detection of tombs enabled us to obtain very good results with a recall of 73% for a precision of 73% for a “tomb” object [Pasquet2015]. The work on the manhole covers has enabled the fusion of two approaches and a limited number of learning images to locate 40% of the manhole covers in an image for an accuracy of 80% [Pasquet2016b]. Current work on the detection of trees from aerial images from photometric, infrared and altimetric sensors also confirmed that the approaches we used were at the level of the state of the art [Pibre2017].    In all three applications, we used detection / classification approaches based on the "Deep Learning" approaches, which have produced very good results for 4-5 years in image classification competitions.    The processing of structured 3D images is a subject that is beginning to be explored [Song2014] because the RGB-D sensors are now operational and facilitate the usual tasks in vision. Indeed, 3D information facilitates the recognition of objects and, in particular, better manage variations in textures, illumination, shapes, viewpoints, occultations, or sensor noise. This type of research is positioned differently in relation to our proposal since we will deal with 3D data that will not necessarily be structured as point clouds.    The VoxNet [Maturana2015] proposal, which directly exploits the RGB-D point cloud and LiDAR data, is more in line with the research we want to put in place. For the moment, the approach suffers from a lack of semantics, and the objects are not strictly speaking, recognized as such. That said, the track initiated in this paper is interesting, because the large volume of data is well processed by a convolutional network. Approaches have been proposed in this direction by adding for example a laying information [Sedaghat2016]. Other approaches, more related to the detection of packets of points belonging to the same object, are implemented in cars autonomous. This type of approach can also be used [Engelcke2016].    The subject of the thesis is positioned in an original way in its objective of automatic localization of well-targeted urban objects (tree, tomb, sewer mouth but also electrical or telephone pole, streetlight ...) - little explored for modeling d but also by its framework involving the use of unstructured 3D data, the Convolutive Neural Networks, and the fusion with other urban data (plans, building surveys). Berger-Levrault will be able to benefit from the solutions proposed during the thesis as part of its R & D activity, and the ICAR team of LIRMM will develop its collaboration on a scientific subject that is very advanced and of great application interest.