Thèse soutenue

Fusion de capteurs par réseaux de neurones profonds pour la détection d'objets 3D dans l'environnement des véhicules autonomes

FR  |  
EN
Auteur / Autrice : Nguyen Anh Minh Mai
Direction : Denis KouaméLouahdi Khoudour
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 26/01/2023
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury : Président / Présidente : Frédéric Lerasle
Examinateurs / Examinatrices : Louahdi Khoudour, Samia Bouchafa
Rapporteurs / Rapporteuses : Fadi Dornaika, Denis Hamad

Résumé

FR  |  
EN

L'objectif principal de cette thèse est de détecter des objets 3D dans des scènes routières en présence de conditions climatiques défavorables comme le brouillard, avec un nombre d'objets multiple. Un écart de performance entre les méthodes basées sur le LiDAR et celles sur les caméras ou la fusion est observé. Les méthodes basées sur la fusion vidéo+Lidar doivent gérer simultanément plusieurs sources de données. Nous examinons en détail les techniques avancées de la littérature sur la détection d'objets 3D pour les véhicules autonomes. Nous proposons ensuite une nouvelle approche basée sur la fusion pour la détection de ces objets. Un premier problème est de savoir comment fusionner efficacement des images et des données sous forme de nuages de points dans une architecture unique qui sera capable d'apprendre des représentations de haut niveau à partir d'un réseau de neurones profond et d'améliorer les capacités de détection. Une deuxième question est de savoir comment les conditions météorologiques défavorables affectent les capteurs et les performances du modèle de détection, et quelles données doivent être utilisées dans le modèle en fonction de ces conditions défavorables ? Cela a abouti à l'introduction d'une nouvelle technique de détection d'objets 3D appelée SLS-Fusion (Sparse LiDAR and Stereo Fusion), qui utilise une caméra stéréo et un LiDAR pour prédire une carte de profondeurs. Cette dernière est ensuite convertie en pseudo nuage de points à des fins de traitements. Afin d'obtenir des boîtes englobantes 3D, le pseudo nuage de points peut être utilisé avec n'importe quelle méthode actuelle de détection d'objets basée sur le LiDAR. Notre architecture peut améliorer à la fois l'estimation de la profondeur et la précision de la détection d'objets 3D. Les résultats expérimentaux sur des ensembles de données publiques (KITTI) montrent que l'approche proposée surpasse l'état de l'art actuel. La détection d'objets 3D par temps de brouillard a aussi été traité. Un jeu de données artificiel a été crée (fogification de la base KITTI) avec des distances de visibilité variables (Base Multifog KITTI est la résultante allant de 10m à 80m de visibilité). Comme pour KITTI, 7481 images d'apprentissage et 7518 images de test ont été utilisées. Les meilleurs résultats obtenus sont ceux qui utilisent des données d'apprentissage avec du brouillard quand on cherche à détecter des obstacles en présence de brouillard. Nous avons également analysé d'autres aspects : l'apport des deux types de capteurs aussi bien par temps favorable que par temps de brouillard, lorsqu'ils sont fusionnés et lorsqu'ils sont utilisés séparément. Le résultat principal est que l'utilisation du LiDAR par temps de brouillard conduit à une performance de détection d'objets assez mauvaise (surtout avec un LiDAR 4 nappes). Les résultats basés sur la caméra stéréo sont prometteurs par temps de brouillard, quel que soit le niveau de visibilité. Dans une étude d'ablation, la contribution d'une caméra stéréo et de différentes versions de LiDAR (4 à 64 nappes) aux performances du modèle SLS-Fusion dans la détection d'obstacles 3D est analysée. Les meilleurs résultats obtenus sont ceux issus de la fusion vidéo+Lidar. Les résultats quantitatifs ont montré que les performances de détection chutent raisonnablement lorsqu'on diminue le nombre de nappes des Lidar dans le processus de fusion avec la vidéo. Ces résultats ouvrent de nouvelles directions de recherche pour la détection d'objets 3D pour la conduite autonome en combinant des images de caméra stéréo avec des nuages de points LiDAR. De plus, nous générons et introduisons dans cette thèse le jeu de données Multifog KITTI, une nouvelle base de données sur les conditions de brouillard qui contient à la fois des images et des nuages de points. Cette base pourra être utile à la communauté des chercheurs du domaine à des fins de comparaison.