Thèse soutenue

Réseaux de neurones profonds pour la compréhension de scène et la planification de trajectoire pour les véhicules autonomes

FR  |  
EN
Auteur / Autrice : Abdelhak Loukkal
Direction : Yves Grandvalet
Type : Thèse de doctorat
Discipline(s) : Informatique : Unité de recherche Heudyasic (UMR-7253)
Date : Soutenance le 05/05/2021
Etablissement(s) : Compiègne
Ecole(s) doctorale(s) : École doctorale 71, Sciences pour l'ingénieur (Compiègne)
Partenaire(s) de recherche : Laboratoire : Heuristique et Diagnostic des Systèmes Complexes [Compiègne] / Heudiasyc

Résumé

FR  |  
EN

Au cours de cette thèse, des approches de perception pour les véhicules autonomes ont été développées en utilisant des réseaux de neurones convolutifs profonds appliqués à des images de caméra monoculaire et à des images rastérisées de cartes haute définition (HD-map). Nous nous sommes concentrés sur des solutions utilisant uniquement la caméra au lieu de tirer parti de la fusion de capteurs avec des capteurs de distance, car les caméras sont les capteurs les plus rentables et les plus discrets. L'objectif était également de montrer que les approches basées sur des caméras peuvent fonctionner au même niveau que les solutions basées sur LiDAR sur certaines tâches de vision 31). Des données du monde réel ont été utilisées pour l'entraînement et l'évaluation des approches développées, mais la simulation a également été exploitée lorsque les données annotées faisaient défaut ou pour des raisons de sécurité lors de l'évaluation des capacités de conduite. Les caméras fournissent des informations visuelles dans un espace projectif où l'effet de perspective ne préserve pas l'homogénéité des distances. Les tâches de compréhension de scène telles que la segmentation sémantique sont ensuite souvent effectuées dans l'espace de vue de la caméra, puis projetées en 3D à l'aide d'un capteur de profondeur précis tel qu'un LiDAR. Avoir cette compréhension de scène dans l'espace 31) est utile car les véhicules évoluent dans le monde 3D et les algorithmes de navigation raisonnent dans cet espace. Notre objectif était alors d'exploiter les connaissances géométriques sur les paramètres de la caméra et sa position dans le monde 3D pour développer une approche qui perm la compréhension de la scène dans l'espace 31) en utilisant uniquement une image monoculaire comme entrée. Les réseaux de neurones se sont également avérés utiles pour plus que la simple perception et sont de plus en plus utilisés pour les tâches de navigation et de planification qui s'appuient sur les sorties de perception. Etre capable de produire des informations de compréhension de scène 31) à partir d'une caméra monoculaire nous a également permis d'explorer la possibilité d'avoir un réseau neuronal holistique de bout en bout qui prend une image de caméra en entrée, extrait des informations sémantiques intermédiaires dans l'espace 3D, puis planifie la trajectoire du véhicule.