Thèse soutenue

Analyse et fusion d’images multimodales pour la navigation autonome

FR  |  
EN
Auteur / Autrice : Yifei Zhang
Direction : Fabrice MériaudeauDro Désiré SidibéOlivier Morel
Type : Thèse de doctorat
Discipline(s) : Instrumentation et informatique de l'image
Date : Soutenance le 19/01/2021
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Imagerie et Vision Artificielle (ImVia) (Dijon) - Imagerie et Vision Artificielle [Dijon] / ImViA
Etablissement de préparation : Université de Bourgogne (1970-....)
Jury : Président / Présidente : Christophe Ducottet
Rapporteurs / Rapporteuses : Vincent Fremont, Samia Ainouz

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Une analyse sémantique robuste des scènes extérieures est difficile en raison des changements environnementaux causés par l'éclairage et les conditions météorologiques variables, ainsi que par la variation des types d'objets rencontrés. Cette thèse étudie le problème de la segmentation sémantique à l'aide de l'apprentissage profond et avec des d'images de différentes modalités. Les images capturées à partir de diverses modalités d'acquisition fournissent des informations complémentaires pour une compréhension complète de la scène. Nous proposons des solutions efficaces pour la segmentation supervisée d'images multimodales, de même que pour la segmentation semi-supervisée de scènes routières en extérieur. Concernant le premier cas, nous avons proposé un réseau de fusion multi-niveaux pour intégrer des images couleur et polarimétriques. Une méthode de fusion centrale a également été introduite pour apprendre de manière adaptative les représentations conjointes des caractéristiques spécifiques aux modalités et réduire l'incertitude du modèle via un post-traitement statistique. Dans le cas de la segmentation semi-supervisée, nous avons d'abord proposé une nouvelle méthode de segmentation basée sur un réseau prototypique, qui utilise l'amélioration des fonctionnalités multi-échelles et un mécanisme d'attention. Ensuite, nous avons étendu les algorithmes centrés sur les images RGB, pour tirer parti des informations de profondeur supplémentaires fournies par les caméras RGBD. Des évaluations empiriques complètes sur différentes bases de données de référence montrent que les algorithmes proposés atteignent des performances supérieures en termes de précision et démontrent le bénéfice de l'emploi de modalités complémentaires pour l'analyse de scènes extérieures dans le cadre de la navigation autonome.