Thèse soutenue

Méthodes d'apprentissage profond pour systèmes de vision 3D

FR  |  
EN
Auteur / Autrice : Rémy Leroy
Direction : Frédéric ChampagnatBertrand Le SauxPauline Trouvé
Type : Thèse de doctorat
Discipline(s) : Sciences du traitement du signal et des images
Date : Soutenance le 10/03/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Office national d'études et recherches aérospatiales. Département Traitement de l’Information et Systèmes (DTIS)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Loïc Denis
Examinateurs / Examinatrices : Thierry Chateau, Bernadette Dorizzi, Renaud Marlet
Rapporteurs / Rapporteuses : Loïc Denis, Thierry Chateau

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans cette thèse, nous étudions l'apport de l'apprentissage profond pour les systèmes de vision 3D monoculaire, de l'acquisition de l'image au traitement. Nous proposons d'abord Pix2Point, une méthode d'estimation de nuage de points 3D à partir d'une seule image en utilisant des informations de contexte, et entraînée avec une fonction de coût de transport optimal. Pix2Point réalise une meilleure couverture des scènes lorsqu'il est entraîné sur des nuages de points lacunaires que les méthodes d'estimation de profondeur monoculaire, entraînées sur des cartes de profondeur lacunaires. Deuxièmement, pour exploiter les indices de profondeur provenant du capteur, nous proposons une méthode de régression de profondeur à partir d'un patch défocalisé. Cette méthode surpasse la classification et la régression directe, sur données simulées et réelles. Enfin, nous abordons la conception d'un système de vision RVB-D, composé d'un capteur dont l'image est traitée par notre réseau de régression de profondeur basée sur la défocalisation et par un réseau de défloutage d'image. Nous proposons un cadre d'optimisation multi-tâches, conjointement aux paramètres des capteurs et des réseaux, et nous l'appliquons à l'optimisation de la mise au point d'une lentille chromatique. Le paysage d'optimisation présente plusieurs optima liés à la tâche de régression en profondeur, tandis que la tâche de défloutage semble moins sensible au paramètre de mise au point. En résumé, cette thèse propose plusieurs contributions exploitant les réseaux de neurones pour l'estimation 3D monoculaire et ouvre la voie d'une conception conjointe de systèmes RVB-D.