Thèse soutenue

Estimation de la structure 3D d'un environnement urbain à partir d'un flux vidéo

FR  |  
EN
Auteur / Autrice : Mohamad Motasem Nawaf
Direction : Alain Trémeau
Type : Thèse de doctorat
Discipline(s) : Image, vision, signal
Date : Soutenance le 05/12/2014
Etablissement(s) : Saint-Etienne
Ecole(s) doctorale(s) : École doctorale Sciences Ingénierie Santé (Saint-Etienne)
Partenaire(s) de recherche : Laboratoire : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....)
Jury : Président / Présidente : Christine Solnon
Examinateurs / Examinatrices : Alain Trémeau, Dro Désiré Sidibé, Joaquim Salvi, Paolo Favaro

Résumé

FR  |  
EN

Dans le domaine de la vision par ordinateur, l’estimation de la structure d’une scène 3D à partir d’images 2D constitue un problème fondamental. Parmi les applications concernées par cette problématique, nous nous sommes intéressés dans le cadre de cette thèse à la modélisation d’un environnement urbain. Nous nous sommes intéressés à la reconstruction de scènes 3D à partir d’images monoculaires générées par un véhicule en mouvement. Ici, plusieurs défis se posent à travers les différentes étapes de la chaine de traitement inhérente à la reconstruction 3D. L’un de ces défis vient du fait de l’absence de zones suffisamment texturées dans certaines scènes urbaines, d’où une reconstruction 3D (un nuage de points 3D) trop éparse. De plus, du fait du mouvement du véhicule, d’une image à l’autre il n’y a pas toujours un recouvrement suffisant entre différentes vues consécutives d’une même scène. Dans ce contexte, et ce afin de lever les verrous ci-dessus mentionnés, nous proposons d’estimer, de reconstruire, la structure d’une scène 3D par morceaux en se basant sur une hypothèse de planéité. Nous proposons plusieurs améliorations à la chaine de traitement associée à la reconstruction 3D. D’abord, afin de structurer, de représenter, la scène sous la forme d’entités planes nous proposons une nouvelle méthode de reconstruction 3D, basée sur le regroupement de pixels similaires (superpixel segmentation), qui à travers une représentation multi-échelle pondérée fusionne les informations de couleur et de mouvement. Cette méthode est basée sur l’estimation de la probabilité de discontinuités locales aux frontières des régions calculées à partir du gradient (gradientbased boundary probability estimation). Afin de prendre en compte l’incertitude liée à l’estimation du mouvement, une pondération par morceaux est appliquée à chaque pixel en fonction de cette incertitude. Cette méthode génère des regroupements de pixels (superpixels) non contraints en termes de taille et de forme. Pour certaines applications, telle que la reconstruction 3D à partir d’une séquence d’images, des contraintes de taille sont nécessaires. Nous avons donc proposé une méthode qui intègre à l’algorithme SLIC (Simple Linear Iterative Clustering) l’information de mouvement. L’objectif étant d’obtenir une reconstruction 3D plus dense qui estime mieux la structure de la scène. Pour atteindre cet objectif, nous avons aussi introduit une nouvelle distance qui, en complément de l’information de mouvement et de données images, prend en compte la densité du nuage de points. Afin d’augmenter la densité du nuage de points utilisé pour reconstruire la structure de la scène sous la forme de surfaces planes, nous proposons une nouvelle approche qui mixte plusieurs méthodes d’appariement et une méthode de flot optique dense. Cette méthode est basée sur un système de pondération qui attribue un poids pré-calculé par apprentissage à chaque point reconstruit. L’objectif est de contrôler l’impact de ce système de pondération, autrement dit la qualité de la reconstruction, en fonction de la précision de la méthode d’appariement utilisée. Pour atteindre cet objectif, nous avons appliqué un processus des moindres carrés pondérés aux données reconstruites pondérées par les calculés par apprentissage, qui en complément de la segmentation par morceaux de la séquence d’images, permet une meilleure reconstruction de la structure de la scène sous la forme de surfaces planes. Nous avons également proposé un processus de gestion des discontinuités locales aux frontières de régions voisines dues à des occlusions (occlusion boundaries) qui favorise la coplanarité et la connectivité des régions connexes. L’ensemble des modèles proposés permet de générer une reconstruction 3D dense représentative à la réalité de la scène. La pertinence des modèles proposés a été étudiée et comparée à l’état de l’art. Plusieurs expérimentations ont été réalisées afin de démontrer, d’étayer, la validité de notre approche