Estimation temps réel de la profondeur d'une scène dynamique par réseaux de neurones convolutifs

par David Urban

Projet de thèse en Signal image parole telecoms

Sous la direction de Alice Caplier.

Thèses en préparation à Grenoble Alpes , dans le cadre de Electronique, Electrotechnique, Automatique, Traitement du Signal (EEATS) , en partenariat avec Grenoble Images Parole Signal Automatique (laboratoire) et de Architecture, Géométrie, Perception Images Gestes (AGPIG) (equipe de recherche) depuis le 01-05-2018 .


  • Résumé

    L'objectif de la thèse est de développer de nouveaux algorithmes d'estimation de cartes de profondeur à partir d'une vidéo monoculaire (de type vidéo surveillance) donc sans avoir besoin d'un deuxième objectif ou d'un capteur externe spécifique. Les travaux les plus récents et de fait les plus performants dans le domaine se sont tournés vers l'apprentissage profond (deep learning) et les réseaux convolutionnels (CNN). Nous envisageons de créer un système CNN qui utiliserait des indices spatio-temporels en vue d'obtenir conjointement la profondeur, le flux optique et la segmentation sur un flux vidéo. Entrainer un réseau de neurones à réaliser plusieurs tâches lui permet de choisir les éléments les plus pertinents des images à extraire pour chaque tache proposée. Cette thèse a pour but d'aboutir à une solution robuste d'estimation de la profondeur sur des systèmes d'analyse vidéo embarqués développés par la société IKOS (applications smartglass, caméras de surveillance).

  • Titre traduit

    Real time depth estimation of a dynamic scene with convolutionnal neural networks


  • Résumé

    The aim of the thesis is to develop new algorithms for estimating depth maps from a monocular video (video surveillance type) without the need for a second objective or a specific external sensor. The most recent and in fact the most successful works in the field have turned to deep learning and convolutional networks (CNN). We plan to create a CNN system that would use spatio-temporal clues to jointly obtain depth, optical flow, and segmentation on a video stream. Training a neural network to perform multiple tasks allows it to choose the most relevant elements of the images to extract for each task proposed. This thesis aims to achieve a robust solution for depth estimation on embedded video analysis systems developed by IKOS company (smartglass applications, surveillance cameras).