Modélisation 4D rapide et précise de larges séquences multi-caméras

par Vincent Leroy

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Edmond Boyer et de Jean-Sébastien Franco.

Le président du jury était Florence Bertails.

Le jury était composé de Edmond Boyer, Jean-Sébastien Franco, George Vogiatzis, Renaud Keriven.

Les rapporteurs étaient George Vogiatzis, Yasutaka Furukawa.


  • Résumé

    Les récentes avancées technologiques dans le domaine de l'acquisition et du calcul ont permis une croissance rapide d'une branche de production de média: la capture volumétrique. En particulier, la montée en puissance de la réalité virtuelle et augmentée engendre un besoin accru de contenus adaptés à ces nouveaux médias, notamment des contenus 3D obtenus à partir de scènes réelles. En effet, la possibilité d'enregistrer une performance et de la rejouer sous n'importe quel point de vue permet de créer une expérience dans un environnement réaliste et immersif pour l'utilisateur.Ce manuscrit présente le problème de la reconstruction de forme 4D à partir d'images RVB multi-vues, qui est une des stratégies permettant de créer un tel contenu. Nous nous intéressons particulièrement à la capture de performances dynamiques en situations réelles, contenant des détails de surface complexes. Les défis typiques de ces situations de capture incluent une plus faible densité d'observation des objets d'intérêt en raison des champs de vision plus larges nécessaires pour capturer le mouvement; des occultations et auto-occultations de plusieurs sujets en interaction; un manque de texture typique de l'apparence et des vêtements du sujet réel; ou du flou de bougé avec des sujets en mouvement rapide tels que des scènes d'action sportive. Un aspect essentiel et qui peut encore être amélioré à cet égard est la fidélité et la qualité des formes récupérées, notre objectif dans ce travail.Nous pr'esentons un pipeline complet de reconstruction adapt'e `a ce sc'enario, auquel nous avons contribu'e de nombreuses mani`eres. En premier lieu, on peut noter que les m'ethodes bas'ees sur la technologie st'er'eo multi-vues (MVS) ont atteint un bon niveau de qualit'e avec des pipelines qui comprennent g'en'eralement l'extraction de descripteurs caract'eristiques, une 'etape de mise en correspondance et l'inf'erence de forme 3D. Mais il est surtout int'eressant de noter que des travaux tr`es r'ecents ont r'eexamin'e le probl`eme de st'er'eo et st'er'eo multi-vues en introduisant des fonctions de similarit'e automatiquement inf'er'ees `a l'aide d'apprentissage profond. La principale promesse de ce type de m'ethode 'etant d'inclure un meilleur a-priori, appris sur les donn'ees r'eelles. Dans une premi`ere contribution, nous examinons dans quelle mesure ces am'eliorations sont transf'er'ees au cas plus g'en'eral et complexe de la capture de performances dynamiques, o`u diverses difficult'es suppl'ementaires se pr'esentent. Nous expliquons ensuite comment utiliser cette strat'egie d'apprentissage pour construire de mani`ere robuste une repr'esentation de forme `a chaque instant, `a partir desquelles une s'equence de mod`eles 3D peut ^etre extraite. Une fois que nous obtenons cette repr'esentation `a chaque instant de la s'equence captur'ee, nous expliquons comment il est possible d'exploiter la redondance temporelle pour affiner la pr'ecision des mod`eles en propageant les d'etails des formes observ'ees aux instants pr'ec'edents et suivants. En plus d'^etre b'en'efique pour de nombreux sc'enarios dynamiques `a vues multiples, cela permet 'egalement de capturer des sc`enes plus grandes o`u une pr'ecision accrue peut compenser la r'esolution spatiale r'eduite. Le code source des diff'erentes m'ethodes de reconstruction est rendu public sous forme de logiciel open source.

  • Titre traduit

    Fast and Accurate 4D Modeling of Large Multi-Camera Sequences


  • Résumé

    Recent advances in acquisition and processing technologies lead to the fast growth of a major branch in media production: volumetric video. In particular, the rise of virtual and augmented reality fuels an increased need for content suitable to these new media including 3D contents obtained from real scenes, as the ability to record a live performance and replay it from any given point of view allows the user to experience a realistic and immersive environment.This manuscript aims at presenting the problem of 4D shape reconstruction from multi-view RGB images, which is one way to create such content. We especially target real life performance capture, containing complex surface details. Typical challenges for these capture situations include smaller visual projection areas of objects of interest due to wider necessary fields of view for capturing motion; occlusion and self-occlusion of several subjects interacting together; lack of texture content typical of real-life subject appearance and clothing; or motion blur with fast moving subjects such as sport action scenes. An essential and still improvable aspect in this matter is the fidelity and quality of the recovered shapes, our goal in this work.We present a full reconstruction pipeline suited for this scenario, to which we contributed in many aspects. First, Multi-view stereo (MVS) based methods have attained a good level of quality with pipelines that typically comprise feature extraction, matching stages and 3D shape inference. Interestingly, very recent works have re-examined stereo and MVS by introducing features and similarity functions automatically inferred using deep learning, the main promise of this type of method being to include better data-driven priors. We examine in a first contribution whether these improvements transfer to the more general and complex case of live performance capture, where a diverse set of additional difficulties arise. We then explain how to use this learning strategy to robustly build a shape representation, from which can be extracted a 3D model. Once we obtain this representation at every frame of the captured sequence, we discuss how to exploit temporal redundancy for precision refinement by propagating shape details through adjacent frames. In addition to being beneficial to many dynamic multi-view scenarios this also enables larger scenes where such increased precision can compensate for the reduced spatial resolution per image frame. The source code implementing the different reconstruction methods is released to the public as open source software.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.