Thèse soutenue

Modélisation 4D rapide et précise de larges séquences multi-caméras

FR  |  
EN
Auteur / Autrice : Vincent Leroy
Direction : Edmond BoyerJean-Sébastien Franco
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 17/10/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
ANR ACHMOV : Agence nationale de la recherche (France)
Jury : Président / Présidente : Florence Bertails
Examinateurs / Examinatrices : Edmond Boyer, Jean-Sébastien Franco, Renaud Keriven
Rapporteurs / Rapporteuses : George Vogiatzis, Yasutaka Furukawa

Mots clés

FR  |  
EN

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

Les récentes avancées technologiques dans le domaine de l'acquisition et du calcul ont permis une croissance rapide d'une branche de production de média: la capture volumétrique. En particulier, la montée en puissance de la réalité virtuelle et augmentée engendre un besoin accru de contenus adaptés à ces nouveaux médias, notamment des contenus 3D obtenus à partir de scènes réelles. En effet, la possibilité d'enregistrer une performance et de la rejouer sous n'importe quel point de vue permet de créer une expérience dans un environnement réaliste et immersif pour l'utilisateur.Ce manuscrit présente le problème de la reconstruction de forme 4D à partir d'images RVB multi-vues, qui est une des stratégies permettant de créer un tel contenu. Nous nous intéressons particulièrement à la capture de performances dynamiques en situations réelles, contenant des détails de surface complexes. Les défis typiques de ces situations de capture incluent une plus faible densité d'observation des objets d'intérêt en raison des champs de vision plus larges nécessaires pour capturer le mouvement; des occultations et auto-occultations de plusieurs sujets en interaction; un manque de texture typique de l'apparence et des vêtements du sujet réel; ou du flou de bougé avec des sujets en mouvement rapide tels que des scènes d'action sportive. Un aspect essentiel et qui peut encore être amélioré à cet égard est la fidélité et la qualité des formes récupérées, notre objectif dans ce travail.Nous pr'esentons un pipeline complet de reconstruction adapt'e `a ce sc'enario, auquel nous avons contribu'e de nombreuses mani`eres. En premier lieu, on peut noter que les m'ethodes bas'ees sur la technologie st'er'eo multi-vues (MVS) ont atteint un bon niveau de qualit'e avec des pipelines qui comprennent g'en'eralement l'extraction de descripteurs caract'eristiques, une 'etape de mise en correspondance et l'inf'erence de forme 3D. Mais il est surtout int'eressant de noter que des travaux tr`es r'ecents ont r'eexamin'e le probl`eme de st'er'eo et st'er'eo multi-vues en introduisant des fonctions de similarit'e automatiquement inf'er'ees `a l'aide d'apprentissage profond. La principale promesse de ce type de m'ethode 'etant d'inclure un meilleur a-priori, appris sur les donn'ees r'eelles. Dans une premi`ere contribution, nous examinons dans quelle mesure ces am'eliorations sont transf'er'ees au cas plus g'en'eral et complexe de la capture de performances dynamiques, o`u diverses difficult'es suppl'ementaires se pr'esentent. Nous expliquons ensuite comment utiliser cette strat'egie d'apprentissage pour construire de mani`ere robuste une repr'esentation de forme `a chaque instant, `a partir desquelles une s'equence de mod`eles 3D peut ^etre extraite. Une fois que nous obtenons cette repr'esentation `a chaque instant de la s'equence captur'ee, nous expliquons comment il est possible d'exploiter la redondance temporelle pour affiner la pr'ecision des mod`eles en propageant les d'etails des formes observ'ees aux instants pr'ec'edents et suivants. En plus d'^etre b'en'efique pour de nombreux sc'enarios dynamiques `a vues multiples, cela permet 'egalement de capturer des sc`enes plus grandes o`u une pr'ecision accrue peut compenser la r'esolution spatiale r'eduite. Le code source des diff'erentes m'ethodes de reconstruction est rendu public sous forme de logiciel open source.