Apprentissage des espaces de forme du modèle 3d humain habillé en mouvement

par Jinlong Yang

Thèse de doctorat en Informatique

Sous la direction de Franck Hétroy et de Stefanie Wuhrer.

Le président du jury était Maks Ovsjanikov.

Le jury était composé de Jean-Sébastien Franco.

Les rapporteurs étaient Gerard Pons Moll, Thorsten Thormählen.


  • Résumé

    Les représentations virtuelles 3D de l'humain habillé apparaissent dans les films, les jeux vidéo, et depuis peu, dans les contenus VR.Ces représentations sont souvent générées par l'acquisition 3D ou par la synthétisation des séquences avec les simulations basées sur la physique ou d'autres techniques d'infographie telles que le riggin et skinning. Ces méthodes traditionnelles nécessitent généralement une intervention manuelle fastidieuse, elles génèrent à faible vitesse des contenus de mauvaise qualité, en raison de la complexité du mouvement des vêtements. Afin de résoudre ce problème, nous proposons dans ce travail une approche d'apprentissage pilotée par les données, ce qui peut prendre à la fois des captures réelles et des séquences simulées comme données d'apprentissage, et produire sans les avoir vu des formes 3D de l'humain habillé ayant différentes formes et mouvements corporels, dans les vêtements de différentes adaptations et de matériaux variés.En raison du manque de la cohérence temporelle et des informations sémantiques, il est difficile d'utiliser directement les captures brutes dans l'analyse et l'apprentissage. Par conséquent, nous proposons d'abord une méthode automatique pour extraire le corps humain sous des vêtements à partir de séquences 3D non structurées. Il est réalisé en exploitant un modèle de corps humain statistique et en optimisant les paramètres du modèle, de sorte que la surface du corps reste toujours à l'intérieur de la surface vêtue observée, et aussi près que possible de celle-ci. Nous montrons que notre méthode peut atteindre un résultat similaire ou meilleur que d'autres méthodes de pointe et na pas besoin de l'intervention manuelle.Après avoir extrait le corps humain sous les vêtements, nous proposons une méthode pour enregistrer la surface du vêtement à l'aide de patchs isométriques. Certains points anatomiques du modèle du corps humain sont d'abord projetés sur la surface du vêtement dans chaque cadre de la séquence. Ces points projetés donnent la correspondance de départ entre les surfaces de vêtement sur une séquence. Nous développons isométriquement des plaques autour de ces points afin de propager les correspondances sur la surface du vêtement. Par la suite, ces correspondances denses sont utilisées pour guider l'enregistrement non rigide afin que nous puissions déformer le maillage du modèle pour obtenir la cohérence temporelle des captures brutes.Sur la base des captures traitées et des données simulées, nous proposons enfin une analyse complète des statistiques de la couche de vêtements avec un modèle simple à deux composants. Il est basé, d'une part, sur la réduction des sous-espaces PCA des informations de couche, et de l'autre, sur un modèle de régression de paramètres génériques utilisant des réseaux neuronaux, conu pour régresser de tous les paramètres sémantiques dont la variation est observée dans l'ensemble des données d'entraînement. Nous montrons que notre modèle permet non seulement de reproduire des travaux précédents sur le ré-ciblage, mais aussi de généraliser les capacités de synthèse de données à d'autres paramètres sémantiques tels que les mouvements corporels, l'adaptation des vêtements et les matériaux physiques, ce qui ouvre la voie pour de nombreuses applications des créations et des augmentations axées sur les données.

  • Titre traduit

    Learning shape spaces of dressed 3D human models in motion


  • Résumé

    The 3D virtual representations of dressed humans appear in movies, video games and since recently, VR contents. To generate these representations, we usually perform 3D acquisitions or synthesize sequences with physics-based simulation or other computer graphics techniques such as rigging and skinning. These traditional methods generally require tedious manual intervention and generate new contents with low speed or low quality, due to the complexity of clothing motion. To deal with this problem, we propose in this work, a data-driven learning approach, which can take both captures and simulated sequences as learning data, and output unseen 3D shapes of dressed human with different body shape, body motion, clothing fit and clothing materials.Due to the lack of temporal coherence and semantic information, raw captures can hardly be used directly for analysis and learning. Therefore, we first propose an automatic method to extract the human body under clothing from unstructured 3D sequences. It is achieved by exploiting a statistical human body model and optimizing the model parameters so that the body surface stays always within while as close as possible to the observed clothed surface throughout the sequence. We show that our method can achieve similar or better result compared with other state-of-the-art methods, and does not need any manual intervention.After extracting the human body under clothing, we propose a method to register the clothing surface with the help of isometric patches. Some anatomical points on the human body model are first projected to the clothing surface in each frame of the sequence. Those projected points give the starting correspondence between clothing surfaces across a sequence. We isometrically grow patches around these points in order to propagate the correspondences on the clothing surface. Subsequently, those dense correspondences are used to guide non-rigid registration so that we can deform the template mesh to obtain temporal coherence of the raw captures.Based on processed captures and simulated data, we finally propose a comprehensive analysis of the statistics of the clothing layer with a simple two-component model. It is based on PCA subspace reduction of the layer information on one hand, and a generic parameter regression model using neural networks on the other hand, designed to regress from any semantic parameter whose variation is observed in a training set, to the layer parameterization space. We show that our model not only allows to reproduce previous re-targeting works, but generalizes the data synthesizing capabilities to other semantic parameters such as body motion, clothing fit, and physical material parameters, paving the way for many kinds of data-driven creation and augmentation applications.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.