Towards comfortable virtual reality viewing of virtual environments created from photographs of the real world

par Grégoire Dupont de Dinechin

Thèse de doctorat en Informatique temps réel, robotique, automatique

Sous la direction de Alexis Paljic.

Soutenue le 18-12-2020

à l'Université Paris sciences et lettres , dans le cadre de Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique , en partenariat avec Centre de robotique (Paris) (laboratoire) et de École nationale supérieure des mines (Paris) (établissement de préparation de la thèse) .

Le président du jury était Anatole Lécuyer.

Le jury était composé de Alexis Paljic, Diego Gutierrez, Jean-Philippe Farrugia, Selma Rizvić.

Les rapporteurs étaient Anatole Lécuyer, Anthony Steed.

  • Titre traduit

    Vers l'observation confortable, en réalité virtuelle, d'environnements virtuels créés à partir de photos du monde réel


  • Résumé

    La reconstitution en réalité virtuelle de lieux, personnes, et objets réels ouvre la voie à de nombreux usages, tels que préserver et promouvoir des sites culturels, générer des avatars photoréalistes pour se retrouver virtuellement avec famille et amis à distance, ou encore recréer des lieux ou situations spécifiques à des fins thérapeutiques ou de formation. Tout cela s'appuie sur notre capacité à transformer des images du monde réel (photos et vidéos) en environnements 360° immersifs et objets 3D interactifs. Cependant, ces environnements virtuels à base d'images demeurent souvent imparfaits, et peuvent ainsi rendre le visionnage en réalité virtuelle inconfortable pour les utilisateurs. En particulier, il est difficile de reconstituer avec précision la géométrie d'une scène réelle, et souvent de nombreuses approximations sont ainsi faites qui peuvent être source d'inconfort lors de l'observation ou du déplacement. De même, il est difficile de restituer fidèlement l'aspect visuel de la scène : les méthodes classiques ne peuvent ainsi restituer certains effets visuels complexes tels que transparence et réflexions spéculaires, tandis que les algorithmes de rendu plus spécialisés ont tendance à générer des artefacts visuels et peuvent être source de latence. Par ailleurs, ces problèmes deviennent d'autant plus complexes lorsqu'il s'agit de reconstituer des personnes, l'oeil humain étant très sensible aux défauts dans l'apparence ou le comportement de personnages virtuels. Par conséquent, l'objectif de cette thèse est d'étudier les méthodes permettant de rendre les utilisateurs plus confortables lors du visionnage immersif de reconstitutions digitales du monde réel, par l'amélioration et le développement de nouvelles méthodes de création d'environnements virtuels à partir de photos. Nous démontrons et évaluons ainsi des solutions permettant (1) de fournir une meilleure parallaxe de mouvement lors du visionnage d'images 360°, par le biais d'une interface immersive pour l'estimation de cartes de profondeur, (2) de générer automatiquement des agents virtuels 3D capables d'interaction à partir de vidéos 360°, en combinant des modèles pré-entrainés d'apprentissage profond, et (3) de restituer des effets visuels de façon photoréaliste en réalité virtuelle, par le développement d'outils que nous appliquons ensuite pour recréer virtuellement la collection d'un musée de minéralogie. Nous évaluons chaque approche par le biais d'études utilisateur, et rendons notre code accessible sous forme d'outils open source.


  • Résumé

    There are many applications to capturing and digitally recreating real-world people and places for virtual reality (VR), such as preserving and promoting cultural heritage sites, placing users face-to-face with faraway family and friends, and creating photorealistic replicas of specific locations for therapy and training. This is typically done by transforming sets of input images, i.e. photographs and videos, into immersive 360° scenes and interactive 3D objects. However, such image-based virtual environments are often flawed such that they fail to provide users with a comfortable viewing experience. In particular, accurately recovering the scene's 3D geometry is a difficult task, causing many existing approaches to make approximations that are likely to cause discomfort, e.g. as the scene appears distorted or seems to move with the viewer during head motion. In the same way, existing solutions most often fail to accurately render the scene's visual appearance in a comfortable fashion. Standard 3D reconstruction pipelines thus commonly average out captured view-dependent effects such as specular reflections, whereas complex image-based rendering algorithms often fail to achieve VR-compatible framerates, and are likely to cause distracting visual artifacts outside of a small range of head motion. Finally, further complications arise when the goal is to virtually recreate people, as inaccuracies in the appearance of the displayed 3D characters or unconvincing responsive behavior may be additional sources of unease. Therefore, in this thesis, we investigate the extent to which users can be made more comfortable when viewing digital replicas of the real world in VR, by enhancing, combining, and designing new solutions for creating virtual environments from input sets of photographs. We thus demonstrate and evaluate solutions for (1) providing motion parallax during the viewing of 360° images, using a VR interface for estimating depth information, (2) automatically generating responsive 3D virtual agents from 360° videos, by combining pre-trained deep learning networks, and (3) rendering captured view-dependent effects at high framerates in a game engine widely used for VR development, which we apply to digitally recreate a museum's mineralogy collection. We evaluate and discuss each approach by way of user studies, and make our codebase available as an open-source toolkit.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Paris Sciences et Lettres. Thèses électroniques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.