Thèse soutenue

Amélioration de l'expérience utilisateur en navigation libre via la synthèse d'image

FR  |  
EN
Auteur / Autrice : Nour Hobloss
Direction : Lu ZhangMarco Cagnazzo
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 02/12/2021
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : MATHSTIC
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes)
Jury : Examinateurs / Examinatrices : William Puech
Rapporteurs / Rapporteuses : Frédéric Dufaux, Anissa Mokraoui‎

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans l'acquisition de la vidéo multi-vue le centre d'attention peut être contrôlé par les téléspectateurs plutôt que par un réalisateur, ce qui implique que chaque téléspectateur peut observer un point de vue unique. Par conséquent, ceci exige de placer des caméras autour de la scène à capturer, ce qui pourrait être très coûteux. La génération de caméras virtuelles pour remplacer une partie des caméras réelles de la scène réduit le coût de la configuration de la vidéo multi-vues. Cette thèse se concentre sur la génération de transitions vidéo virtuelles dans les scènes capturées par vidéo multi-vues pour se déplacer virtuellement d'un point de vue réel à un autre dans la même scène. Moins nous utilisons de caméras réelles, moins il y a de dépenses nécessaires dans la vidéo multi-vues ; cependant, plus la baseline est importante. Les méthodes de synthèse de vue ont attiré notre attention, comme une approche de notre problème. Cependant, dans la littérature, ces méthodes souffrent toujours d'artefacts visuels dans l'image rendue finale en raison des occultations dans la nouvelle vue virtuelle cible. Dans un premier temps, nous proposons une approche hybride de la synthèse de vues dans laquelle nous déformons d'abord les vues de référence en corrigeant les occultations. Nous fusionnons les vues pré-traitées via une architecture de convolution simple. Le warping des vues de référence réduit la distance entre les vues de référence, ainsi que la taille des filtres convolutionnels et donc de réduire la complexité du réseau. Ensuite, nous présentons une approche hybride, où nous fusionnons les vues pré-warpées via un encodeur-décodeur résiduel avec un encodeur siamois afin de maintenir le nombre des paramètres bas. Nous proposons également un algorithme d'inpainting des trous pour combler les désoccultations dans les vues warpées. En plus, nous nous concentrons sur la qualité de l'expérience de l'utilisateur pour la transition vidéo et la base de données. D'abord, nous réalisons un dataset créatif pour la qualité d'expérience de la transition vidéo. Ensuite, nous proposons un optimiseur de synthèse de vues multiples algoritmic-learning-based. Le travail vise à évaluer subjectivement les approches de synthèse de vues proposées sur 8 différentes séquences vidéo en réalisant une série de tests subjectifs.