Thèse soutenue

Deep learning pour le streaming adaptatif de vidéos à 360° en réalité virtuelle

FR  |  
EN
Auteur / Autrice : Quentin Guimard
Direction : Lucile Sassatelli
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 18/12/2023
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Patrick Le Callet
Examinateurs / Examinatrices : Lucile Sassatelli, Patrick Le Callet, Gwendal Simon, Gabriel-Miro Muntean, Federica Battisti, Aljosa Smolic, Laura Toni
Rapporteurs / Rapporteuses : Gwendal Simon, Gabriel-Miro Muntean, Federica Battisti

Résumé

FR  |  
EN

La réalité virtuelle (VR) a évolué de manière significative ces dernières années. Les casques immersifs devenant de plus en plus abordables et populaires, de nombreuses applications sont à l'horizon, des vidéos à 360° aux formations interactives en passant par les environnements virtuels collaboratifs. Cependant, pour atteindre des niveaux élevés de qualité perçue, la bande passante du réseau et les ressources de calcul nécessaires peuvent être supérieures de plusieurs ordres de grandeur à celles requises pour un contenu 2D traditionnel.Pour pallier ce problème, des stratégies de streaming qui adaptent le débit vidéo aux conditions du réseau et à l'orientation de la tête de la personne ont été mises en œuvre afin d'améliorer la qualité d'expérience. Étant donné que la plupart des algorithmes de débit adaptatif reposent sur l'utilisation d'une mémoire tampon vidéo suffisamment grande pour compenser les fluctuations de la bande passante, l'algorithme doit savoir où la personne regardera quelques secondes avant la lecture pour adapter correctement la qualité.La qualité d'expérience pour le streaming 360° dépend donc de la prédiction des mouvements de la tête en VR. Malheureusement, il s'agit d'un problème difficile en raison (i) du caractère aléatoire des mouvements humains, (ii) de la diversité des trajectoires de tête des personnes qui regardent des vidéos à 360°, ce qui entraîne une ambiguïté entre les trajectoires passées, et (iii) des nombreux facteurs qui influencent le comportement, l'attention et les mouvements de la personne en VR.Afin de concevoir des systèmes de streaming VR qui s'adaptent mieux à chaque personne, il est important de comprendre les différents facteurs, leurs interactions et leurs effets sur le comportement humain. La collecte et l'exploitation de nouvelles données relatives à ces facteurs pourraient aider à désambiguïser les trajectoires la tête et à améliorer leur prédiction.Ce travail est divisé en quatre contributions principales.Premièrement, nous avons proposé un nouveau framework de deep learning variationnel pour prédire de multiples trajectoires possibles de mouvements de tête afin de mieux prendre en compte la diversité des trajectoires. Nous avons montré que notre modèle surpasse les performances de concurrents adaptés du domaine de la conduite autonome, réduisant l'erreur jusqu'à 41 % sur quatre datasets.Nous avons ensuite proposé un nouveau simulateur de streaming 360° afin de mesurer les gains système de notre framework et de permettre de comparer facilement les stratégies de streaming adaptatif. Nous avons montré que la prédiction de trajectoires multiples conduit à une plus grande équité entre les usagers, avec des gains de qualité atteignant jusqu'à 10 % pour 20 à 30 % des personnes.En parallèle, nous avons mené des expériences avec des personnes et des analyses statistiques pour mieux comprendre l'interaction entre le contenu immersif, l'attention et les émotions. Nous avons observé que le degré d'activation physiologique de la personne était corrélé à l'attention portée aux objets, et nous avons quantifié les effets des émotions sur la prédictibilité des mouvements de la tête.Enfin, nous avons voulu tirer parti des données liées aux émotions afin d'apprendre de meilleures représentations et d'améliorer la prédiction des mouvements de la tête. Inspirés par les travaux récents sur la distillation cross-modale et les modèles de fondation multimodaux, nous avons commencé à travailler sur une nouvelle architecture de deep learning multimodale capable d'apprendre des représentations transférables de modalités qui ne sont disponibles qu'au moment de l'apprentissage. Nous avons obtenu des résultats préliminaires qui surpassent de 21 % l'état de l'art existant tout en réduisant considérablement le nombre de paramètres.