Thèse soutenue

Segmentation d’objets saillants dans des images/videos 360° et champ de lumière

FR  |  
EN
Auteur / Autrice : Yi Zhang
Direction : Olivier Déforges
Type : Thèse de doctorat
Discipline(s) : Signal, Image, Vision
Date : Soutenance le 02/11/2022
Etablissement(s) : Rennes, INSA
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire : Institut d'Électronique et de Télécommunications (Rennes)
Jury : Président / Présidente : Olivier Lézoray
Examinateurs / Examinatrices : Olivier Déforges, Olivier Lézoray, Jenny Benois Pineau, Aljosa Smolic, Ying Fu, Wassim Hamidouche
Rapporteurs / Rapporteuses : Olivier Lézoray, Jenny Benois Pineau

Résumé

FR  |  
EN

La segmentation d’objets saillants est une tâche imitant l’attention visuelle humaine, et a constamment attiré l’attention de la communauté de la vision par ordinateur en raison de son énorme potentiel pour le développement de futures applications de réalité augmentée. Cependant, les méthodes de segmentation d’objets saillants sont principalement formées et testées avec des images et des vidéos 2D où des stimuli visuels sont collectés en fonction de rayons lumineux et d’un champ de vision limités, échouant ainsi à s’adapter au scénario du monde réel où les sujets humains reconnaissent les objets saillants en (i) capturant des informations sur le champ lumineux, (ii) en observant des scènes dans un champ de vision panoramique à 360°. Dans cette thèse, nous avons mené des études systématiques sur la segmentation d’objets saillants sur des images/vidéos à 360°, et proposé de nouvelles méthodologies pour la segmentation d’objets saillants en champ lumineux. Nous avons d’abord proposé respectivement des jeux de données image et vidéo pour permettre la segmentation des objets saillants à 360°. Nos ensembles de données proposés fournissent des données visuelles couvrant diverses scènes quotidiennes du monde réel, avec des objets saillants garantis annotés avec des masques pixel par pixel au niveau de l’objet et de l’instance, des étiquettes de classe d’objet/scène grossières à fines, et des attributs indiquant le commun défis pour mener le segmentation d’objets saillants dans les images/vidéos 360°. Pour contribuer davantage à la segmentation d’objets saillants à base d’images/vidéos à 360°, nous suivons les procédures courantes de segmentation d’objets saillants 2D et établissons ainsi des études de référence complètes basées sur nos jeux de données d’images et de vidéos à 360° proposés, obtenant de nouvelles découvertes qui facilitent le développement de nouveaux modèles 360°. Pour imiter l’attention visuelle humaine dans des scènes du monde réel, nous avons donc proposé de nouvelles méthodologies basées respectivement sur le champ lumineux 2D, et les images/vidéos 360°. Pour être précis, nos nouveaux modèles basés sur le champ lumineux ont appris une attention synergique multimodale pour une segmentation efficace des objets saillants. Notre méthode proposée basée sur l’image à 360° a permis d’obtenir une amélioration significative sur plusieurs références à 360°. Notre méthode basée sur la vidéo à 360 ° a eu recours à une technique d’estimation aléatoire de l’incertitude et a tiré parti des signaux visuels et audio pour segmenter les objets saillants de manière explicable. Nous espérons que cette thèse pourra servir de point de départ pour un développement futur vers une modélisation immersive de l’attention visuelle humaine au niveau de l’objet basée sur le multimédia.