Thèse soutenue

Représentations visuelles structurées avec modèles de fondations

FR  |  
EN
Auteur / Autrice : Paul Couairon
Direction : Nicolas ThomeJean-Emmanuel Haugeard
Type : Thèse de doctorat
Discipline(s) : Sciences de l'ingénieur
Date : Soutenance le 04/11/2025
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-....)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Matthieu Cord
Examinateurs / Examinatrices : Vicky Kalogeiton, Alexandre Alahi
Rapporteurs / Rapporteuses : Stéphane Lathuiliere, Frédéric Jurie

Résumé

FR  |  
EN

Les modèles de fondations entraînés sur des ensembles de données à grande échelle — en particulier ceux dotés de fortes capacités en zero-shot — offrent une voie prometteuse pour réduire la dépendance aux données annotées. Parmi eux, les modèles génératifs basés sur la diffusion se démarquent grâce à leur capacité à synthétiser des images de haute qualité à partir d'instructions en langage naturel. Contrairement aux encodeurs discriminatifs, les modèles de diffusion sont entraînés à grande échelle avec un objectif génératif stable, et sont intrinsèquement alignés avec les entrées textuelles, ce qui en fait de solides candidats pour unifier vision et langage au sein d'un cadre d'apprentissage unique. Ces propriétés suggèrent que ces modèles pourraient encoder, en interne, des représentations sémantiques riches et structurées, dont le potentiel dépasse largement la simple génération. Pourtant, leur potentiel en matière de compréhension visuelle structurée reste largement inexploité. Une question ouverte est de savoir si leurs mécanismes génératifs peuvent être détournés pour réaliser des manipulations vidéo cohérentes dans le temps — une tâche nécessitant à la fois une consistance inter-image et une conformité aux instructions textuelles. Bien que les modèles de diffusion aient obtenu des résultats remarquables en édition d'images, étendre ces capacités à la vidéo reste un défi majeur. Les approches existantes s'appuient souvent sur des modifications architecturales lourdes ou sur une supervision explicite entre les images, ce qui limite leur flexibilité. Montrer que la structure temporelle et le contrôle sémantique peuvent émerger d'un modèle de diffusion d'images gelé représenterait une avancée clé vers des systèmes d'édition vidéo polyvalents. Une autre direction encore peu explorée concerne l'utilisation des représentations internes des modèles de diffusion pour des tâches de prédiction dense, telles que la segmentation sémantique. Contrairement aux encodeurs explicitement entraînés pour la discrimination, les modèles de diffusion ne sont pas optimisés pour la séparation de catégories ou la localisation fine. Néanmoins, leurs architectures de type U-Net multi-échelles, combinées à un entraînement génératif riche, peuvent encoder des hiérarchies spatiales latentes exploitables avec une supervision minimale. Comprendre comment extraire et interpréter ces représentations dans un cadre de segmentation zero-shot ouvre de nouvelles perspectives pour réutiliser les modèles génératifs comme épines dorsales visuelles généralistes. Enfin, une limitation persistante des modèles de diffusion — et des modèles fondamentaux en général — réside dans leur manque de granularité spatiale. Des choix architecturaux tels que le sous-échantillonnage agressif ou l'usage d'espaces latents conduisent souvent à des représentations internes trop grossières pour des tâches nécessitant un raisonnement haute résolution, comme la segmentation de parties, la manipulation d'objets ou la compréhension visuelle détaillée. Surmonter cette limitation suppose de repenser la manière dont les détails sont préservés et raffinés dans les représentations, potentiellement via des mécanismes d'attention ou des modifications architecturales visant à améliorer la fidélité spatiale sans compromettre la richesse sémantique. Pris ensemble, ces défis définissent le cadre scientifique de cette thèse : explorer comment les modèles de diffusion génératifs — conçus à l'origine pour la synthèse d'images — peuvent être réinterprétés, augmentés et réutilisés pour aborder des problèmes fondamentaux d'édition vidéo zero-shot, de prédiction dense et de raisonnement visuel à haute résolution. Répondre à ces questions permet non seulement de mieux comprendre le fonctionnement des modèles de diffusion, mais aussi de répondre aux besoins concrets des systèmes d'IA robustes et intégrés dans les applications industrielles.