Text-Based Semantic Image Editing | Theses.fr

Guillaume Couairon

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Édition sémantique d’images à partir de requêtes textuelles

FR |

EN

Auteur / Autrice :	Guillaume Couairon
Direction :	Matthieu Cord, Holger Schwenk, Jakob Verbeek
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 06/07/2023
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche :	Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury :	Président / Présidente : Benoît Favre
	Examinateurs / Examinatrices : Zeynep Akata
	Rapporteurs / Rapporteuses : Tinne Tuytelaars, Joost Van de Weijer

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Apprentissage automatique

Vision par ordinateur

Traitement d'images -- Techniques numériques

Mots clés libres

Édition d'image

Apprentissage machine

Vision par ordinateur

Adaptation de réseaux

Modèles de diffusion

Espaces de représentations

Résumé

FR |

EN

L’objectif de cette thèse est de proposer des algorithmes pour la tâche d’édition d’images basée sur le texte (TIE), qui consiste à éditer des images numériques selon une instruction formulée en langage naturel. Par exemple, étant donné une image d’un chien et la requête "Changez le chien en un chat", nous voulons produire une nouvelle image où le chien a été remplacé par un chat, en gardant tous les autres aspects de l’image inchangés (couleur et pose de l’animal, arrière- plan). L’objectif de l’étoile du nord est de permettre à tout un chacun de modifier ses images en utilisant uniquement des requêtes en langage naturel. Une des spécificités de l’édition d’images basée sur du texte est qu’il n’y a pratiquement pas de données d’entraînement pour former un algorithme supervisé. Dans cette thèse, nous proposons différentes solutions pour l’édition d’images, basées sur l’adaptation de grands modèles multimodaux entraînés sur d’énormes ensembles de données. Nous étudions tout d’abord une configuration d’édition simplifiée, appelée édition d’image basée sur la recherche, qui ne nécessite pas de modifier directement l’image d’entrée. Au lieu de cela, étant donné l’image et la requête de modification, nous recherchons dans une grande base de données une image qui correspond à la modification demandée. Nous nous appuyons sur des modèles multimodaux d’alignement image/texte entraînés sur des ensembles de données à l’échelle du web (comme CLIP) pour effectuer de telles transformations sans aucun exemple. Nous proposons également le cadre SIMAT pour évaluer l’édition d’images basée sur la recherche. Nous étudions ensuite comment modifier directement l’image d’entrée. Nous proposons FlexIT, une méthode qui modifie itérativement l’image d’entrée jus- qu’à ce qu’elle satisfasse un "objectif d’édition" abstrait défini dans un espace d’intégration multimodal. Nous introduisons des termes de régularisation pour imposer des transformations réalistes. Ensuite, nous nous concentrons sur les modèles de diffusion, qui sont des modèles génératifs puissants capables de synthétiser de nouvelles images conditionnées par une grande variété d’invites textuelles. Nous démontrons leur polyvalence en proposant DiffEdit, un algorithme qui adapte les modèles de diffusion pour l’édition d’images sans réglage fin. Nous proposons une stratégie "zero-shot" pour trouver automatiquement où l’image initiale doit être modifiée pour satisfaire la requête de transformation de texte.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Édition sémantique d’images à partir de requêtes textuelles

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Édition sémantique d’images à partir de requêtes textuelles

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses