Apprentissage autosupervisé de modèles prédictifs de segmentation à partir de vidéos

Pauline Luc

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Pauline Luc
Direction :	Jakob Verbeek, Camille Couprie
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques et informatique
Date :	Soutenance le 25/06/2019
Etablissement(s) :	Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) :	École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Jury :	Président / Présidente : Élisa Fromont
	Examinateurs / Examinatrices : Florent Perronnin, Tinne Tuytelaars
	Rapporteurs / Rapporteuses : Christian Wolf, Patrick Pérez

Mots clés

FR |

EN

Mots clés contrôlés

Vision par ordinateur

Apprentissage profond

Mots clés libres

Apprentissage profond

Segmentation sémantique

Segmentation d’instance

Modèles génératifs

Apprentissage prédictif

Compréhension vidéo

Résumé

FR |

EN

Les modèles prédictifs ont le potentiel de permettre le transfert des succès récents en apprentissage par renforcement à de nombreuses tâches du monde réel, en diminuant le nombre d’interactions nécessaires avec l’environnement.La tâche de prédiction vidéo a attiré un intérêt croissant de la part de la communauté ces dernières années, en tant que cas particulier d’apprentissage prédictif dont les applications en robotique et dans les systèmes de navigations sont vastes.Tandis que les trames RGB sont faciles à obtenir et contiennent beaucoup d’information, elles sont extrêmement difficile à prédire, et ne peuvent être interprétées directement par des applications en aval.C’est pourquoi nous introduisons ici une tâche nouvelle, consistant à prédire la segmentation sémantique ou d’instance de trames futures.Les espaces de descripteurs que nous considérons sont mieux adaptés à la prédiction récursive, et nous permettent de développer des modèles de segmentation prédictifs performants jusqu’à une demi-seconde dans le futur.Les prédictions sont interprétables par des applications en aval et demeurent riches en information, détaillées spatialement et faciles à obtenir, en s’appuyant sur des méthodes état de l’art de segmentation.Dans cette thèse, nous nous attachons d’abord à proposer pour la tâche de segmentation sémantique, une approche discriminative se basant sur un entrainement par réseaux antagonistes.Ensuite, nous introduisons la tâche nouvelle de prédiction de segmentation sémantique future, pour laquelle nous développons un modèle convolutionnel autoregressif.Enfin, nous étendons notre méthode à la tâche plus difficile de prédiction de segmentation d’instance future, permettant de distinguer entre différents objets.Du fait du nombre de classes variant selon les images, nous proposons un modèle prédictif dans l’espace des descripteurs d’image convolutionnels haut niveau du réseau de segmentation d’instance Mask R-CNN.Cela nous permet de produire des segmentations visuellement plaisantes en haute résolution, pour des scènes complexes comportant un grand nombre d’objets, et avec une performance satisfaisante jusqu’à une demi seconde dans le futur.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage autosupervisé de modèles prédictifs de segmentation à partir de vidéos

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage autosupervisé de modèles prédictifs de segmentation à partir de vidéos

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses