Thèse soutenue

Contributions à l'Equivariance aux Roto-Translations pour l'Apprentissage Profond en Traitement d'Images

FR  |  
EN
Auteur / Autrice : Valentin Penaud--Polge
Direction : Jesús Angulo LópezSantiago Velasco-Forero
Type : Thèse de doctorat
Discipline(s) : Morphologie mathématique
Date : Soutenance le 18/09/2024
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de morphologie mathématique (Fontainebleau, Seine et Marne)
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Jury : Président / Présidente : Isabelle Bloch
Examinateurs / Examinatrices : Jesús Angulo López, Santiago Velasco-Forero, Yann Gousseau, Claudia Redenbach, Jos B. T. M. Roerdink, Baptiste Magnier
Rapporteurs / Rapporteuses : Yann Gousseau, Claudia Redenbach

Résumé

FR  |  
EN

Les dernières décennies ont mené à un fort développement de l'apprentissage profond. Cette approche orientée sur les données est désormais prédominante dans presque tous les domaines de recherche, parmi lesquels les communautés de traitement d'images et de vision par ordinateur ont été des acteurs de cette croissance, notamment grâce aux réseaux de neurones convolutifs. Ce type d'approche nécessite une phase d'entraı̂nement, pouvant demander une grande quantité de données, au cours de laquelle les paramètres de l'algorithme sont modifiés de manière itérative pour mieux s'adapter à la tâche voulue. L'objectif de l'apprentissage profond équivariant aux actions de groupes est d'éviter qu'un modèle d'apprentissage profond ne consacre des paramètres entraı̂nables à l'apprentissage d'une diversité, au sein des donnés, non pertinente. En ce sens, un modèle intrinsèquement équivariant est plus efficace dans son utilisation des données. Cette thèse se concentre principalement sur l'équivariance aux roto-translations. Deux autres fils rouges relient les contributions de cette thèse. Le premier est la suppression de l'hypothèse de linéarité, qui permet de sortir du cadre de la convolution et de considérer de nouvelles solutions pour l'équivariance aux roto-translations. Le deuxième fil conducteur peut être représenté par la maxime suivante : ”Les vieux articles donnent de nouvelles astuces pour l'apprentissage profond”. Ce document revisite et adapte i) le travail de Heijmans, Ronse et Roerdink pour proposer les réseaux morphologiques équivariants aux actions de groupes, ii) le détecteur de coins de Harris, proposé par Harris et Stephens, au cadre de l'apprentissage profond menant au modèle GenHarris-ResNet et iii) des invariants différentiels introduits au traitement d'images par Florack et al, en proposant une structure algébrique adaptée et basée sur la théorie des graphes pour décrire les opérations et les compositions de ces invariants différentiels, conduisant à la proposition du réseau Florack.