Thèse soutenue

Representation learning in neuroimaging : transferring from big healthy data to small clinical cohorts
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Benoit Dufumier
Direction : Arthur TenenhausEdouard DuchesnayPietro Gori
Type : Thèse de doctorat
Discipline(s) : Informatique mathématique
Date : Soutenance le 16/12/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Building large instruments for neuroimaging: from population imaging to ultra-high magnetic fields (Gif-sur-Yvette, Essonne ; 2020-....)
référent : CentraleSupélec (2015-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Olivier Colliot
Examinateurs / Examinatrices : Ender Konukoğlu, Janaina Mourao-Miranda, Christos Davatzikos
Rapporteurs / Rapporteuses : Olivier Colliot, Ender Konukoğlu

Résumé

FR  |  
EN

La physiopathologie des maladies mentales telles que la schizophrénie et le trouble bipolaire est encore mal comprise, cependant l'émergence de grandes bases de données transdiagnostiques d'images cérébrales offre une occasion unique d'étudier les signatures neuroanatomiques de ces maladies.Le développement de modèles d'apprentissage profonds pour l'imagerie médicale a ouvert la voie à des applications complexes comme la segmentation d'images. Néanmoins, l'applicabilité de telles méthodes aux problèmes de prédiction à l'échelle individuelle à partir d'IRM anatomique reste encore inconnue. Dans cette thèse, nous étudions d'abord la performance des réseaux de neurones actuels en fonction de la quantité de données disponibles. Nous comparons ces performances avec les modèles linéaires régularisés ainsi que les machines à vecteurs de support avec noyau. Nous constatons un problème de sur-ajustement important sur les jeux de données cliniques ainsi qu'une courbe d'apprentissage similaire aux modèles linéaires pour les tailles d'échantillon actuellement accessible en recherche clinique. Nous montrons que cet effet de sur-ajustement est en partie dû au biais induit par les scanners IRM et les protocoles d'acquisition (effet site).Ainsi, nous proposons une nouvelle solution d'apprentissage des représentations sur de grands jeux de données multi-site d'imagerie de la population saine, basée sur l'apprentissage auto-supervisé par contraste. En transférant ces connaissances à de nouveaux jeux de données cliniques, nous démontrons une amélioration des performances de classification et une plus grande robustesse à l'effet site. Par ailleurs, nous fournissons des garanties théoriques de généralisation de ces modèles pour les tâches de classification.Enfin, pour une meilleure reproductibilité et comparaison des modèles profonds en neuroimagerie, nous introduisons un nouveau jeu de données multi-site à large échelle: OpenBHB. Cette base de données est spécialement conçue pour la prédiction de l'âge cérébrale (tâche supervisée) ainsi que la suppression de l'effet site dans les représentations des modèles profonds. Nous proposong également un défi, accessible en ligne, pour l'apprentissage des représentations avec OpenBHB ainsi qu'une nouvelle méthode pour évaluer le biais dans les représentations des modèles soumis.