Thèse en cours

Apprentissage Multi-vues : de l'ICA à l'auto-supervision
FR  |  
EN
Auteur / Autrice : Ambroise Heurtebise
Direction : Alexandre Gramfort
Type : Projet de thèse
Discipline(s) : Informatique mathématique
Date : Inscription en doctorat le 01/11/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Centre INRIA Saclay - Île-de-France
Equipe de recherche : Parietal - Modélisation de la structure, du fonctionnement et de la variabilité du cerveau à partir d'IRM à haut champ
référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

Les données multi-vues (parfois appelées données multi-modales, multi-tables ou multi-blocs), dans lesquelles chaque échantillon est représenté par plusieurs vues de caractéristiques distinctes, sont souvent observées dans les données du monde réel et les méthodes correspondantes ont gagné en popularité. Une vue est définie comme une partition de l'ensemble des variables de caractéristiques. Selon le domaine, ces vues peuvent provenir naturellement de sources uniques, ou correspondre à des sous-ensembles du même espace de caractéristiques sous-jacent. Par exemple, un médecin peut disposer d'une IRM, d'un scanner et des réponses à un questionnaire clinique pour un patient malade. Cependant, les méthodes classiques d'inférence et d'analyse sont souvent mal adaptées à la prise en compte des vues multiples d'un même échantillon, car elles ne peuvent pas tenir compte correctement des vues complémentaires qui ont des propriétés statistiques différentes. Pour remédier à ce problème, de nombreuses méthodes d'apprentissage multivues ont été développées pour tirer parti des vues multiples des données et produire de meilleurs résultats dans diverses tâches. Dans le contexte de la neuro-imagerie, les études de groupe impliquant de grandes cohortes de sujets sont importantes pour tirer des conclusions générales sur l'organisation fonctionnelle du cerveau. Cependant, l'agrégation de données provenant de plusieurs sujets est un défi, car elle nécessite de tenir compte de la grande variabilité de l'anatomie, de la topographie fonctionnelle et de la réponse aux stimuli entre les individus. La modélisation des données est particulièrement difficile pour des conditions écologiquement pertinentes telles que le visionnage d'un film, où le dispositif expérimental n'implique pas d'opérations cognitives bien définies. Pour aborder ce problème d'apprentissage automatique statistique, différents modèles ont été proposés dans la littérature. Au sein de l'équipe Parietal, nous avons récemment développé un nouveau modèle appelé Analyse en Composantes Indépendantes (ACI) multi-vues, où les données de chaque sujet sont modélisées comme une combinaison linéaire de sources indépendantes communes et partagées, plus du bruit. Contrairement à la plupart des procédures ACI de groupe, la vraisemblance du modèle est disponible sous une forme fermée et de solides garanties mathématiques peuvent être obtenues, notamment l'identifiabilité du modèle. Jusqu'à présent, ce modèle a été appliqué avec succès aux données d'IRM fonctionnelle (IRMf) et de magnétoencéphalographie (MEG) de centaines de patients. Cependant, une des limites de ces modèles est que les sources sont supposées être parfaitement identiques entre les sujets, ignorant ainsi jusqu'à présent les différences telles que la variabilité de latence temporelle des réponses neuronales de chaque sujet. L'objectif de ce projet de thèse est de développer des algorithmes qui peuvent éviter la forte contrainte de sources exactement identiques, de sorte que les variabilités des sources individuelles ne soient plus préjudiciables à la qualité des résultats. Ce travail fait partie d'un vaste effort dans la communauté de l'apprentissage automatique pour pouvoir apprendre à partir de données observées à partir de vues multiples.