Thèse soutenue

Un cadre statistique et algorithmique pour l’analyse de données multibloc et multivoie

FR  |  
EN
Auteur / Autrice : Arnaud Gloaguen
Direction : Arthur Tenenhaus
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et des images
Date : Soutenance le 23/09/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire des signaux et systèmes (Gif-sur-Yvette, Essonne ; 1974-....) - NeuroSpin (Gif-sur-Yvette, Essonne ; 2017-....)
référent : Faculté des sciences d'Orsay
Jury : Président / Présidente : Julie Josse
Examinateurs / Examinatrices : Hua Zhou, Éric Lock, Christophe Ambroise, Vincent Frouin
Rapporteurs / Rapporteuses : Hua Zhou, Éric Lock

Résumé

FR  |  
EN

L'étude des relations entre plusieurs ensembles de variables mesurées sur un même groupe d'individus est un défi majeur en statistique. La littérature fait référence à ce paradigme sous plusieurs termes : "analyse de données multimodales", "intégration de données", "fusion de données" ou encore "analyse de données multibloc". Ce type de problématique se retrouve dans des domaines aussi variés que la biologie, la chimie, l'analyse multi-capteurs, le marketing, la recherche agro-alimentaire, où l'objectif commun est d'identifier les variables de chaque bloc intervenant dans les intéractions entre blocs. Par ailleurs, il est possible que chaque bloc soit composé d'un très grand nombre de variables (~1M), nécessitant le calcul de milliards d'associations. L'élaboration d'un cadre statistique épousant la complexité et l'hétérogénéité des données est donc primordial pour mener une analyse pertinente.Le développement de méthodes d'analyse de données hétérogènes, potentiellement de grande dimension, est au coeur de ce travail. Ces développements se basent sur l'Analyse Canonique Généralisée Régularisée (RGCCA), un cadre général pour l'analyse de données multiblocs. Le coeur algorithmique de RGCCA se résume à un unique "update", répété jusqu'à convergence. Si cet update possède certaines "bonnes" propriétés, la convergence globale de l'algorithme est garantie. Au cours de ces travaux, le cadre algorithmique de RGCCA a été étendu dans plusieurs directions :(i) Du séquentiel au global. Plutôt que d'extraire de chaque bloc les composantes de manière séquentielle, un problème d'optimisation globale permettant de construire ces composantes simultanément a été proposé.(ii) De la matrice au tenseur. L'Analyse Canonique Généralisée Multivoie (MGCCA) étend RGCCA à l'analyse conjointe d'un ensemble de tenseurs. Des versions séquentielle et globale de MGCCA ont été proposées. La convergence globale de ces algorithmes est montrée.(iii) De la parcimonie à la parcimonie structurée. Le coeur de l'algorithme d'Analyse Canonique Généralisée Parcimonieuse (SGCCA) a été amélioré en fournissant un algorithme à convergence globale beaucoup plus rapide. Des contraintes de parcimonie structurée ont également été ajoutées à SGCCA.Dans une seconde partie, l'analyse de plusieurs jeux de données est menée à l'aide de ces nouvelles méthodes. La polyvalence des ces outils est démontrée sur (i) deux études en imagerie-génétique, (ii) deux études en électroencéphalographie ainsi (iii) qu'une étude en microscopie Raman. L'accent est mis sur l'interprétation des résultats facilitée par la prise en compte des structures multiblocs, tensorielles et/ou parcimonieuses.