Développement d'un cadre statistique et algorithmique pour l'analyse de données structurées : Application à l'analyse de données d'imagerie-génétique

par Arnaud Gloaguen

Projet de thèse en Traitement du signal et des images

Sous la direction de Arthur Tenenhaus et de Vincent Frouin.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec L2S - Laboratoire des signaux et systèmes (laboratoire) , Signaux (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    IMAGEN est un projet de recherche européen dont l'objectif est d'identifier les facteurs biologiques et environnementaux qui pourraient avoir une influence sur la santé mentale des adolescents. Cette connaissance permettra l'élaboration de meilleures stratégies de prévention et de thérapies à l'avenir. La base de données IMAGEN comprend, pour environ 2000 adolescents (14 ans) : (i) des données démographiques, (ii) des évaluations neuropsychologiques, psychométriques, questionnaires médicaux, (iii) de la neuroimagerie multimodale (incluant de l'IRM fonctionnelle, structurelle et de diffusion) et (iv) des données omiques (SNP et méthylation). Toutes ces données sont d'ores et déjà centralisées à NeuroSpin. Les données IMAGEN rassemblent tous les défis qu'il est possible de rencontrer en analyse de données. Le premier goulot d'étranglement est la grande complexité des données qui découle de l'hétérogénité des modalités (génétique, neuroimagerie, etc), du nombre de modalités en neuroimagerie, de la nature multi-centrique des données. Le deuxième goulot d'étranglement est le nombre élevé de mesures (~ 1M) pour les données de génétique et de neuroimagerie qui implique le calcul de milliards d'associations. L'analyse de ce type de données requiert l'élaboration d'un cadre statistique qui permet d'épouser (autant que faire se peut) la structure particulière des données, ainsi que sa nature hétérogène. Le travail de l'étudiant de doctorat, à l'interface entre l'analyse statistique des données et du machine learning, consistera à développer un cadre statistique et informatique pour l'analyse de données multibloc avec des applications aux données IMAGEN.

  • Titre traduit

    Statistical and computational framework for structured data analysis: Application to imaging-genetic data integration


  • Résumé

    IMAGEN is a European Research Project which aim is to identify and learn more about biological and environmental factors that might have an influence on mental health in teenagers. This knowledge will allow developing better prevention strategies and therapies in the future. The IMAGEN database includes, for about two thousand 14 years old adolescents: (i) demographics data, (ii) neuropsychological assessments, psychometry, medical questionnaires, (iii) multimodal neuroimaging (including MR functional, structural and diffusion weighted neuroimaging) and (iv) omics (SNP and methylation) data. All these datasets are already centralized at NeuroSpin. The IMAGEN dataset gathers all the challenges that have to be faced in modern multivariate data analysis. The first bottleneck is the high complexity of the data that stems from (i) various sources: genetics, neuroimaging, etc. (ii) the number of neuroimaging modalities and (iii) the multi-centric nature of the data. The second bottleneck is the high number of measurements (~1M) in both genetic and neuroimaging data which involves the computation of billion(s) of associations. A successful investigation of such a dataset requires developing a computational and statistical framework that fits both the peculiar structure of the data as well as its heterogeneous nature. The work of the PhD student at the interface between statistical data analysis and machine learning consists in contributing to the development of a statistical and computational framework for multiblock data analysis with application to IMAGEN.