Apprentissage statistique pour les études d'association et d'interactions entre données omiques fondée sur une approche de compression structurée .

par Florent Guinot

Projet de thèse en Sciences de la vie et de la santé


Sous la direction de Christophe Ambroise et de Marie Szafranski.

Thèses en préparation à Paris Saclay , dans le cadre de Structure et Dynamique des Systèmes Vivants , en partenariat avec LaMME - Laboratoire de Mathématiques et Modélisation d'Evry (laboratoire) , Statistique pour la Génomique et la Génétique (equipe de recherche) et de université d'Evry-Val-d'Essonne (établissement de préparation de la thèse) depuis le 04-01-2016 .


  • Résumé

    Depuis la dernière décennie le développement rapide des technologies de génotypage a profondément modifié la façon dont les gènes impliqués dans les troubles mendéliens et les maladies complexes sont cartographiés, passant d'approches gènes candidats aux études d'associations pan-génomique, ou Genome-Wide Association Studies (GWASs). Ces études visent à identifier, au sein d'échantillons d'individus non apparentés, des marqueurs génétiques impliqués dans l'expression de maladies complexes. Ces études exploitent le fait qu'il est plus facile d'établir, à partir de la population générale, de grandes cohortes de personnes affectées par une maladie et partageant un facteur de risque génétique qu'au sein d'échantillons apparentés issus d'une même famille, comme c'est le cas pour les études familiales traditionnelles. D'un point de vue statistique, l'approche standard est basée sur le test d'hypothèse: dans un échantillon d'individus non apparentés, des individus malades sont testés contre des individus sains à un ou plusieurs marqueurs. Cependant, due à la grande dimension des données, ces procédures de tests classiques sont souvent sujets à des faux positifs, à savoir des marqueurs faussement identifiés comme étant significatifs. Une solution consiste à appliquer une correction sur les p-valeurs obtenues afin de diminuer le seuil de significativité, augmentant en contrepartie le risque de manquer des associations n'ayant qu'un faible effet sur le phénotype. De plus, bien que cette approche ait réussi à identifier des marqueurs génétiques associés à des maladies multifactorielles complexes (maladie de Crohn, diabète I et II, maladie coronarienne,…), seule une faible proportion des variations phénotypiques attendues des études familiales classiques a été expliquée. Cette héritabilité manquante peut avoir de multiples causes parmi les suivantes: fortes corrélations entre les variables génétiques, structure de la population, épistasie (interactions entre gènes), maladie associée aux variants rares,... Les principaux objectifs de cette thèse sont donc de développer de nouvelles méthodes statistiques pouvant répondre à certaines des limitations mentionnées ci-dessus. Plus précisément, nous avons développé deux nouvelles approches: la première est une approche par blocs qui exploite la structure de corrélation entre les marqueurs génétiques afin d'améliorer la puissance statistique. La seconde est une méthode adaptée à la détection d'interactions statistiques entre groupes de marqueurs méta-génomiques et génétiques permettant une meilleure compréhension de la relation complexe entre environnement et génome sur l'expression d'un caractère. Ce travail de thèse a donné lieu à la rédaction de deux articles scientifiques et a été implémenté dans des programmes informatiques: la première méthode est proposée sous forme d'outil sur un serveur Web, tandis que la seconde est disponible via un package R.

  • Titre traduit

    Statistical learning for omics association and interaction studies based on blockwise feature compression.


  • Résumé

    Since the last decade, the rapid advances in genotyping technologies have changed the way genes involved in mendelian disorders and complex diseases are mapped, moving from candidate genes approaches to linkage disequilibrium mapping. In this context, Genome-Wide Associations Studies (GWAS) aim at identifying genetic markers implied in the expression of complex disease and occuring at different frequencies between unrelated samples of affected individuals and unaffected controls. These studies exploit the fact that it is easier to establish, from the general population, large cohorts of affected individuals sharing a genetic risk factor for a complex disease than within individual families, as is the case with traditional linkage analysis. From a statistical point of view, the standard approach in GWAS is based on hypothesis testing, with affected individuals being tested against healthy individuals at one or more markers. However, classical testing schemes are subject to false positives, that is markers that are falsely identified as significant. One way around this problem is to apply a correction on the p-values obtained from the tests, increasing in return the risk of missing true associations that have only a small effect on the phenotype, which is usually the case in GWAS. Although GWAS have been successful in the identification of genetic variants associated with complex multifactorial diseases (Crohn's disease, diabetes I and II, coronary artery disease,…) only a small proportion of the phenotypic variations expected from classical family studies have been explained .This missing heritability may have multiple causes amongst the following: strong correlations between genetic variants, population structure, epistasis (gene by gene interactions), disease associated with rare variants,… The main objectives of this thesis are thus to develop new methodologies that can face part of the limitations mentioned above. More specifically we developed two new approaches: the first one is a block-wise approach for GWAS analysis which leverages the correlation structure among the genomic variants to reduce the number of statistical hypotheses to be tested, while in the second we focus on the detection of interactions between groups of metagenomic and genetic markers to better understand the complex relationship between environment and genome in the expression of a given phenotype. This thesis work gave rise to the writing of two scientific articles and have been implemented in computer programs: the first method is proposed as a webserver tool while the second is available through an R package.