Score de risque génétique utilisant de l'apprentissage statistique

par Florian Prive

Thèse de doctorat en MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Michael Blum.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble) , en partenariat avec Techniques de L'Ingénierie Médicale et de la Complexité - Informatique, Mathématiques et Applications. (laboratoire) .


  • Résumé

    Le génotypage devient de moins en moins cher, rendant les données de génotypes disponibles pour des millions d'individus. Par ailleurs, l'imputation permet d'obtenir l'information génotypique pour des millions de positions de l'ADN, capturant l'essentiel de la variation génétique du génome humain. Compte tenu de la richesse des données et du fait que de nombreux traits et maladies sont héréditaires (par exemple, la géné- tique peut expliquer 80% de la variation de la taille dans la population), il est envisagé d'utiliser des modèles prédictifs basés sur l'information génétique dans le cadre d'une médecine personnalisée. Au cours de ma thèse, je me suis concentré sur l'amélioration de la capacité pré- dictive des modèles polygéniques. Les modèles prédictifs faisant partie d'une analyse statistique plus large des jeux de données, j'ai développé des outils permettant l'analyse exploratoire de grands jeux de données, constitués de deux packages R/C++ décrits dans la première partie de ma thèse. Ensuite, j'ai développé une implémentation efficace de la régression pénalisée pour construire des modèles polygéniques basés sur des centaines de milliers d'individus génotypés. Enfin, j'ai amélioré la méthode appelée “clumping and thresholding”, qui est la méthode polygénique la plus largement utilisée et qui est basée sur des statistiques résumées plus largement accessibles par rapport aux données individuelles. Dans l'ensemble, j'ai appliqué de nombreux concepts d'apprentissage statistique aux données génétiques. J'ai utilisé du “extreme gradient boosting” pour imputer des variants génotypés, du “feature engineering” pour capturer des effets récessifs et dom- inants dans une régression pénalisée, et du “parameter tuning” et des “stacked regres- sions” pour améliorer les modèles polygéniques prédictifs. L'apprentissage statistique n'est pour l'instant pas très utilisé en génétique humaine et ma thèse est une tentative pour changer cela.

  • Titre traduit

    Genetic risk score based on statistical learning


  • Résumé

    Genotyping is becoming cheaper, making genotype data available for millions of indi- viduals. Moreover, imputation enables to get genotype information at millions of loci capturing most of the genetic variation in the human genome. Given such large data and the fact that many traits and diseases are heritable (e.g. 80% of the variation of height in the population can be explained by genetics), it is envisioned that predictive models based on genetic information will be part of a personalized medicine. In my thesis work, I focused on improving predictive ability of polygenic models. Because prediction modeling is part of a larger statistical analysis of datasets, I de- veloped tools to allow flexible exploratory analyses of large datasets, which consist in two R/C++ packages described in the first part of my thesis. Then, I developed some efficient implementation of penalized regression to build polygenic models based on hundreds of thousands of genotyped individuals. Finally, I improved the “clumping and thresholding” method, which is the most widely used polygenic method and is based on summary statistics that are widely available as compared to individual-level data. Overall, I applied many concepts of statistical learning to genetic data. I used ex- treme gradient boosting for imputing genotyped variants, feature engineering to cap- ture recessive and dominant effects in penalized regression, and parameter tuning and stacked regressions to improve polygenic prediction. Statistical learning is not widely used in human genetics and my thesis is an attempt to change that.