Genetic risk score based on statistical learning

par Florian Privé

Thèse de doctorat en Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Michaël Blum.

Soutenue le 05-09-2019

à l'Université Grenoble Alpes (ComUE) , dans le cadre de École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble) , en partenariat avec Techniques de l’ingénierie médicale et de la complexité - Informatique, mathématiques et applications (Grenoble) (laboratoire) et de BCM : biologie Computationnelle et Mathématique (équipe de recherche) .

Le président du jury était Benoit Liquet.

Le jury était composé de Laurent Jacob.

Les rapporteurs étaient Florence Demenais, Julien Chiquet.

  • Titre traduit

    Score de risque génétique utilisant de l'apprentissage statistique


  • Résumé

    Le génotypage devient de moins en moins cher, rendant les données de génotypes disponibles pour des millions d’individus. Par ailleurs, l’imputation permet d’obtenir l’information génotypique pour des millions de positions de l’ADN, capturant l’essentiel de la variation génétique du génome humain. Compte tenu de la richesse des données et du fait que de nombreux traits et maladies sont héréditaires (par exemple, la génétique peut expliquer 80% de la variation de la taille dans la population), il est envisagé d’utiliser des modèles prédictifs basés sur l’information génétique dans le cadre d’une médecine personnalisée.Au cours de ma thèse, je me suis concentré sur l’amélioration de la capacité prédictive des modèles polygéniques. Les modèles prédictifs faisant partie d’une analyse statistique plus large des jeux de données, j’ai développé des outils permettant l’analyse exploratoire de grands jeux de données, constitués de deux packages R/C++ décrits dans la première partie de ma thèse. Ensuite, j’ai développé une implémentation efficace de larégression pénalisée pour construire des modèles polygéniques basés sur des centaines de milliers d’individus génotypés. Enfin, j’ai amélioré la méthode appelée “clumpingand thresholding”, qui est la méthode polygénique la plus largement utilisée et qui estbasée sur des statistiques résumées plus largement accessibles par rapport aux données individuelles.Dans l’ensemble, j’ai appliqué de nombreux concepts d’apprentissage statistique aux données génétiques. J’ai utilisé du “extreme gradient boosting” pour imputer des variants génotypés, du “feature engineering” pour capturer des effets récessifs et dominants dans une régression pénalisée, et du “parameter tuning” et des “stacked regres-sions” pour améliorer les modèles polygéniques prédictifs. L’apprentissage statistique n’est pour l’instant pas très utilisé en génétique humaine et ma thèse est une tentative pour changer cela.


  • Résumé

    Genotyping is becoming cheaper, making genotype data available for millions of indi-viduals. Moreover, imputation enables to get genotype information at millions of locicapturing most of the genetic variation in the human genome. Given such large data andthe fact that many traits and diseases are heritable (e.g. 80% of the variation of heightin the population can be explained by genetics), it is envisioned that predictive modelsbased on genetic information will be part of a personalized medicine.In my thesis work, I focused on improving predictive ability of polygenic models.Because prediction modeling is part of a larger statistical analysis of datasets, I de-veloped tools to allow flexible exploratory analyses of large datasets, which consist intwo R/C++ packages described in the first part of my thesis. Then, I developed someefficient implementation of penalized regression to build polygenic models based onhundreds of thousands of genotyped individuals. Finally, I improved the “clumping andthresholding” method, which is the most widely used polygenic method and is based onsummary statistics that are widely available as compared to individual-level data.Overall, I applied many concepts of statistical learning to genetic data. I used ex-treme gradient boosting for imputing genotyped variants, feature engineering to cap-ture recessive and dominant effects in penalized regression, and parameter tuning andstacked regressions to improve polygenic prediction. Statistical learning is not widelyused in human genetics and my thesis is an attempt to change that.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Bibliothèques universitaires. Thèses électroniques.
  • Bibliothèque : Université Grenoble Alpes. Bibliothèque et Appui à la Science Ouverte. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.