Thèse soutenue

Score de risque génétique utilisant de l'apprentissage statistique
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Florian Privé
Direction : Michaël Blum
Type : Thèse de doctorat
Discipline(s) : Modèles, méthodes et algorithmes en biologie, santé et environnement
Date : Soutenance le 05/09/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Techniques de l’ingénierie médicale et de la complexité - Informatique, mathématiques et applications (Grenoble)
Equipe de recherche : BCM : biologie Computationnelle et Mathématique
Jury : Président / Présidente : Benoit Liquet
Examinateurs / Examinatrices : Laurent Jacob
Rapporteurs / Rapporteuses : Florence Demenais, Julien Chiquet

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Le génotypage devient de moins en moins cher, rendant les données de génotypes disponibles pour des millions d’individus. Par ailleurs, l’imputation permet d’obtenir l’information génotypique pour des millions de positions de l’ADN, capturant l’essentiel de la variation génétique du génome humain. Compte tenu de la richesse des données et du fait que de nombreux traits et maladies sont héréditaires (par exemple, la génétique peut expliquer 80% de la variation de la taille dans la population), il est envisagé d’utiliser des modèles prédictifs basés sur l’information génétique dans le cadre d’une médecine personnalisée.Au cours de ma thèse, je me suis concentré sur l’amélioration de la capacité prédictive des modèles polygéniques. Les modèles prédictifs faisant partie d’une analyse statistique plus large des jeux de données, j’ai développé des outils permettant l’analyse exploratoire de grands jeux de données, constitués de deux packages R/C++ décrits dans la première partie de ma thèse. Ensuite, j’ai développé une implémentation efficace de larégression pénalisée pour construire des modèles polygéniques basés sur des centaines de milliers d’individus génotypés. Enfin, j’ai amélioré la méthode appelée “clumpingand thresholding”, qui est la méthode polygénique la plus largement utilisée et qui estbasée sur des statistiques résumées plus largement accessibles par rapport aux données individuelles.Dans l’ensemble, j’ai appliqué de nombreux concepts d’apprentissage statistique aux données génétiques. J’ai utilisé du “extreme gradient boosting” pour imputer des variants génotypés, du “feature engineering” pour capturer des effets récessifs et dominants dans une régression pénalisée, et du “parameter tuning” et des “stacked regres-sions” pour améliorer les modèles polygéniques prédictifs. L’apprentissage statistique n’est pour l’instant pas très utilisé en génétique humaine et ma thèse est une tentative pour changer cela.