Thèse soutenue

Lien entre héritabilité et prédiction de phénotypes complexes chez l’humain : une approche du problème par la régression ridge sur des données de population
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Arthur Frouin
Direction : Jean-François DeleuzeChristophe Ambroise
Type : Thèse de doctorat
Discipline(s) : Sciences de la vie et de la santé
Date : Soutenance le 24/11/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Structure et Dynamique des Systèmes Vivants
Partenaire(s) de recherche : Laboratoire : Centre national de recherche en génomique humaine (Évry ; 2017-....) - Centre de Génomique Humaine
référent : Université d'Évry-Val-d'Essonne (1991-....)
Jury : Président / Présidente : Emmanuelle Génin
Examinateurs / Examinatrices : Christophe Ambroise, Anne-Laure Boulesteix, David-Alexandre Trégouët, Benoit Liquet, Hervé Perdry, Edith Le floch
Rapporteurs / Rapporteuses : Anne-Laure Boulesteix, David-Alexandre Trégouët

Résumé

FR  |  
EN

Cette thèse étudie l'apport des méthodes d'apprentissage automatique pour la prédiction de phénotypes humains complexes et héritables, à partir de données génétiques en population. En effet, les études d'association à l'échelle du génome (GWAS) n'expliquent en général qu'une petite fraction de l'héritabilité observée sur des données familiales. Cependant l'héritabilité peut être approchée sur des données de population par l'héritabilité génomique, qui estime la variance phénotypique expliquée par l'ensemble des polymorphismes nucléotidiques (SNP) du génome à l'aide de modèles mixtes. Cette thèse aborde donc l'héritabilité du point de vue de l'apprentissage automatique et examine le lien étroit entre les modèles mixtes et la régression ridge. Notre contribution est double. Premièrement, nous proposons d'estimer l'héritabilité génomique en utilisant une approche prédictive via la régression ridge et la validation croisée généralisée (GCV). Deuxièmement, nous dérivons des formules simples qui expriment la précision de la prédiction par la régression ridge en fonction du rapport de la taille de la population et du nombre total de SNP, montrant clairement qu'une héritabilité élevée n'implique pas nécessairement une prédiction précise. L'estimation de l'héritabilité via GCV et les formules de précision de prédiction sont validées à l'aide de données simulées et de données réelles de UK Biobank. La dernière partie de la thèse présente des résultats sur des phénotypes qualitatifs. Ces résultats permettent une meilleure compréhension des biais des méthodes d'estimation d'héritabilité.