Thèse soutenue

Détection d'épistasie dans les études d'association pangénomiques avec des techniques d'apprentissage pour l'identification de cibles thérapeutiques

FR  |  
EN
Auteur / Autrice : Lotfi Slim
Direction : Chloé-Agathe AzencottVéronique Stoven
Type : Thèse de doctorat
Discipline(s) : Bio-informatique
Date : Soutenance le 11/06/2020
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de bio-informatique (Fontainebleau, Seine et Marne)
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Jury : Président / Présidente : Gilles Blanchard
Examinateurs / Examinatrices : Chloé-Agathe Azencott, Véronique Stoven, Pierre Neuvial, Clément Chatelain
Rapporteurs / Rapporteuses : Gilles Blanchard, Karsten Borgwardt

Résumé

FR  |  
EN

En offrant une image sans précédent du génome humain, les études d'association pangénomiques (GWAS) expliqueraient pleinement le contexte génétique des maladies complexes. A ce jour, les résultats ont été pour le moins mitigés. Cela peut être partiellement attribué à la méthodologie statistique adoptée, qui ne prend pas souvent en compte l'interaction entre les variants génétiques, ou l'épistasie. La détection d'épistasie à travers des modèles statistiques présente plusieurs défis pour lesquels nous développons dans cette thèse une paire d'outils adéquats. Le premier outil, epiGWAS, utilise l'inférence causale pour détecter les interactions épistatiques entre un SNP cible et le reste du génome. Le deuxième outil, kernelPSI, utilise à la place des méthodes à noyaux pour modéliser l'épistasie entre plusieurs polymorphismes mononucléotidiques (SNPs) voisins. Il tire également partie de l'inférence post-sélection pour effectuer conjointement une sélection au niveau des SNPs et des tests de signification au niveau des gènes. Les outils développés sont - au meilleur de nos connaissances - les premiers à étendre au domains des GWAS des outils puissants d'apprentissage statistique tels que l'inférence causale et l'inférence post-sélection nonlinéaire. En plus des contributions méthodologiques, un accent particulier a été mis sur l'interprétation biologique pour valider nos résultats dans la sclérose en plaques et les variations d'indice de masse corporelle.