Sélection stable de variables pour les études d'association génome entier

par Asma Nouira

Projet de thèse en Bio-informatique

Sous la direction de Véronique Stoven et de Chloé-Agathe Azencott.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique , en partenariat avec Centre de Bio-informatique (laboratoire) et de École nationale supérieure des mines (Paris) (établissement de préparation de la thèse) depuis le 14-01-2019 .


  • Résumé

    Parmi les causes de l'héritabilité manquante, l'absence de prise en compte des effets conjoints entre les loci a suscité un intérêt ces dernières années. Cependant, les méthodes de détection de l'épistasie dans les données génomiques souffrent énormément des difficultés posées par l'écart entre le nombre de variables pouvant être mesurées et celui des échantillons pour lesquels elles peuvent être collectées. Un moyen de résoudre ce problème consiste à réduire la dimension de l'espace de solutions par l'implémentation des contraintes structurelles. Celles-ci peuvent notamment être données par des réseaux biologiques. Plusieurs solutions ont été mises en oeuvre ces dernières années pour résoudre cette problématique. Cependant, ils manquent toujours de la stabilité, ou de la robustesse, pour de légers changements dans la base de données d'entrée. Le but de ce projet de thèse sera de proposer et de développer des méthodes pour intégrer la stabilité à la conception d'algorithmes GWAS.

  • Titre traduit

    Stable feature selection for multi-locus genome-wide association studies


  • Résumé

    Among the causes for missing heritability, the failure to account for joint effects between multiple loci has garnered interest in recent years. However, methods for the detection of epistasis in genome-wide data suffer heavily from the statistical difficulties posed by the broadening gap between the number of features that can be measured and that of samples for which they can be collected. One way to address this problem is to reduce the dimensionality of the space of solutions by means of structural constraints. Those can in particular be given by biological networks. Several methods have been developed to that end in recent years. However, they still lack stability, or robustness, to slight changes in the input data. The goal of this PhD project will be to propose and develop methods to integrate stability to the design of multi-locus GWAS algorithms.