L'intégration de contraintes structurelles dans les études d'association pangénomique multi-locus pour améliorer la découverte de biomarqueurs dans le cancer du sein

par Héctor Climente

Projet de thèse en Bio-informatique

Sous la direction de Véronique Stoven et de Chloé-Agathe Azencott.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Ecole doctorale Sciences des métiers de l'ingénieur (Paris) , en partenariat avec Centre de Bio-informatique (laboratoire) et de École nationale supérieure des mines (Paris) (établissement de préparation de la thèse) depuis le 03-10-2016 .


  • Résumé

    Les études d'association pan-génomiques (GWAS) sont un outil couramment utilisées pour détecter les variants génétiques associés à un phénotype. Bien qu'elles aient permis des avancées dans notre compréhension des mécanismes biologiques sous-jacents à un certain nombre de maladies, y compris le cancer, de telles analyses de données en très haute dimension sont confrontées à des problèmes tant computationnels que statistiques. Ces phénomènes sont encore amplifiés quand on se penche sur la détection d'effets épistasiques. L'intégration d'information provenant de réseaux biologiques permet de répondre à ces défis, en améliorant la puissance statistique des méthodes tout en assurant la cohérence de leurs résultats avec les connaissances déjà établies du domaines. Le but de ce projet de thèse est de développer des méthodes de GWAS qui intègrent efficacement des contraintes définies par des réseaux biologiques à des modèles qui prennent en compte les effets joints de loci génétiques multiples. Ces méthodes seront développées dans un cadre d'optimisation combinatoire proposé par C.-A. Azencott qui ne permet actuellement pas de modéliser des interactions entre variables. Les contributions méthodologiques seront apportées en collaboration avec F. Agakov (Pharmatics, UK), un expert en méthodes probabilistes pour la recherche de biomarqueurs dans des données en haute dimension. Ce projet méthodologique, à l'intersection des statistiques, de l'informatique et de la génétique, est fortement motivé par l'analyse d'un jeu de données de cancer du sein recueilli dans le cadre du projet GENESIS, sous la direction entre autres de N. Andrieu (Institut Curie).

  • Titre traduit

    Integrating structural constraints in multi-locus genome-wide association studies for improved biomarker discovery in breast cancer


  • Résumé

    Genome-wide association studies (GWAS) are now widely used for detecting genetic variants correlated with a phenotype. While they have provided insights into the pathways underpinning many common diseases, including cancer, the analysis of such very high-dimensional data poses both computational and statistical difficulties. This is particularly true for the detection of putative epistatic effects. Integrating information from biological networks is one way to alleviate these challenges, by simultaneously increasing statistical power and ensuring the findings are consistent with previously established knowledge. The goal of this PhD project is to develop GWAS methods that efficiently integrate network-based biological constraints to models that handle the joint effects of multiple genetic loci. The methods will be developed within a combinatorial optimization framework previously proposed by C.-A. Azencott, but which doesn't allow for modeling interactions between variables. The methodological contribution will be done in collaboration with F. Agakov (Pharmatics, UK), an expert on probabilistic methods for biomarker discovery from high-dimensional data. This methodological project, at the intersection of statistics, computer science, and genetics, is strongly motivated by the analysis of the breast-cancer SNP data collected during the GENESIS project, led by N. Andrieu (Institut Curie) among others.