Development of network-based analysis methods with application to the genetic component of asthma

par Yuanlong Liu

Thèse de doctorat en Epidémiologie et sciences de l'information biomédicale. Epidémiologie génétique

Sous la direction de Florence Demenais.

Le président du jury était Laurent Abel.

Le jury était composé de Florence Demenais, Laurent Abel, Kristel Van Steen, Bertram Müller-Myhsok, Mohamed Nadif, Benno Schwikowski.

Les rapporteurs étaient Kristel Van Steen, Bertram Müller-Myhsok.

  • Titre traduit

    Développement de méthodes d'analyse de réseaux de gènes : application à la composante génétique de l'asthme


  • Résumé

    Les études d'association pan-génomiques (GWAS) ont permis d'identifier de nouveaux locus associés à l'asthme, mais ces loci n'expliquent qu'une partie de la composante génétique de cette maladie. Une limite de ces études est qu'elles sont basées sur des analyses simple-marqueurs qui manquent de puissance pour détecter des variants génétiques à effet marginal faible et influençant conjointement le risque de maladie. Des stratégies, qui intègrent des connaissances biologiques, comme les interactions protéine-protéine (PPI) ou des réseaux de gènes avec des résultats de « GWAS », ont été proposées pour identifier des modules de gènes associés aux maladies. Les objectifs de cette thèse étaient de développer des méthodes d'analyse de réseaux de gènes, et de les appliquer à des données pan-génomiques de l'asthme pour identifier de nouveaux gènes candidats et des processus biologiques potentiellement impliqués dans l'asthme.Le premier travail de thèse a consisté à étendre une méthode de recherche de réseau de gènes à partir de données de « GWAS » (dmGWAS) pour identifier de nouveaux gènes associés à l'asthme. Nous avons utilisé deux jeux de données, chacun correspondant aux résultats d'une méta-analyse de neuf études d'association pan-génomiques de l'asthme de l'enfant (5,924 et 6,043 sujets, et appelés META1 et META2). Nous avons développé une nouvelle méthode pour calculer les p-valeurs de chaque gène à partir des p-valeurs des SNPs et proposé une stratégie de recherche bidirectionnelle à partir des deux jeux de données pan-génomiques pour identifier un module de gènes. Nous avons détecté un module de 91 gènes associé à l'asthme (p < 1e-5). Ce module est composé d'un réseau central et de cinq réseaux périphériques. Parmi les 91 gènes, 19 gènes étaient nominalement significatifs dans les deux jeux de données et incluaient 13 gènes à 4 loci trouvés précédemment associés à l'asthme (2q12, 5q31, 9p24.1, 17q12-q21), et six gènes à six nouveaux loci: CRMP1 (4p16.1), ZNF192 (6p22.1), RAET1E (6q24.3), CTSL1 (9p21.33), C12orf43 (12q24.31) et JAK3 (19p13-p12). L'analyse fonctionnelle du module identifié a révélé quatre clusters de gènes impliqués dans l'immunité innée et adaptative, la chimiotaxie, l'adhésion cellulaire et la régulation de la transcription, qui sont des processus biologiquement pertinents pour l'asthme.Le deuxième travail de thèse a consisté à développer une nouvelle méthode de réseau de gènes appelée SigMod. .SigMod permet de sélectionner un module de gènes enrichis en signaux d'association avec la maladie et montrant de fortes inter-connexions. Par rapport aux méthodes précédentes SigMod offre plusieurs avantages, notamment la robustesse au bruit de fond, la capacité de prendre en compte une pondération sur les liens entre gènes, et de rendre les résultats facilement interprétables. Nous avons proposé un algorithme basé sur la théorie des découpages de graphes pour résoudre le problème d'optimisation de manière exacte et efficace. Des simulations ont montré une meilleure performance de SigMod par rapport aux méthodes existantes. L'application de SigMod aux données de l'asthme a permis d'identifier un module de 190 gènes qui présentent des relations fonctionnelles et sont biologiquement pertinents pour l'asthme.


  • Résumé

    Genome-wide association studies (GWAS) of asthma have been successful in identifying novel asthma-associated loci, but the genes at these loci account only for a part of the whole genetic component. One limitation of GWAS is that they rest on single-marker analyses which are underpowered to detect variants with small marginal effects but rather influence jointly disease risk. To complement the single-marker approaches, more sophisticated strategies, which integrate biological knowledge, such as protein-protein interactions (PPI) or gene networks with GWAS outcomes to identify disease-associated gene modules, have become prominent. The objectives of this thesis were to develop network-based analysis methods, and apply them to asthma GWAS data to identify biological processes and prioritize new candidate genes related to asthma.This thesis consists of two main studies. The first study was to extend an existing network-based method (dmGWAS) to identify novel genes associated with asthma. We used two GWAS datasets, each consisting of the results of a meta-analysis of nine childhood-onset asthma GWAS (5,924 and 6,043 subjects, called META1 and META2, respectively). We developed a novel method to compute gene-level p-values from SNP p-values (fastCGP), and proposed a bi-directional module search method to identify asthma-associated gene modules. Application of these methods to the asthma data detected a gene module of 91 genes significantly associated with asthma (p < 1e-5). This module consisted of a core network and five peripheral subnetworks including high-confidence candidates for asthma. Out of the 91 genes, 19 genes were nominally significant in both META1 and META2 datasets. They included 13 genes at 4 loci previously found associated with asthma (2q12, 5q31, 9p24.1, 17q12-q21), and six genes at six novel loci: CRMP1 (4p16.1), ZNF192 (6p22.1), RAET1E (6q24.3), CTSL1 (9p21.33), C12orf43 (12q24.31) and JAK3 (19p13-p12). Functional analysis of the module revealed four functionally related gene clusters involved in innate and adaptive immunity, chemotaxis, cell-adhesion and transcription regulation, which are biologically meaningful processes underlying asthma risk.The second study of this thesis was to develop a novel network-based method, named SigMod, to search disease-associated gene modules. SigMod takes a list of gene p-values and a gene network as input. It identifies a set of genes that are enriched in high association signals and tend to have strong interconnection via the formulation of a binary quadratic optimization problem. We proposed an algorithm based on graph-cut theory to solve the optimization problem exactly and efficiently. SigMod has several advantages compared to existing methods, including the ability to find the module enriched in highest association signals, the capacity to incorporate edge weights in the network, and the robustness to background noise. Also, the emphasis of selecting strongly interconnected genes can lead to the identification of genes with close functional relevance. We applied SigMod to both simulated and real datasets. This new method outperformed existing approaches. When SigMod was applied to childhood-onset asthma data, it successfully identified a module made of 190 functionally related genes that are biologically relevant for asthma.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.