Approche globale intégrative pour l'identification de nouvelles cibles moléculaires dans la polyarthrite rhumatoïde

par Quentin Miagoux

Projet de thèse en Sciences de la vie et de la santé

Sous la direction de Elisabeth Teixeira, Valérie Chaudru et de Anna Niaraki.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Structure et Dynamique des Systèmes Vivants (Gif-sur-Yvette, Essonne ; 2015-....) , en partenariat avec Laboratoire européen de recherche pour la Polyarthrite Rhumatoïde (laboratoire) et de Université d'Évry-Val-d'Essonne (établissement de préparation de la thèse) depuis le 01-10-2018 .


  • Résumé

    Projet détaillé Actuellement, plus d'une centaine de variants génétiques fréquents ont été trouvés associés à la PR par des études d'association pan-génomiques (GWAs Genome Wide Association studies) (Plenge et al., 2007; Raychaudhuri, 2008; Stahl et al., 2010; WTCCC, 2007; Zhernakova et al., 2011) ou des méta-analyses de GWAs (Okada et al., 2013). Cependant, tous ces facteurs génétiques, en plus du gène majeur HLA-DRB1, n'expliquent pas la totalité des cas atteints de PR. Ainsi, une part de la composante génétique (héritabilité) de cette maladie commune complexe reste encore à définir (de Vries et al.,2011). Si différents phénomènes peuvent expliquer la part de l'héritabilité manquante (épigénétique, épistasie, interactions gène-environnement), notre recherche s'est orientée vers l'identification de variants rares puisque le spectre génétique d'une maladie complexe est polygénique avec l'implication de variants fréquents et de variants rares. Alors que les études d'association pan-génomiques ont principalement testé une hypothèse «variant commun/maladie commune», les avancées dans les technologies de séquençage permettent actuellement de tester l'hypothèse «variant rare/maladie commune». Bien que certaines analyses de données de séquences de gènes candidats ont été conduites pour identifier des variants rares dans la PR, peu d'études ont été menées à partir de données de séquences exome-entier, et ce, dans des populations non-européennes. Pour augmenter l'information génomique à disposition, les analyses de séquence génome entier se développent, conduisant à la caractérisation de variants de séquence et structuraux non seulement exoniques mais aussi intergéniques et impliqués dans les mécanismes de régulation de l'expression des gènes. C'est un développement nécessaire à l'identification exhaustive de variants causaux dans les maladies complexes. Par ailleurs, avec notre meilleure connaissance des mécanismes physiopathologiques de la PR et la production de données génomiques, une approche de biologie computationnelle des systèmes se développe, centrée tout d'abord sur la caractérisation de la carte moléculaire précise de la maladie puis sur la modélisation, permettant ensuite des études d'impacts après perturbation. Notre objectif est, dans un premier temps, de rechercher de variants rares causaux en utilisant des données de séquençage génome entier produites à partir de familles présentant de multiples cas de polyarthrite rhumatoïde (PR) sans allèle à risque du gène HLA-DRB1. Ensuite, une approche de biologie des systèmes nous conduira à l'identification des interactions gène/gène et nous permettra des analyses d'enrichissement de réseaux moléculaires, d'inférence de co-régulation, ainsi qu'une modélisation de l'effet de perturbations sur les phénotypes de la maladie. Pour la première partie de son travail, le candidat travaillera sur des échantillons issus de familles à cas multiples de PR dans lesquelles aucun allèle de susceptibilité du gène HLA-DRB1 ne ségrège. L'utilisation des données de séquence génome entier est une valeur ajoutée car cela permet de réduire le taux de faux positifs lors de l'identification des variants par rapport à l'utilisation d'exomes. L'analyse permet ensuite d'avoir accès aux séquences régulatrices de l'expression des gènes. Enfin, la détection d'un nombre variable de copies (CNV), pouvant être impliqué dans le niveau d'expression de gènes prédisposant aux maladies complexes (Henrichsen et al., 2009), est facilitée (Belkadi et al., 2015). . Différents outils ont été développés pour détecter des CNV (Pirooznia et coll., 2015), mais ils peuvent manquer de fiabilité. Les CNV identifiés devront ainsi être validés à l'aide d'une autre technologie. Par exemple, la digitale PCR (ddPCR), technologie récente et présente dans le laboratoire, pourra être utilisée comme technique de validation. Cette approche, basée sur la génération d'environ 20.000 micro-réactions à partir d'une réaction initiale, a l'avantage d'obtenir une quantification absolue du nombre de copies. Nous l'avons démontré dans des études préalables au laboratoire (Ben Kilani et al., 2017, Achour et al., 2017). La production des données de séquence génome entier sera réalisée par le Centre National de Recherche en Génomique Humaine (CNRGH/CEA, Evry). Les méthodes d'analyse des séquences ont été développées au cours du projet précédent centré sur les données d'exome (projet de thèse et manuscrit en cours d'écriture). Elles seront développées et adaptées avec l'approche génome entier. Basé sur les résultats de la première partie du projet de thèse, le second objectif est de placer les gènes identifiés dans leur contexte fonctionnel. Pour ce faire, l'étudiant(e) bénéficiera de la construction d'une carte moléculaire détaillée et interactive de la PR, constituée de toutes les voies moléculaires impliquées dans la maladie (Singh et al, 2018, Singh et al, manuscrit en préparation). Il/Elle bénéficiera de plusieurs bases de données et outils (libres d'accès ou non) pour pouvoir inférer le réseau de co-régulation impliquant les gènes, les facteurs de transcription et de signalisation ainsi que les phénotypes de la maladie. Sur la base de ce réseau, le candidat développera un modèle qualitatif, dynamique et logique pour entreprendre des analyses dynamiques et pour étudier les effets de perturbations (comme des simulations in silico de perte ou gain de fonction). La première partie de ce travail permettra d'identifier de nouveaux variants (variants d'un seul nucléotide, de petites insertions ou délétions, ou des variants de nombre de copies) impliqués dans les cas de PR qui ne portent pas d'allèles à risque du gène HLA-DRB1. Le candidat bénéficiera des outils déjà mis en place pour un précédent projet d'analyse de données d'exomes afin d'identifier des variants modificateurs de l'effet de HLA-DRB1. Il pourra également comparer les variants identifiés dans le cadre de son projet à ceux identifiés précédemment afin de déterminer si certains variants jouent un rôle dans la PR quelque soit la prédisposition génétique à HLA-DRB1. Il recherchera également d'éventuelles interactions gènes-gènes à l'aide d'approches statistiques. Ces interactions pourront être modélisées dans la 2ème partie du projet. Pour la partie Biologie des Systèmes, une mise à jour détaillée de la carte moléculaire de la PR sera proposée. Ce travail a déjà été initié par notre laboratoire dans le cadre du Consortium DiseaseMaps. Le candidat sera capable de placer les gènes d'intérêt dans leur contexte fonctionnel et il essaiera de mettre en évidence les réseaux biologiques concernés. Sur la base de ces résultats, le candidat construira un réseau de régulation afin d'évaluer in silico les perturbations attendues (gain ou perte de fonction) pour les gènes dont les fonctions biologiques ont été bien caractérisées dans la PR (par exemple, l'inflammation ou l'érosion). Le candidat bénéficiera également du développement, au sein du laboratoire, d'une méthodologie pour l'inférence automatisée d'un graphe de régulation avec des règles préliminaires permettant la construction d'un modèle logique.

  • Titre traduit

    Integrative, global approach for the identification of novel biomolecular targets in Rheumatoid Arthritis


  • Résumé

    RA is a multifactorial disease resulting from genetic and environmental factors. The part of the genetic factors involved in RA, which is measured by the heritability, has been estimated to about 60% (MacGregor et al., 2000). To date, the HLA genes (and specifically the HLA-DRB1 Shared Epitope alleles) are the major genetic risk factors. In the past decade, in addition to candidate genes association studies, Genome-Wide Association (GWA) studies or meta-analysis of GWA (Plenge et al., 2007; Raychaudhuri, 2008; Stahl et al., 2010; WTCCC, 2007; Zhernakova et al., 2011; Okada et al., 2013) have been conducted in order to identify common genetic factors with small or moderate effect on disease risk, by comparing allele frequencies of thousands of SNPs (Single Nucleotide Polymorphism) in thousands of cases (RA patients) versus thousands of controls. These different studies have allowed identifying about 100 common polymorphisms associated with RA. However, all these genetic factors in addition to HLA do not explain the entire heritability (about 50%, de Vries 2011). Possible explanations for the missing heritability include disease heterogeneity, gene/gene (GxG) and/or gene/environment (GxE) interactions, epigenetic phenomenon or undetected rare variants. After contributions in identification of RA genetics factors using linkage and association studies, GenHotel laboratory has recently developed several new approaches to complete knowledge on this complex disease. One research axis is dedicated to the research of rare genomic causal variants through NGS (Next Generation Sequencing) data analysis, benefiting of familial samples and collaboration with the Centre National de Recherche en Génomique Humaine (CNRGH/CEA, Evry). A second newly complementary approach is the computational biology aiming on deciphering specific molecular pathways of the disease and phenotype modelling. Our objective with this PhD project is, first, to search for rare causal variants using whole genome analysis by sequencing of several members of families with multiple cases where at risk alleles of HLA-DRB1 gene do not segregate. Second, systems biology approaches will be developed for the identification of gene/gene interactions and pathway enrichment analyses, gene co-regulatory inference and modelling of perturbations effects on disease phenotypes. The first part of the work has an objective to complete and develop our project of characterization of rare causal variants using whole genome sequencing (WGS) that would be independent to HLA-DRB1 genetic risk. For that we have access to affected sibling-pairs family were two RA members are available for DNA sample at least. Despite a higher cost compared to exome analysis, there are several advantages to using a WGS strategy. Indeed, the proportion of false positives among the single nucleotide variants identified is decreased, the identification of the Copy Number Variations (CNV) is facilitated, the break points being more easily identifiable (Belkadi et al., 2015), and the amount of DNA required is less than for exome sequencing. Finally, this analysis gives access to the specific intergenic variants involved in the regulation of gene expression. The sequencing will be done by the CNRGH and analyses approaches based on our previous project concerning WES (PhD project of M. Veyssiere, manuscripts under preparation) will be adapted and modified accordingly for whole genome. Apart from the identification of nucleotide variants, another field of this research is the identification of CNVs. CNV, as a segment of DNA larger than 1 kb which presents a variable copy number in comparison with a reference genome, may harbor dosage-sensitive genes predisposing to complex diseases (Henrichsen et al., 2009). Different tools have been implemented to detect CNV (Pirooznia et al., 2015) but they can miss of reliability. Different tools could be tested and the identified CNV could be technically validated by droplet digital PCR (ddPCR), a recent technology present in the lab and based on the generation of about 20,000 micro-reactions from an initial reaction. The advantage of this method is that it allows to obtain an absolute quantification of copy numbers, as we have demonstrated through our previous studies (Ben Kilani et al., 2017, Achour et al., 2017). Based on results of the first part of the project, the second objective of the project is to place genes in their functional context. For this purpose the student will benefit from the construction of a fully detailed, state of the art, interactive molecular map for RA that consists of all pathways implicated in the disease (Singh et al, 2018, Singh et al, manuscript under preparation). He will also use various data bases and tools (open source and commercial such as Ingenuity) in order to infer a coregulatory network, involving genes, TFs (Transcriptional Factors) and signaling and disease phenotypes. Based on this network the candidate will develop a qualitative, dynamic logical (Boolean) model in order to perform dynamical analyses and study the effects of perturbations (such as in silico simulations of loss and/or gain of function). Discrete logic-based models that can provide a good approximation of the qualitative behavior of a biochemical system without the burden of a large parameter space. In this framework, a regulatory network is modeled in terms of a regulatory graph, where nodes represent regulatory components (proteins, complexes, transcription factors, etc.), whereas arcs represent interactions between these components. In addition, each regulatory component is associated with a logical variable denoting its qualitative concentration or level of activity. In most cases, Boolean variables (taking the values 0 or 1) are sufficient to represent the most relevant situations, but whenever needed, multivalued variables can be used. A logical rule is written for each variable of the model, corresponding to a node of the network, in order to define how its status evolves (ON or OFF). In this rule, the variables of the input nodes are linked by logical connectors according to what is known about their combined activities. A detection of rare variants using whole exome analyses in patients HLA-DRB1 positive has already been carried out in the lab, and all methodologies are set up and standardized. The candidate will adjust and refine the pipeline for whole genome. He will also be able to compare exome results for the two RA data sets with or without HLA-DRB1 genetic risk. Identification of independent genetic risk, as well as interactions and modifier genes will be enabled. An updated, fully detailed molecular map concerning RA has been already constructed by our lab (DiseaseMaps Consortium). The candidate will be able to place genes into their functional context and try to characterize affected biological pathways. Based on results, he will construct a regulatory network in order to assess by in silico perturbations (experiments of loss or gain of function) the impact of the genes found on biological functions well characterized in RA, such as inflammation or bone erosion. The candidate will also benefit from the development of a methodology in the lab, for the automated inference of a regulatory graph with preliminary rules, concerning the building of a logical model.