Identification et étude de variants rares à partir de données de séquences dans le cas d'une maladie complexe : la polyarthrite rhumatoïde

par Maëva Veyssiere

Projet de thèse en Sciences de la vie et de la santé

Sous la direction de Javier Perea et de Valérie Chaudru.

Thèses en préparation à Paris Saclay , dans le cadre de Structure et Dynamique des Systèmes Vivants , en partenariat avec Laboratoire européen de recherche pour la Polyarthrite Rhumatoïde (laboratoire) , Laboratoire européen de recherche pour la polyarthrite rhumatoïde - GenHotel (equipe de recherche) et de université d'Evry-Val-d'Essonne (établissement de préparation de la thèse) depuis le 01-11-2015 .


  • Résumé

    La polyarthrite rhumatoïde (PR) est une maladie auto-immune inflammatoire qui touche 0,3 à 0,5% de la population en France. C'est une pathologie multifactorielle complexe dans laquelle la composante génétique joue un rôle majeur. A ce jour, plus de 100 variants génétiques fréquents ont été trouvés associés à la PR par des études d'association pan-génomiques (GWAs pour Genome Wide Associations studies) ou des méta-analyses de GWAs. Cependant, l'ensemble de ces variants, en plus du gène majeur HLA-DRB1, ne permet pas d'expliquer tous les cas de PR. La part de la composante génétique non encore caractérisée pourrait s'expliquer par des phénomènes épigénétiques, des interactions (gène-gène et/ou gène-environnement), des variants rares et/ou des variants structuraux (variation du nombre de copies, inversions, …). Les récentes avancées dans les technologies de séquençage (Next Generation Sequencing - NGS) permettent actuellement de tester l'hypothèse « variants rares – maladies fréquentes » ou de mettre en évidence des variants structuraux. L'objectif de cette thèse est de rechercher de nouveaux facteurs génétiques de la PR incluant des variants rares de type SNP (Single Nucleotide Polymorphisms) ou indels (petites insertions ou délétions) et des variants structuraux à partir de données de séquence. Pour réaliser ce travail, nous disposons d'un échantillon de familles françaises multiplexes (c'est-à-dire incluant plusieurs cas de PR), qui nous fournira une plus grande puissance de détection des variants rares (fréquence inférieure à 1%) par rapport à un échantillon de type cas-témoins. Les données de séquences obtenues pour des individus atteints et non atteints de familles génétiquement hétérogènes (c'est-à-dire avec ou sans la ségrégation d'allèles à risque pour le gène majeur HLA-DRB1) seront analysées par différentes approches pour rechercher des variants rares (étude de réseaux biologiques et analyses de liaison et d'association). Parallèlement, des études de simulation seront réalisées pour déterminer le(s) meilleur(s) outil(s) de détection de variants structuraux par rapport à notre structure familiale. Le(s) outil(s) identifié(s), et éventuellement adapté(s), seront ensuite appliqués à notre jeu de données. Le bénéfice attendu de ce projet est la découverte de variants rares ou structuraux non détectés jusqu'alors (seulement 2 études ont caractérisé des variants rares de type SNP à partir de données de séquence dans des populations non européennes) et qui pourraient être causaux pour les formes familiales de PR. De plus, la nature des variants identifiés pourra guider de futures études fonctionnelles dans la maladie, et contribuer au développement de nouveaux outils de diagnostic et de nouvelles cibles thérapeutiques.

  • Titre traduit

    Identification and study of rare variants from sequencing data in a complex disease : rheumatoid arthritis


  • Résumé

    Rheumatoid arthritis (RA) is an inflammatory, auto-immune disease affecting 0.3 to 0.5% of the French population. The genetic component plays a major role in this complex multifactorial illness. To date, more than one hundred common genetic variants have been found associated to RA by Genome Wide Association studies (GWAs) or meta-analysis of GWAs. However, all these variants, in addition to the major HLA-DRB1 gene, do not explain all the RA cases. Epigenetic, interactions (gene-gene and/or gene-environment), rare variants and/or structural variants (copy number variation, inversion …) could explain the unknown part of the genetic component. Furthermore, recent advances in sequencing technologies (Next Generation Sequencing) now allow testing the hypothesis “rare variant-common disease” or identifying structural variations. The aim of this thesis is to find new RA genetic factors including rare variants such as SNP (Single Nucleotide Polymorphism) or Indels (small insertions or deletions), and structural variants from sequencing data. In order to achieve this work, we benefit of French multiplex families (families including several RA cases) which will allow a better accuracy in the detection of rare variants (frequency under 1%) than cases/controls samples. Sequencing data obtained from affected and unaffected individuals belonging to genetically heterogeneous families (namely with or without segregation of risk alleles for HLA-DRB1) will be analyzed with different approaches to detect rare variants (biological pathway studies, linkage and association studies). In parallel, simulation studies will be conducted in order to identify, and possibly adapt, the best tool(s) to detect structural variants according to our family structure. The expected profit is the discovery of rare variants, or structural variations, undetectable in previous studies, and which may be causal in familial forms of RA. In addition, the nature of these variants can guide functional studies in this disease, and contribute to the development of new diagnostic tests or novel therapeutic targets.