Annotation et prioritization of non-coding variants in the context of human diseases

par Lambert Moyon

Projet de thèse en Génomique

Sous la direction de Hugues Roest-crollius.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Complexité du vivant , en partenariat avec Institut de Biologie de l'École Normale Supérieure (laboratoire) et de Ecole normale supérieure (établissement de préparation de la thèse) depuis le 01-10-2015 .


  • Résumé

    La médecine de précision est en pleine croissance dans plusieurs pays, et les données de séquençage génome-complet de haute qualité pour des patients atteints de maladies rares ou fréquentes sont de plus en plus utilisées pour chercher les variants génétiques expliquant potentiellement le phénotype observé. Dans une grand partie, voire la majorité des cas, aucune mutation codante dans des gènes connus, et associés à la maladie, ne peut être trouvée, ce qui soulève la possibilité de deux causes alternatives: (1) une mutation codante délétère dans un gène qui n'est pas encore associé à la maladie (2) une mutation non-codante, qui peut par exemple modifier la fonction d'une séquence enhancer ou promoter associée à un gène de la maladie. Dans le premier cas, une approche "gène candidat" peut être utilisée pour étudier plus en détails l'impact. Dans le second cas, bien que des méthodes existent pour annoter automatiquement des variants comme chevauchant des régions régulatrices, les experts scientifiques restent sans piste fiable pour prioritiser les nombreux variants qui tombent dans cette catégorie, plus particulièrement concernant leur impact sur le phénotype malade du patient. On assiste également a une augmentation rapide de la disponibilité d'informations fonctionnelles, biochimiques et relatives à l'évolution, ainsi que leur association à des fonctions régulatrices, dans plusieurs lignées cellulaires humaines et tissue-types, ce qui facilite l'identification du potentiel "régulateur" d'une région génomique donnée. L'addition des classes fonctionelles et relative à l'évolution permettent également l'association des régions fonctionelles à des gènes cibles potentiels. Nous souhaitons créer l'outil "Regulus", une méthode pour scorer et prioritiser des variants non-codants dans des contexts spécifiques de maladies. Regulus intégrera 4 classes d'annotations (conservation, états chromatiniens, sites de fixation de facteurs de transcription, et prédiction de régions régulatrices avec gènes cibles) pour calculer un score global, qui permettra d'ordonner les variants entre eux en fonction de leur impact fonctionnel potentiel. Regulus prendra également en compte pour la prioritisation des variants les gènes cibles prédits, ainsi que les sites de fixations de facteurs de transcriptions, par rapport à leur pertinence face à la maladie.

  • Titre traduit

    Annotation and prioritisation de variants non-codants dans le contexte de maladies humaines


  • Résumé

    Precision medicine is gaining momentum in several countries, and high-quality whole genome sequences (WGS) of patients with rare or common diseases are increasingly being used to search for causative genetic variants that may explain the disease phenotype. In a large fraction of cases, sometimes the majority, no coding mutation in a known disease gene can be found, raising the possibility of at least two alternative causes: (1) a deleterious coding mutation in an new disease gene (2) a non-coding variant, for example modifying the function of an enhancer or a promoter of a disease gene. In the first case, a candidate gene approach can be employed to investigate additional possibilities. In the second case, while methods exist to automatically annotate variants as potentially overlapping a regulatory region, investigators remain at loss for a reliable guide to efficiently prioritise the many variants that generally fall in this category, especially with respect to their impact on the patient's disease phenotype. The field is witnessing a rapid increase in the availability of functional, biochemical and evolutionary information associated to regulatory function, in many human cell lines and tissue types, facilitating the identification of the regulatory potential of a given genomic region. An additional class of functional and evolutionary information is also becoming available to assign regulatory regions to their target gene(s). We intend to create “Regulus”, a method for scoring and prioritizing non-coding variants in a specific disease context. Regulus will integrate 4 classes of annotations (evolutionary conservation, chromatin states, transcription factor binding sites, and target gene predictions) to compute a global score, which will make it possible to rank variants according to their likely functional impact. Regulus also will consider the predicted associated target gene(s) and bound transcription factor(s), if any, to prioritize variants according to their relevance to the disease.