Rôle de la stabilisation des G-quadruplex (G4) dans le génome humain

par Maria Puig Lombardi

Projet de thèse en Génomique

Sous la direction de Arturo Londono et de Alain Nicolas.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Complexité du vivant , en partenariat avec DYNAMIQUE DE L'INFORMATION GENETIQUE : BASES FONDAMENTALES ET CANCER (laboratoire) et de Institut Curie (Paris) (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    Les G-quadruplex (G4), structures secondaires pouvant être adoptées par les acides nucléiques, jouent des rôles biologiques dans de nombreux processus cellulaires : maintenance des télomères, réplication cellulaire et virale, réarrangements génomiques, réponse au dommages de l'ADN, régulation transcriptionnelle, etc. Dans le génome humain, il existe une forte présence de séquences, ou motifs, potentiellement capables de former des G4 et, en fonction des algorithmes de recherche utilisés pour les identifier in silico, le nombre de motifs est variable et peut atteindre plusieurs centaines de milliers. Récemment, le développement de ligands qui se lient spécifiquement aux G4 et sont capables de stabiliser ces structures, permettrait de moduler leur formation in vivo et donc d'étudier les processus biologiques associés et le développement d'agents anti-cancéreux. Des travaux menés dans notre unité, basés sur un modèle levure (insertion de la séquence du minisatellite humain CEB25 dans le génome de la levure S.cerevisiae), ont montré que les divers motifs G4 ne sont pas tous capables d'induire de l'instabilité génétique et qu'ils n'ont pas le même comportement vis-à-vis des ligands. En particulier, les G4 composés de boucles courtes - dits G4L1, du type G3N1G3N1G3N1G3, sont beaucoup plus stables in vitro (Tm > 70°C) et corrélativement sont plus instables in vivo. Ces observations mènent à la question de comment ces motifs « à risque » se forment in vivo, sont maintenus dans les génomes et comment ils évoluent. Pour aborder ces questions, nous utiliserons des approches de biologie et bioinformatique pour : (1) localiser, annoter et comparer les motifs G4L1 dans le génome humain, en utilisant le génome de référence hg38 et les données du projet 1000 Genomes, ainsi que les séquences de génomes de cellules cancéreuses génétiquement instables (données produites dans le laboratoires et également données de TCGA) ; (2) évaluer le potentiel mutagène des G-quadruplex par une approche par capture-NGS (séquençage à très haute profondeur), en utilisant diverses lignées cellulaires humaines traitées par des ligands de G4 (notamment, les ligands de la famille de PhenDC produits à l'Institut Curie et la pyridostatine commerciale). De plus, des gènes qui préviendraient une instabilité G4-dépendante (des hélicases comme RTEL1, WRN ou BLM) ou qui, au contraire, auraient contribué à leur mutagenèse au cours de l'évolution (APOBEC) seront ciblés dans le même système expérimental (lignées traitées par des ligands de G4). Les cultures cellulaires, les traitements et les extractions de l'ADN génomique avant et après traitement sont effectués par une technicienne du laboratoire, dédiée à ce projet. Personnellement, au cours des derniers mois, j'ai établi une cartographie exhaustive (localisation, annotation) des motifs G4L1 dans le génome humain (environ 18 000 motifs) et en collaboration dans l'équipe, nous avons pu démarrer des études biologiques pour étudier la dérive génétique des cellules humaines traitées ou non par les ligands G4. Ces études seront poursuivies et complétées par des analyses bioinformatiques interrogeant leur maintenance et leur mode de diversification au cours de l'évolution des génomes eucaryotes. Pour couvrir les coûts de séquençage, ce projet a reçu le soutien financier du programme PIC3i de l'Institut Curie.

  • Titre traduit

    Impact of G-quadruplex (G4) structure stabilisation on the human genome


  • Résumé

    Nucleic acid G-quadruplex (G4) secondary structures play important biological roles in multiple cellular processes (telomere maintenance, cellular and viral replication, genome rearrangements, DNA damage response, epigenetic, transcriptional regulation, etc.). G4 potential motifs are scattered throughout the genome and depending on the algorithms used to identify them in silico their number vary and may reach several hundreds of thousands. Recently, the development of small molecules able to stabilise these structures opened the possibility of probing and/or interfering with their formation, allowing to examine the associated biological processes and developing anti-cancer agents. Work in our research unit, using natural and site-directed mutated human minisatellite sequences in yeast treated with a G4 ligand, showed that not all potential G4 motifs display the same potential to induce G4-dependent genome instability during replication. Namely, G4 structures carrying very short interconnecting loops between the G runs are more stable in vitro and correlatively are more prone to trigger genome instability in vivo. At the extreme, the G4s with the consensus G3N1G3N1G3N1G3 (where N is any nucleotide) motif (herein called G4L1) carry the higher potential to fold and trigger instability. This raises the unresolved questions of how these « at risk » sequences are formed in vivo, maintained in genomes and how they evolve. To address these issues, we will use up–to-date bioinformatics and biological approaches to: (1) map annotate and compare G4L1 motifs in the human genome, using the reference Hg38 genome and the 1000 genomes information, as well mine whole genome sequences of genetically unstable cancer cells (in-house and TCGA international cancer cell program); and (2) evaluate, using various human cell lines and Next Generation Sequencing approaches, the potential of these sequences to mutate upon treatments with G4 ligands or in mutant backgrounds. Commercial (Pyridostatin) and in-house produced (PhenDC series) G4 ligands will be assayed. Complementarily, genes supposed to prevent G4-dependent instability (helicases such as RTEL1, WRN, BLM) or suspected to contribute to their mutagenesis during evolution or tumorigenesis (APOBEC) will be targeted for dysfunction in the same ligand-treated (short and long-tem treatment) cell lines. To comprehensively examine mutagenesis, the DNA surrounding the 18,000 G4L1 motifs will be captured and analyzed by deep sequencing (up to 1000x read depth). The experimental biological aspects of this project (cell culture, capture and preparation of libraries, proof of concept sequencing) have been already initiated by a dedicated technician of our team and the NGS platform of the Institut Curie. Personnally, over the last months, I performed the bioinformatic annotation of the human G4L1 probe regions and the design of the captured probe regions and will continue to a large spectrum of bioinformatics tools to carry out the analysis of the biological data and interrogate how G4 motifs might impair replication and transcription and also how they evolve within and between eukaryotic species. To cover the sequencing costs, this project received the financial support of the Institut Curie PIC3i program.