Etude des éléments régulateurs de l'expression des gènes chez l'humain

par Chloé Bessiere

Thèse de doctorat en Biologie Santé

Sous la direction de Charles-Henri Lecellier.

Soutenue le 27-11-2018

à Montpellier , dans le cadre de Sciences Chimiques et Biologiques pour la Santé , en partenariat avec Institut de Génétique Moléculaire de Montpellier (laboratoire) .


  • Résumé

    L'expression des gènes est étroitement régulée par différentes régions régulatrices afin d'assurer une grande variété de types cellulaires et de fonctions. Identifier ces régions régulatrices actives, leurs caractéristiques et comprendre comment elles interagissent entre elles dans chaque type cellulaire est un enjeu majeur. Cette connaissance permettrait notamment de mieux comprendre l'impact des variants génomiques très souvent localisés dans les régions non-codantes. Par ailleurs, le développement de cancers et autres maladies est lié à des dérégulations des contrôles de l'expression des gènes. Pour pouvoir envisager des traitements ciblés et tendre vers une médecine de précision, il est important de comprendre comment toute cette machinerie est orchestrée.Plusieurs approches ont été développées pour répondre à cette question, la plupart basées sur des données expérimentales de modification d'histones, méthylation et facteurs de transcription (TFs). Cependant, ces données sont limitées à des échantillons spécifiques et ne peuvent pas être générées pour tous les régulateurs et tous les patients. Mes travaux de thèse ont porté, dans une première partie, sur la modélisation de l'expression des gènes uniquement à partir de l'information contenue dans la séquence ADN. Nous avons utilisé un modèle linéaire avec sélection de variables, équivalent en terme de performances à des méthodes non paramétriques et simple à interpréter. Ce modèle m'a permis de comparer plusieurs types de variables basées sur la séquence ADN, comme les motifs de fixation des TFs et la composition nucléotidique. Ces variables sont déterminées pour différentes régions du gène afin d'évaluer leur pouvoir régulateur et leur contribution. Les introns seuls, dont la composition nucléotidique reflète celle de l'environnement du gène, expliquent une part importante de la variation de l'expression des gènes. De plus, nous avons démontré que les domaines topologiques (TADs), dans lesquels les interactions sont favorisées, partagent une composition génomique similaire. Notre modèle de prédiction nous permet vraisemblablement de capturer, pour chaque individu, la composition des TADs actifs.Dans un second temps de mon travail, je me suis intéressée aux régulations pouvant survenir dans les introns. Le consortium international FANTOM a fourni un des atlas de sites de départ de la transcription (TSSs) les plus importants à ce jour et nous avons noté que la majorité d'entre eux sont détectés dans les régions non-codantes, notamment les introns. Nous avons donc entrepris un travail visant à explorer ces TSS introniques. Pour déterminer si ces TSSs sont fonctionnels, je me suis intéressée à la recherche de potentiels motifs régulateurs autour de ces signaux de transcription. Une fraction de ces signaux sont localisés 2 bases en aval d'une répétition de Thymidines (T). Des évidences biochimiques et génétiques suggèrent qu'au moins une partie de ces signaux correspondent à de longs ARNs non-codants sens-introniques exprimés de manière tissu-spécifique. Il semblerait également que la longueur des répétitions de Ts ait une influence sur la présence d'un signal de transcription au niveau de ces loci et, indirectement, sur l'expression du gène hôte. Ces observations offrent une possible base moléculaire à l'effet de ces courtes répétitions en tandem de T.

  • Titre traduit

    Study of regulatory elements on gene expression in humans


  • Résumé

    Genome expression is tightly controlled by different regulatory regions to provide a wide variety of cell types and functions. Identifying these regulatory regions, their characteristics and understand how they interact with each other in a tissue-specific manner is prime importance. This knowledge should help better understand the impact of genomic variants often located in non-coding regions. Besides, cancer development is invariably linked to deregulation of gene expression controls. To pave the way for targeted treatments and precision medicine, it is important to understand how all this machinery is orchestrated.To answer this question, several approaches were developed, most of them based on experimental data of histone modification, methylation and transcription factors (TFs). However, these data are limited to specific samples and cannot be generated for all the regulators and all the patients. First, my thesis research aimed at modeling gene expression based on DNA sequence only. We used a linear model with variable selection, equivalent in term of performances with non-parametric methods and easy to interpret. This model allowed me to compare several types of variables based on the DNA sequence, as TFs binding motifs and nucleotide composition. These variables are computed for various gene regions to estimate their regulatory power and contribution. Strikingly, introns, for which nucleotide composition reflects gene environment, appear to explain an important part of gene expression variation. Furthermore, we demonstrated that the topological domains (TADs), in which interactions are favored, share similar genomic compositions. Our prediction model presumably captures, for every individual, the composition of active TADs.A second aspect of my work studied the regulations occurring in introns. The international FANTOM consortium provided one of the most important transcription start sites (TSSs) atlas and we noticed that the majority of these TSSs are detected into non-coding regions, in particular introns. We thus investigated these intronic TSSs. To determine if these TSSs are functional, we searched for new potential regulatory motifs at the vicinity of these transcription signals. We found that a fraction of them is located 2 bases downstream of a repetition of Ts. Biochemical and genetic evidences suggest that at least part of these signals correspond to sense-intronic long non-coding RNAs, which are expressed in a tissue specific manner. The length of the T repetition also appears to govern the presence of a transcription signal at these loci and indirectly impact on host gene expression. These findings provide one possible molecular explanation for the effect of these short tandem repeats of Ts.



Le texte intégral de cette thèse sera accessible librement à partir du 27-11-2019

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?