Thèse de doctorat en Analyse de génomes et modélisation moléculaire
Sous la direction de Claude Thermes.
Soutenue en 2008
à Paris 7 .
Bien que la position des gènes soit généralement considérée comme aléatoire dans les génomes eucaryotes, des groupes de gènes co-exprimés ont été mis en évidence pour divers organismes. Cependant, l'importance de ces groupes est controversée chez l'homme. Notre objectif est d'analyser l'organisation des gènes en fonction de leur distance aux origines de réplication. Nous nous sommes appuyés sur des résultats montrant l'existence d'un biais de composition nucléotidique réplicatif. Nous avons développé une méthode d'analyse multi-échelles du profil de biais de composition, basée sur la transformée en ondelettes. Un tiers du profil de biais humain est constitué de structures remarquables, les N-domaines, caractérisées par une paire de sauts ascendants (origines de réplication potentielles) encadrant un segment linéaire décroissant. Ces structures semblent avoir été conservées chez les mammifères et les oiseaux. L'analyse de données de chronologie de réplication confirme que les bords des N-domaines sont répliqués plus précocement que le centre. Autour de ces origines, les gènes sont nombreux, exprimés dans un grand nombre de tissus et co-orientées au sens de propagation des fourches de réplication. Ces caractéristiques diminuent avec la distance à l'origine. Cette organisation spécifique résulterait de contraintes sur l'initiation de la réplication et de la transcription, et de la minimisation de collision frontale entre ADN et ARN polymérases. Nos résultats permettent de proposer un nouveau modèle d'organisation des gènes chez l'homme, dans lequel la transcription, la réplication et la structure chromatinienne agissent de façon coordonnée sur l'architecture des génomes.
Role of replication in evolution and organisation of the human genome
Although genes are generally considered as randomly positioned in the genome, clusters of co-expressed genes have been identified in many organisms, from yeast to human. However, in human, the importance of these clusters is controversial. Our goal is to study human gene organisation according to replication origins. For this purpose, we based our study on previous results showing the existence of a nucleotide compositional asymmetry associated with replication. We developed a multi-scale methodology using the wavelet transform to analyse the profile of compositional asymmetries in the human genome. In one third of the genome, the skew profile is composed of structures, named N-domains, characterised by a pair of upward jumps framing a linearly decreasing segment. These jumps are associated with putative replication origins. These structures seem to have been conserved, during evolution, in mammals and birds. Analysis of replication timing data shows that in most cases, the N-domain borders are associated with replication initiation sites active in the early S phase. Around these origins, genes are abundant, broadly expressed, and co-orientated with the replication fork orientation. These properties decrease progressively with the distance to the closest putative origin. In the centre of N-domains, genes are rare and expressed in few tissues. This organisation likely results from constraints to reduce head-on collisions between the DNA and RNA polymerases. Our findings provide a new model of gene organisation in the human genome, which integrates transcription, replication, and chromatin structure as coordinated determinants of genome architecture.