Stochastic models for protein production : the impact of autoregulation, cell cycle and protein production interactions on gene expression

par Renaud Dessalles

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Philippe Robert et de Vincent Fromion.

Soutenue le 11-01-2017

à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne) , en partenariat avec Mathématiques et Informatique Appliquées  du Génome à l'Environnement (Jouy-en-Josas, Yvelines) (laboratoire) , École polytechnique (Palaiseau, Essonne) (établissement opérateur d'inscription) et de Unité MaIAGE (laboratoire) .

Le président du jury était Olivier C. Martin.

Le jury était composé de Philippe Robert, Vincent Fromion, Amandine Véber.

Les rapporteurs étaient Jérôme Robert, Pierre Vallois, Fabien Campillo.

  • Titre traduit

    Modèles stochastiques pour la production des protéines : l'impact de l'autorégulation, du cycle cellulaire et des intéractions entre les productions de protéines sur l'expression génétique


  • Résumé

    Le mécanisme de production des protéines, qui monopolise la majorité des ressources d'une bactérie, est hautement stochastique: chaque réaction biochimique qui y participe est due à des collisions aléatoires entre molécules, potentiellement présentes en petites quantités. La bonne compréhension de l'expression génétique nécessite donc de recourir à des modèles stochastiques qui sont à même de caractériser les différentes origines de la variabilité dans la production ainsi que les dispositifs biologiques permettant éventuellement de la contrôler.Dans ce contexte, nous avons analysé la variabilité d'une protéine produite avec un mécanisme d'autorégulation négatif: c'est-à-dire dans le cas où la protéine est un répresseur pour son propre gène. Le but est de clarifier l'effet de l'autorégulation sur la variance du nombre de protéines exprimées. Pour une même production moyenne de protéine, nous avons cherché à comparer la variance à l'équilibre d'une protéine produite avec le mécanisme d'autorégulation et celle produite en « boucle ouverte ». En étudiant un modèle limite, avec une mise à l'échelle (scaling), nous avons pu faire une telle comparaison de manière analytique. Il apparaît que l'autorégulation réduit effectivement la variance, mais cela reste néanmoins limité : un résultat asymptotique montre que la variance ne pourra pas être réduite de plus de 50%. L'effet sur la variance à l'équilibre étant modéré, nous avons cherché un autre effet possible de l'autorégulation: nous avons observé que la vitesse de convergence à l'équilibre est plus rapide dans le cadre d'un modèle avec autorégulation.Les modèles classiques de production des protéines considèrent un volume constant, sans phénomènes de division ou de réplication du gène, avec des ARN-polymérases et les ribosomes en concentrations constantes. Pourtant, les variation au cours du cycle de chacune de ces quantités a été proposée dans la littérature comme participant à la variabilité des protéines. Nous proposons une série de modèles de complexité croissante qui vise à aboutir à une représentation réaliste de l'expression génétique. Dans un modèle avec un volume suivant le cycle cellulaire, nous intégrons successivement le mécanisme de production des protéines (transcription et traduction), la répartition aléatoire des composés à la division et la réplication du gène. Le dernier modèle intègre enfin l'ensemble des gènes de la cellule et considère leurs interactions dans la production des différentes protéines à travers un partage commun des ARN-polymérases et des ribosomes, présents en quantités limitées. Pour les modèles où cela était possible, la moyenne et la variance de la concentration de chacune des protéines ont été déterminées analytiquement en ayant eu recours au formalisme des Processus Ponctuels de Poisson Marqués. Pour les cas plus complexes, nous avons estimé la variance au moyen de simulations stochastiques. Il apparaît que, dans l'ensemble des mécanismes étudiés, la source principale de la variabilité provient du mécanisme de production des protéines lui-même (bruit dit « intrinsèque »). Ensuite, parmi les autres aspects « extrinsèques », seule la répartition aléatoire des composés semble avoir potentiellement un effet significatif sur la variance; les autres ne montrent qu'un effet limité sur la concentration des protéines. Ces résultats ont été confrontés à certaines mesures expérimentales, et montrent un décalage encore inexpliqué entre la prédiction théorique et les données biologiques, ce qui appelle à de nouvelles hypothèses quant aux possibles sources de variabilité.En conclusion, les processus étudiés ont permis une meilleure compréhension des phénomènes biologiques en explorant certaines hypothèses difficilement testables expérimentalement. Des modèles étudiés, nous avons pu dégager théoriquement certaines tendances, montrant que la modélisation stochastique est un outil important pour la bonne compréhension des mécanismes d'expression génétique.


  • Résumé

    The mechanism of protein production, to which is dedicated the majority of resources of the bacteria, is highly stochastic: every biochemical reaction that is involved in this process is due to random collisions between molecules, potentially present in low quantities. The good understanding of gene expression requires therefore to resort to stochastic models that are able to characterise the different origins of protein production variability as well as the biological devices that potentially control it.In this context, we have analysed the variability of a protein produced with a negative autoregulation mechanism: i.e. in the case where the protein is a repressor of its own gene. The goal is to clarify the effect of this feedback on the variance of the number of produced proteins. With the same average protein production, we sought to compare the equilibrium variance of a protein produced with the autoregulation mechanism and the one produced in “open loop”. By studying the model under a scaling regime, we have been able to perform such comparison analytically. It appears that the autoregulation indeed reduces the variance; but it is nonetheless limited: an asymptotic result shows that the variance won't be reduced by more than 50%. The effect on the variance being moderate, we have searched for another possible effect for autoregulation: it havs been observed that the convergence to equilibrium is quicker in the case of a model with autoregulation.Classical models of protein production usually consider a constant volume, without any division or gene replication and with constant concentrations of RNA-polymerases and ribosomes. Yet, it has been suggested in the literature that the variations of these quantities during the cell cycle may participate to protein variability. We propose a series of models of increasing complexity that aims to reach a realistic representation of gene expression. In a model with a changing volume that follows the cell cycle, we integrate successively the protein production mechanism (transcription and translation), the random segregation of compounds at division, and the gene replication. The last model integrates then all the genes of the cell and takes into account their interactions in the productions of different proteins through a common sharing of RNA-polymerases and ribosomes, available in limited quantities. For the models for which it was possible, the mean and the variance of the concentration of each proteins have been analytically determined using the Marked Poisson Point Processes. In the more complex cases, we have estimated the variance using computational simulations. It appears that, among all the studied mechanisms, the main source of variability comes from the protein production mechanism itself (referred as “intrinsic noise”). Then, among the other “extrinsic” aspects, only the random segregation of compounds at division seems to have potentially a significant impact on the variance; the other aspects show only a limited effect on protein concentration. These results have been confronted to some experimental measures, and show a still unexplained decay between the theoretical predictions and the biological data; it instigates the formulations of new hypotheses for other possible sources of variability.To conclude, the processes studied have allowed a better understanding of biological phenomena by exploring some hypotheses that are difficult to test experimentally. In the studied models, we have been able to indicate theoretically some trends; hence showing that the stochastic modelling is an important tool for a good understanding of gene expression mechanisms.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : École polytechnique. Bibliothèque Centrale.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.