Modèles de mutation : étude probabiliste et estimation paramétrique

par Adrien Mazoyer

Thèse de doctorat en Mathématiques Appliquées

Sous la direction de Bernard Ycart.

Le président du jury était Adeline Leclercq-Samson.

Le jury était composé de Agnès Hamon, Guillaume Martin.

Les rapporteurs étaient Sylvie Méléard, Philip J. Gerrish.


  • Résumé

    Les modèles de mutations décrivent le processus d’apparitions rares et aléatoires de mutations au cours de lacroissance d’une population de cellules. Les échantillons obtenus sont constitués de nombres finaux de cellules mutantes,qui peuvent être couplés avec des nombres totaux de cellules ou un nombre moyen de cellules en fin d’expérience.La loi du nombre final de mutantes est une loi à queue lourde : de grands décomptes, appelés “jackpots”,apparaissent fréquemment dans les données.Une construction générale des modèles se décompose en troisniveaux. Le premier niveau est l’apparition de mutations aléatoires au cours d’un processus de croissance de population.En pratique, les divisions cellulaires sont très nombreuses, et la probabilité qu’une de ces divisions conduise à une mutation est faible,ce qui justifie une approximation poissonnienne pour le nombre de mutations survenant pendant un temps d’observation donné.Le second niveau est celui des durées de développement des clones issus de cellules mutantes. Du fait de la croissance exponentielle,la majeure partie des mutations ont lieu à la fin du processus, et les durées de développement sont alors indépendanteset exponentiellement distribuées. Le troisième niveau concerne le nombre decellules qu’un clone issu d’une cellule mutante atteint pendant une durée de développement donnée.La loi de ce nombre dépend principalement de la loi des instants de division des mutantes.Le modèle classique, dit de Luria-Delbrück, suppose que les développements cellulaires des cellules normales aussi bien que mutantess’effectue selon un processus de Yule. On peut dans ce cas calculer expliciter la loi du nombre final de mutantes.Elle dépend de deux paramètres, qui sont le nombre moyen de mutations et le paramètre de fitness (ratio des taux de croissance des deux types de cellules).Le problème statistique consiste à estimer ces deux paramètres au vu d’un échantillon denombres finaux de mutantes. Il peut être résolu par maximisation de la vraisemblance,ou bien par une méthode basée sur la fonction génératrice. Diviser l'estimation du nombre moyen de mutations par le nombre total de cellulespermet alors d'estimer la probabilité d’apparition d’une mutation au cours d’une division cellulaire.L’estimation de cette probabilité est d’une importancecruciale dans plusieurs domaines de la médecine et debiologie: rechute de cancer, résistance aux antibiotiques de Mycobacterium Tuberculosis, etc.La difficulté provient de ce que les hypothèses de modélisation sous lesquelles la distribution du nombre final de mutants est explicitesont irréalistes.Or estimer les paramètres d’un modèle quand la réalité en suit un autre conduit nécessairement à un biais d’estimation.Il est donc nécessaire de disposer de méthodes d’estimation robustes pour lesquelles le biais, en particulier sur la probabilité de mutation,reste le moins sensible possible aux hypothèses de modélisation.Cette thèse contient une étude probabiliste et statistique de modèles de mutations prenant en compte les sources de biais suivantes : durées de vie non exponentielles, morts cellulaires,variabilité du nombre final de cellules, durées de vie non-exponentielles et non-identiquement distribuées, dilution de la population initiale.Des études par simulation des méthodes considérées sont effectuées afin de proposer, selon les caractéristiques du modèle,l’estimation la plus fiable possible. Ces méthodes ont également été appliquées à desjeux de données réelles, afin de comparer les résultats avec les estimations obtenues avec les modèles classiques.Un package R a été implémenté en collaboration avec Rémy Drouilhet et Stéphane Despréaux et est disponible sur le CRAN.Ce package est constitué des différents résultats obtenus au cours de ce travail. Il contient des fonctions dédiées aux modèles de mutations,ainsi qu'à l'estimation des paramètres. Les applications ont été développées pour le Labex TOUCAN (Toulouse Cancer).

  • Titre traduit

    Mutation models : probabilistic study and parameter estimation


  • Résumé

    Mutation models are probabilistic descriptions of the growth of a population of cells, where mutationsoccur randomly during the process. Data are samples of integers, interpreted as final numbers ofmutant cells. These numbers may be coupled with final numbers of cells (mutant and non mutant) or a mean final number of cells.The frequent appearance in the data of very large mutant counts, usually called “jackpots”, evidencesheavy-tailed probability distributions.Any mutation model can be interpreted as the result of three ingredients. The first ingredient is about the number of mutations occuring with small probabilityamong a large number of cell divisions. Due to the law of small numbers, the number of mutations approximately follows aPoisson distribution. The second ingredient models the developing duration of the clone stemming from each mutation. Due to exponentialgrowth, most mutations occur close to the end of the experiment. Thus the developing time of arandom clone has exponential distribution. The last ingredients represents the number of mutant cells that any clone developing for a given time will produce. Thedistribution of this number depends mainly on the distribution of division times of mutants.One of the most used mutation model is the Luria-Delbrück model.In these model, division times of mutant cells were supposed to be exponentially distributed.Thus a clone develops according to a Yule process and its size at any given time follows a geometric distribution.This approach leads to a family of probability distributions which depend on the expected number of mutations and the relative fitness, which is the ratio between the growth rate of normal cells to that of mutants.The statistic purpose of these models is the estimation of these parameters. The probability for amutant cell to appear upon any given cell division is estimated dividing the mean number of mutations by the mean final number of cells.Given samples of final mutant counts, it is possible to build estimators maximizing the likelihood, or usingprobability generating function.Computing robust estimates is of crucial importance in medical applications, like cancer tumor relapse or multidrug resistance of Mycobacterium Tuberculosis for instance.The problem with classical mutation models, is that they are based on quite unrealistic assumptions: constant final number of cells,no cell deaths, exponential distribution of lifetimes, or time homogeneity. Using a model for estimation, when thedata have been generated by another one, necessarily induces a bias on estimates.Several sources of bias has been partially dealed until now: non-exponential lifetimes, cell deaths, fluctuations of the final count of cells,dependence of the lifetimes, plating efficiency. The time homogeneity remains untreated.This thesis contains probabilistic and statistic study of mutation models taking into account the following bias sources:non-exponential and non-identical lifetimes, cell deaths, fluctuations of the final count of cells, plating efficiency.Simulation studies has been performed in order to propose robust estimation methods, whatever the modeling assumptions.The methods have also been applied to real data sets, to compare the results with the estimates obtained under classical models.An R package based on the different results obtained in this work has been implemented (joint work with Rémy Drouilhetand Stéphane Despréaux) and is available on the CRAN. It includes functions dedicated to the mutation models and parameter estimation.The applications have been developed for the Labex TOUCAN (Toulouse Cancer).


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.