The Statistical Fate of Genomic DNA : Modelling Match Statistics in Different Evolutionary Scenarios

par Florian Massip

Thèse de doctorat en Mathématiques aux interfaces

Sous la direction de Sophie Schbath.

Le président du jury était Amaury Lambert.

Le jury était composé de Sophie Schbath, Amaury Lambert, Philipp Messer, Laurent Duret, Peter F. Arndt, Christine Dillmann.

Les rapporteurs étaient Philipp Messer, Laurent Duret.

  • Titre traduit

    Le devenir statistique de l'ADN génomique : Modélisation des statistiques d'appariement dans différents scénarios évolutifs


  • Résumé

    Le but de cette thèse est d'étudier la distribution des tailles des répétitions au sein d'un même génome, ainsi que la distribution des tailles des appariements obtenus en comparant différents génomes. Ces distributions présentent d'importantes déviations par rapport aux prédictions des modèles probabilistes existants. Étonnamment, les déviations observées sont distribuées selon une loi de puissance. Afin d'étudier ce phénomène, nous avons développé des modèles mathématiques prenant en compte des mécanismes évolutifs plus complexes, et qui expliquent les distributions observées. Nous avons aussi implémenté des modèles d'évolution de séquences in silico générant des séquences ayant les mêmes propriétés que les génomes étudiés. Enfin, nous avons montré que nos modèles permettent de tester la qualité des génomes récemment séquencés, et de mettre en évidence la prévalence de certains mécanismes évolutifs dans les génomes eucaryotes.


  • Résumé

    In this thesis, we study the length distribution of maximal exact matches within and between eukaryotic genomes. These distributions strongly deviate from what one could expect from simple probabilistic models and, surprisingly, present a power-law behavior. To analyze these deviations, we develop mathematical frameworks taking into account complex mechanisms and that reproduce the observed deviations. We also implemented in silico sequence evolution models that reproduce these behaviors. Finally, we show that we can use our framework to assess the quality of sequences of recently sequenced genomes and to highlight the importance of unexpected biological mechanisms in eukaryotic genomes.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Sud. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.