Gene families distributions across bacterial genomes : from models to evolutionary genomics data

par Eleonora De Lazzari

Thèse de doctorat en Physique

Sous la direction de Marco Cosentino Lagomarsino.

Soutenue le 08-11-2017

à Paris 6 , dans le cadre de École doctorale Physique en Île-de-France (Paris) , en partenariat avec Biologie Computationnelle et Quantitative = Laboratory of Computational and Quantitative Biology (laboratoire) .

Le président du jury était Aleksandra Walczak.

Le jury était composé de Amos Maritan, Namiko Mitarai.

Les rapporteurs étaient Bianca Scalvi, Didier Chatenay.

  • Titre traduit

    Distributions de familles de gènes à travers génomes bactériens : modèles à données de génomique évolutionnaires


  • Résumé

    La génomique comparative est un sujet essentiel pour éclaircir la biologie évolutionnaire. La première étape pour dépasser une connaissance seulement descriptive est de développer une méthode pour représenter le contenu du génome. Nous avons choisi la représentation modulaire des génomes pour étudier les lois quantitatives qui réglementent leur composition en unités élémentaires de type fonctionnel ou évolutif. La première partie de la thèse se fonde sur l'observation que le nombre de domaines ayant la même fonction est lié à la taille du génome par une loi de puissance. Puisque les catégories fonctionnelles sont des agrégats de familles de domaines, on se demande comment le nombre de domaines dans la même catégorie fonctionnelle est lié à l'évolution des familles. Le résultat est que les familles suivent également une loi de puissance. Le deuxième partie présente un modèle positif qui construit une réalisation à partir des composants liés dans un réseau de dépendance. L'ensemble de toutes les réalisations reproduit la distribution des composants partagés et la relation entre le nombre de familles distinctes et la taille du génome. Le dernier chapitre étend l'approche modulaire aux écosystèmes microbiens. Sur la base des constatations que nous avons faites sur les lois de puissance pour les familles de domaines, nous avons analysé comment le nombre de familles dans un metagénome en est influencé. Par conséquence, nous avons défini une nouvelle observable dont la forme fonctionnelle comprend des informations quantitatives sur la composition originelle du metagénome.


  • Résumé

    Comparative genomics is as a fundamental discipline to unravel evolutionary biology. To overcome a mere descriptive knowledge of it the first challenge is to develop a higher-level description of the content of a genome. Therefore we used the modular representation of genomes to explore quantitative laws that regulate how genomes are built from elementary functional and evolutionary ingredients. The first part sets off from the observation that the number of domains sharing the same function increases as a power law of the genome size. Since functional categories are aggregates of domain families, we asked how the abundance of domains performing a specific function emerges from evolutionary moves at the family level. We found that domain families are also characterized by family-dependent scaling laws. The second chapter provides a theoretical framework for the emergence of shared components from dependency in empirical component systems with non-binary abundances. We defined a positive model that builds a realization from a set of components linked in a dependency network. The ensemble of resulting realizations reproduces both the distribution of shared components and the law for the growth of the number of distinct families with genome size. The last chapter extends the component systems approach to microbial ecosystems. Using our findings about families scaling laws, we analyzed how the abundance of domain families in a metagenome is affected by the constraint of power-law scaling of family abundance in individual genomes. The result is the definition of an observable, whose functional form contains quantitative information on the original composition of the metagenome.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.