Étude de l'évolution combinatoire des gènes par l'analyse de réseaux de similarité de séquence

par Pierre-Alain Jachiet

Thèse de doctorat en Biologie évolutive

Sous la direction de Eric Bapteste et de Philippe Lopez.

Soutenue le 02-07-2014

à Paris 6 , dans le cadre de École doctorale Complexité du vivant (Paris) , en partenariat avec Evolution Paris Seine (laboratoire) .

Le jury était composé de Yan Boucher, Didier Casane, Laurent Viennot, Claudine Devauchelle, François-Joseph Lapointe, Martin Weigt.


  • Résumé

    L’accumulation récente de données de séquences génomiques a montré que l’évolution des gènes n’est pas strictement arborescente. De nombreux processus évolutifs, comme l’exon shuffling, la fusion de gènes ou la recombinaison illégitime remodèlent les gènes, créant des structures composites, formées de parties dont les histoires évolutives sont différentes. Le développement de réseaux de similarité de séquences fournit un cadre analytique permettant d’étudier l’impact de ces processus sur l’évolution moléculaire, en structurant les relations de ressemblance entre séquences et en formalisant en termes de graphes la détection de gènes (triplets intransitifs) et de familles de gènes (cliques minimales séparatrices) composites. La taille des jeux de données actuels, de l’ordre de plusieurs millions de séquences, a également requis le développement de nouveaux outils et méthodes : parallélisation des comparaisons de séquences, visualisation de très grands réseaux par simplification en communautés de Louvain et identification de grands cycles. Appliquées à des jeux de données de génomes eucaryotes et viraux, ces méthodes ont démontré la présence de gènes composites dans tout le vivant et les éléments génétiques mobiles. En proportion, les gènes composites sont plus nombreux dans les génomes eucaryotes ; en nombre absolu, ils sont plus nombreux à être portés par des virus. Chez ces derniers, la distribution fonctionnelle des gènes composites est biaisée (enrichissement dans les familles essentielles pour la perpétuation du cycle viral), et les éléments des gènes composites trouvent même parfois leurs origines dans le matériel génétique de classes virales différentes. Plus généralement, l’étendue des processus combinatoires, en révélant des liens évolutionnaires autres que les liens d’homologie au sens fort, justifie une étude pluraliste des relations de similarité entre séquences.

  • Titre traduit

    Using sequence similarity networks to study combinatorial evolution of genes


  • Résumé

    The recent accumulation of genomic sequence data has shown that gene evolution is not strictly tree-Like. Many evolutionary processes, like exon shuffling, gene fusion or nonhomologous recombination remodel genes by creating composite structures that are made from parts with different evolutionary histories. The development of sequence similarity networks provides an analytical framework to study the impact of these processes on molecular evolution, by structuring the resemblance relationships between sequences and by formalizing, in terms of graph theory, the detection of composite genes (intransitive triplets) and gene families (clique minimal separators). The size of current data sets, typically several million sequences, has also required the development of new tools and methods: sequence comparison parallelization, large networks visualization with Louvain communities and large cycles identification. When applied to eukaryotic and viral genome data sets, these methods have shown that composite genes are found throughout cellular organisms and mobile genetic elements. Proportionally, composite genes are more numerous in eukaryotic genomes; in absolute number, they are more numerous in viruses. In the latter, composite genes functional distribution is biased (enrichment of genes families that are essential for the perpetuation of the viral cycle), and the various parts of composite genes sometimes even originate from the genetic material of different viral classes. More generally, the extent of combinatorial processes, by unravelling other evolutionary bonds than homology bonds in the strictest sense, legitimates a pluralistic study of similarity relationships between sequences.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.