ANALYSE BIOINFORMATIQUE DES RECONSTRUCTIONS GÉNOMIQUES ANCESTRALES

par Johny Matar

Projet de thèse en Informatique

Sous la direction de Christophe Guyeux et de Jean-Claude Charr.

Thèses en préparation à Bourgogne Franche-Comté , dans le cadre de École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; Dijon ; Belfort) , en partenariat avec FEMTO-ST Franche Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (laboratoire) et de DISC - Département Informatique et Systèmes Complexes (equipe de recherche) depuis le 04-09-2018 .


  • Résumé

    Le coût de séquençage d'un génome a chuté au cours des dix dernières années à un point tel que le nombre de génomes complets disponibles explose en ce moment, Cela est particulièrement vrai pour des génomes de taille moyenne tels que les chloroplastes: celui d'Angiopteris evecta, par exemple, est un mot comprenant 153901 lettres (nucléotides ATCG) regroupés dans 141 gènes (mots de quelques centaines à quelques milliers de lettres). On possède ainsi, à l'heure actuelle, de l'ordre de 500 génomes chloroplastiques d'espèces de plantes, représentant bien la diversité de ces dernières (des algues brunes jusqu'aux eucalyptus). La détection de séquences codantes est rendue possible en cherchant, à similarité près mesurée par programmation dynamique, des gènes connus présents dans des bases telles que le GenBank du NCBI. Deux espèces de plantes données ne possèdent pas nécessairement les mêmes gènes chloroplastiques, mais pour des espèces pas trop éloignées (par exemple, appartenant à la même famille), le core génome est suffisamment large pour que, une fois ces gènes communs alignés par Needleman-Wunch, des techniques type hill climbing puisse trouver l'arbre binaire enraciné (dit «phylogénétique») le mieux supporté et maximisant la vraisemblance d'obtenir cet alignement de gènes, connaissant l'arbre et un modèle d'évolution (mutations de gènes). Nous pouvons donc, à partir de ces 450 génomes, reconstruire l'arbre phylogénétique biomoléculaire le plus probable, tout en ayant au niveau des feuilles à la fois chaque génome et sa liste de gènes. L'objectif, jamais réalisé jusqu'à présent, consiste alors à reconstruire les génomes ancestraux à chaque nœud de l'arbre, et ce jusqu'au dernier ancêtre commun LUCA (last universal common ancestor). Cette reconstruction doit se faire en 2 étapes: commencer par déterminer le contenu en gènes des ancêtres, ainsi que leur ordonnancement, puis enchaîner par la reconstruction des séquences nucléotidiques. Ces reconstructions nécessitent de concevoir des algorithmes ad-hoc de type Levenshtein. La connaissance de ces ancêtres pourra ensuite être utilisée pour comprendre plus en profondeur les mécanismes de recombinaison génomiques qui ont eu lieu au cours de l'Évolution, leur fréquence et leur type (inversion, duplication/délétion, insertion), leur étendue. On pourra tester des hypothèses ayant trait à diverses endosymbioses (insertion d'une cellule dans une autre) supposées avoir eu lieu au cours de l'Évolution, et regarder si oui ou non LUCA était une cyanobactérie.

  • Titre traduit

    BIOINFORMATIC ANALYSIS OF ANCESTRAL GENOMIC RECONSTRUCTIONS


  • Résumé

    The cost of sequencing a genome has dropped over the past decade to such an extent that the number of complete genomes available is exploding at this time. This is particularly true for medium-sized genomes such as chloroplasts. Angiopteris evecta, for example, is a word comprising 153901 letters (ATCG nucleotides) grouped into 141 genes (words from a few hundred to a few thousand letters). At the present time, there are about 500 chloroplastic genomes of plant species, representing the diversity of the latter (from brown algae to eucalyptus). The detection of coding sequences is made possible by searching, similarly measured by dynamic programming, for known genes present in bases such as the NCBI GenBank. Two given plant species do not necessarily have the same chloroplast genes, but for species not too far apart (eg. belonging to the same family), the core genome is large enough that once these common genes are aligned by Needleman- Wunch, hill climbing techniques can find the rooted binary tree (called "phylogenetic") best supported and maximizing the likelihood of obtaining this gene alignment, knowing the tree and a model of evolution (mutations of genes). We can therefore, from these 450 genomes, reconstruct the most probable biomolecular phylogenetic tree, while having at the leaf level both each genome and its list of genes. The objective, never realized until present, consists in reconstructing the ancestral genomes at each node of the tree, up to the last common ancestor LUCA (last universal common ancestor). This reconstruction must be done in two steps: starting by determining the gene content of the ancestors, as well as their sequencing, and then linking up by the reconstruction of the nucleotide sequences. These reconstructions require the design of ad-hoc algorithms of the Levenshtein type. The knowledge of these ancestors can then be used to understand more in depth the genomic recombination mechanisms that took place during the Evolution, their frequency and type (inversion, duplication / deletion, insertion), their extent. Hypotheses related to various endosymbioses (insertion of one cell into another) that may have occurred during Evolution, and whether or not LUCA was a cyanobacterium, could be tested.