Thèse de doctorat en Bioinformatique
Sous la direction de Marie-France Sagot.
Soutenue en 2009
à Lyon 1 .
Le calcul de la distance d'inversion et la recherche des séquences optimales d'inversions pour transformer un génome dans un autre quand les duplications de gènes ne sont pas acceptées sont des outils algorithmiques très utiles pour l'analyse de scénarios d'évolution réels. Néanmoins, le nombre de séquences optimales différentes est très grand. Avec un modèle proposé antérieurement pour regrouper des sous-ensembles de séquences optimales dans des classes d'équivalence, on a developpé un algorithme qui génère une séquence optimale par classe d'équivalence, sans énumérer toutes les séquences, ce qui permet de réduire la taille de l'ensemble à traiter. On propose aussi l'utilisation de différentes contraintes biologiques, comme les intervalles communs détectés initialement et progressivement, pour réduire le nombre de classes, et on montre comment utiliser ces methodes pour analyser des cas réels d'évolution. En particulier, on analyse le scénario évolutif de la bactérie Rickettsia et des chromosomes sexuels X et Y chez l'être humain. Par rapport aux résultats des études précédentes, qui se sont basées sur une seule séquence optimale, on obtient une meilleure caractérisation de ces scénarios évolutifs. Tous les algorithmes qu'on a developpés sont implémentés en java, integrés à baobabLUNA, un logiciel qui contient des outils pour manipuler des génomes et des inversions. Le téléchargement et le tutoriel de baobabLUNA sont disponibles en ligne
Exploring the solution space of sorting by reversals when analyzing genome rearrangements
Calculating the reversal distance and searching for optimal sequences of reversals to transform a genome into another when gene duplications are not allowed are useful algorithmic tools to analyse real evolutionary scenarios. However, the number of sorting sequences is usually huge. Using a model previously proposed to group the sorting sequences into classes of equivalence, we developed an algorithm to direct generate the classes without enumerating all sequences, reducing thus the size of the set to be handled. We then propose the use of different biological constraints, such as the common intervals initially and progressively detected, to reduce the universe of sequences and classes, and show how to apply these methods to analyze real cases in evolution. In particular, we analyzed the evolution of the Rickettsia bacterium, and of the sexual chromosomes X and Y in human. We obtain a better characterization of the evolutionary scenarios of these genomes, with respect to the results of previous studies, that were based on a single sorting sequence. All the algorithms developed in this work are implemented, integrated to baobabLUNA, a java framework to deal with genomes and reversals. Download and tutorial for baobabLUNA are available on-line