Développements théoriques et méthodes numériques pour les analyses comparatives de génomes et protéomes biaisés : application à la comparaison des génomes et protéomes de plasmodium falciparum et d'arabidopsis thaliana

par Olivier Bastien

Thèse de doctorat en Biologie

Sous la direction de Eric Maréchal.

Soutenue en 2006

à l'Université Joseph Fourier (Grenoble) .


  • Résumé

    Le paludisme, ou malaria, est une maladie infectieuse qui touche plus de 350 millions d'êtres humains et qui tue chaque année 2,5 millions de personnes à travers le monde. Les parasites responsables de la malaria sont des apicomplexes du genre Plasmodium, essentiellement P. Falciparum. Le génome de P. Falciparum, est séquencé depuis octobre 2002, et présente un des taux les plus faibles de gènes annotés, avec ~60 % de gènes sans fonction attribuée. Il est difficile, voire impossible, d'identifier dans le génome de P. Falciparumi, certains gènes, responsables de fonctions mesurées biochimiquement chez le parasite, par similarité avec des séquences homologues caractérisées dans d'autres organismes. Cette difficulté rencontrée lors des recherches automatiques d'homologie est une limite à tout projet exploratoire du génome malarial fondé sur la phylogénie moléculaire. En particulier, l'inventaire des séquences héritées de l'algue ancestrale, qui a réalisé l'endosymbiose secondaire qui caractérise le phylum des Apicomplexa (sous génome d'origine algale dans lequel il est possible de rechercher des cibles pour des médicaments herbicides), peut être rendu incomplet. Les caractéristiques atypiques du génome et du protéome de Plasmodium, résumées sous le terme de biais compositionnel (en particulier un pourcentage en adénosine+thymidine supérieur à 80%), ont été soupçonnées d'être un cas limite pour les outils d'analyse de séquence existants. L'objet de cette thèse a donc été d'examiner l'influence possible de ce type de biais sur les méthodologies de comparaisons de séquences et de façon plus approfondie sur leurs statistiques. Nous avons proposé des développements théoriques nouveaux, associés à la statistique de la Z-value introduite par Lipman et Pearson pour évaluer la significativité d'un score d'alignement de deux séquences protéiques : (1) le théorème TULIP permettant de déduire un majorant de la probabilité d'un score d'alignement de séquences (i. E. La P-value) par la valeur 1/Z-value2 et (2) la déduction des propriétés remarquables de la distribution des Z-values à partir de quelques hypothèses sur l'évolution des protéines dans le contexte de la théorie de la fiabilité des systèmes. Ces développements théoriques ont permis certaines avancées sur le plan pratique de l'identification de séquences homologues initialement non détectées par le théorème de Karlin-Altschul et d'étayer la relation entre les scores d'alignements et l'information mutuelle, au sens de la théorie de l'information. En construisant un espace de configuration des protéines homologues, permettant une expression du théorème TULIP et ayant une cohérence avec la théorie synthétique de l'évolution, nous avons déduit une méthode de reconstruction de phylogénies de séquences protéiques à l'aide des Z-values. Les phylogénies moléculaires reconstruites par cette méthode sont concordantes avec celles obtenues à partir d'alignements multiples et permettent par ailleurs de résoudre certaines incohérences rapportées avec les méthodes de reconstruction phylogéniques classiques. En prenant en compte le modèle statistique que nous avons élaboré, nous avons entrepris une première analyse de l'évolution du biais en acides aminés chez Plasmodium corrélativement à l'évolution du biais en acides nucléiques dans le génome malarial et en fonction de la divergence évolutive, établie en prenant le génome non biaisé d'Arabidopsis thaliana comme référence. Nous avons observé que le biais des séquences malariales était corrélé au pourcentage de divergence avec leurs homologues végétaux. Nos analyses suggèrent de plus que le biais est vraisemblablement la conséquence d'une évolution au niveau nucléique. Nous avons examiné la possibilité de construire une famille de matrices tenant compte de cette dissymétrie dans le cas de la comparaison de Plasmodium et d'Arabidopsis. Ces matrices appelées DirAtPf, possèdent (1) une sensibilité théorique et (2) une spécificité supérieure aux familles de matrices existantes. Les perspectives des travaux présentés dans ce mémoire incluent une progression de l'annotation automatique de Plasmodium falciparum et la mise en place d'une procédure statistiquement robuste et phylogénétiquement consistante pour caractériser le sous-génome algal du parasite malarial.


  • Pas de résumé disponible.

  • Titre traduit

    Theoretical advances and numerical methods for genomes comparisons : application to the Plasmodium falciparum/Arabidpsis thaliana genomes and proteomes comparison


  • Résumé

    Malaria is a major threat for humankind with a rough record of half a billion of infected people. Recently, one of the best known attributes of the plant cells, a relic chloroplast, termed apicoplast, was discovered within the cells of apicomplexan parasites and appears to holds vital functions unique to plants. Therefore, it is now admitted that in the “plant-side” of the parasite reside innovative targets for intervention, using molecules harboring herbicidal properties. To that extent, the release of the complete genome of Plasmodium falciparum , paved the way to the search for innovative plant-related protein targets. A first step for searching such target is the genome-scale pairwise comparison between plant model, like Arabidopsis thaliana, and P. Falciparum. The first release of P. Falciparum identify 5268 predicted proteins from which 60% have not sufficient similarity to proteins in other organisms to justify a functional assignment. A singular feature of the P. Falciparum genome was put forward to explain this prediction failure: the A+T richness (82%) which is known to influenced the distribution of amino acids in proteins. In order to consider this feature , we developed a new scoring scheme that extend the BLOSUM model, the non-symmetric matrices dirAtPf, which consider the difference of global distribution of amino acids in proteins between two species. One supplementary effort in sequence analysis theory have been made with a mathematical demonstration which provide a single-linkage clustering criterion for genome-scale comparison. This demonstration lie on the Z-Value computation and the Bienaymé-Chebyshev theorem. We re-examined the estimate of the sequences “dissemblance within assessed resemblance” as a source for divergence time calculation and evolutionary reconstruction. We sought the probabilistic, statistical and geometric rules that an optimal alignment score has to respect in respect of the recently demonstrated TULIP theorem. We used these rules as a framework of constraints to build up a geometric representation of a space of probably homologous proteins and define a theoretically explicit measure of protein proximity. Eventually, we constrained the topology associated to this geometric space by respecting i) the protein clock and derived phylogenetic models and ii) taking into account the lineages that separate sequences from the ancestral diverging events. This unified model, called the TULIP topological space, reconciles concepts from different fields of protein science that were not yet explicitly connected. The spatial geometry and topology of probably homologous proteins, built from pair-wise alignments, being univocal, applications include the reconstruction of univocal classification trees. The power of this elaborate topological spatial representation is illustrated by comparison with phylogenetic reconstructions obtained from multiple alignments.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (169 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. [157]-169

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS06/GRE1/0032
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS06/GRE1/0032/D
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.