Méthodes pour la découverte de nouveaux domaines dans les séquences biologiques : application à Plasmodium falciparum

par Christophe Menichelli

Thèse de doctorat en Informatique

Sous la direction de Olivier Gascuel.


  • Résumé

    Identifier les différentes parties d'une séquence biologique (séquence nucléique, ou séquence d'acides aminés) constitue un premier pas vers la compréhension de la biologie de l'organisme dont elle est issue. Étant donné un ensemble de séquences biologiques d'un organisme, nous nous intéressons dans cette thèse à la découverte de «domaines», c-à-d de sous-séquences relativement grandes (plusieurs dizaines de nucléotides ou d'acides aminés) que l'on retrouve dans un nombre important de séquences. Cette thèse est décomposée en deux axes correspondant à la découverte de domaines dans les séquences protéiques et dans les séquences nucléiques. Dans chaque axe, les méthodes développées sont appliquées à Plasmodium falciparum, le pathogène responsable du paludisme chez l'Homme, et pour lequel les méthodes bioinformatiques classiques peinent à produire des annotations satisfaisantes. Le premier axe développé porte sur la découverte de domaines dans les séquences protéiques. Une approche commune pour identifier les domaines d'une protéine consiste à exécuter des comparaisons de paires de séquences avec des outils d'alignements locaux comme BLAST. Cependant, ces approches manquent parfois de sensibilité, en particulier pour les espèces phylogénétiquement éloignées des organismes de référence classiques. Nous proposons ici une approche pour augmenter la sensibilité des comparaisons de paires de séquences. Cette nouvelle approche utilise le fait que les domaines protéiques ont tendance à apparaître avec un nombre limité d'autres domaines sur une même protéine. Chez Plasmodium falciparum, cette méthode permet ladécouverte de 2 240 nouveaux domaines pour lesquels, dans la majorité des cas, il n'existe pas de modèle semblable dans les bases de données de domaines. Le deuxième axe développé porte sur la découverte de domaines dans les séquences régulatrices (séquences ADN). Plusieurs études ont montré qu'il existe un lien fort entre la composition nucléotidique de régions particulières (séquences promotrices notamment) et l'expression des gènes. Nous proposons ici une nouvelle approche permettant de découvrir de manière automatique ces régions, que l'on nomme domaines de régulation. Plus précisément notre approche est basée sur une stratégie d'exploration itérative des compositions nucléotidiques, des plus simples (dinucléotides) aux plus complexes (k-mers), ainsi qu'une stratégie de segmentation supervisée pour découvrir les compositions et les régions d'intérêt. En utilisant les domaines ainsi identifiés, nous montrons que l'on peut prédire l'expression des gènes de Plasmodium falciparum avec une étonnante précision. Appliquée à différentes autres espèces eucaryotes, cette approche montre des résultats très différents suivant les espèces (entre 40 et 70% de corrélation) ce qui laisse entrevoir un mécanisme de régulation sans doute partagé par toutes les espèces eucaryotes mais dont l'importance varie d'une espèce à l'autre.

  • Titre traduit

    Methods for the discovery of new domains in biological sequences: application to Plasmodium falciparum


  • Résumé

    Identifying the different parts of a biological sequence (nucleic sequence, or amino acid sequence) is a first step toward understanding the biology of the organism from which it originates. Given a set of biological sequences of an organism, we are interested in this thesis to the discovery of «domains», ie of relatively large subsequences (several tens of nucleotides or amino acids) that the we can find in a large number of sequences. This thesis is decomposed into two parts corresponding to the discovery of domains in the protein sequences and in the nucleic sequences. In each part, the methods developed are applied to Plasmodium falciparum, the pathogen responsible for malaria in humans, and for which conventional bioinformatic methods struggle to produce satisfactory annotations. The first developed part relates to the discovery of domains in protein sequences. A common approach to identifying domains of a protein is to perform sequencesequence comparisons with local alignment tools such as BLAST. However, these approaches sometimes lack sensitivity, particularly for species phylogenetically distant from conventional reference organisms. Here we propose an approach to increase the sensitivity of sequence-sequence comparisons. This new approach uses the fact that protein domains tend to appear with a limited number of other domains on the same protein. In Plasmodium falciparum, this method allows the discovery of 2 240 new domains for which, in the majority of cases, there is no similar model in domain databases. The second developed part relates to the discovery of domains in regulation sequences (DNA sequences). Several studies have shown that there is a strong link between the nucleotide composition of particular regions (promoter sequences in particular) and the expression of genes. We propose here a new approach to discover automatically these regions, which we call regulation domains. More specifically, our approach is based on a strategy of iterative exploration of nucleotide compositions, from the simplest (dinucleotides) to the most complex (k-mers), as well as a supervised segmentation strategy to discover compositions and regions of interest. Using the domains thus identified, we show that the expression of Plasmodium falciparum genes can be predicted with good precision. Applied to various other eukaryotic species, this approach shows very different results depending on the species (between 40 and 70% correlation) which suggests a regulation mechanism probably shared by all eukaryotic species but whose importance varies from one species to another.