Recherche des sites de régulation de la transcription dans des génomes bactériens

par Fabrice Touzain

Thèse de doctorat en Informatique

Sous la direction de Gregory Kucherov et de Pierre Leblond.

Soutenue le 15-11-2007

à Nancy 1 , dans le cadre de IAEM Lorraine , en partenariat avec LORIA (laboratoire) .

Le président du jury était Sophie Schbath.

Le jury était composé de Gregory Kucherov, Pierre Leblond, Sophie Schbath, Claude Gerbaud, Christian Michel, Bertrand Aigle, Isabelle Debled-Rennesson.

Les rapporteurs étaient Claude Gerbaud, Christian Michel.


  • Résumé

    Nombre de programmes ont été développés pour identifier des sites de fixation de facteurs de transcription. La plupart ne sont pas capables d’inférer des motifs composés de deux mots en autorisant une variation de leur espacement, caractéristiques des sites de fixation des sous-unités s de l’ARN polymérase (SFFS). Cette thèse vise à l’élaboration d’un algorithme prenant en compte toutes les connaissances biologiques structurelles de ces sites en vue de leur prédiction fiable. Nous présentons une nouvelle approche, SIGffRid (pour SIGma Factor Finder using R’MES to select Input Data), pour l’identification des SFFS qui compare deux génomes bactériens phylogénétiquement apparentés. La méthode analyse des paires de régions promotrices de gènes orthologues. Elle utilise la sur-représentation statistiquement dans les génomes complets comme critère de sélection des boîtes -35 et -10 potentielles. Des motifs composites conservés sont alors groupés en utilisant des paires de courtes graines, en autorisant la variabilité de l’espacement qui les sépare. Les motifs sont ensuite étendus suivant des considérations statistiques. Les plus significatifs sont retenus. Cet algorithme a été applique´ avec succès à la paire de génomes bactériens apparentés de Streptomyces coelicolor A3(2) et Streptomyces avermitilis. Nous démontrons que notre approche, combinant des critères statistiques et biologiques, parvient à prédire des SFFS, et abordons les améliorations envisagées.

  • Titre traduit

    Searching for transcriptional regulatory sites in bacterial genomes


  • Résumé

    Many programs have been developed to identify transcription factor binding sites. Most of them are not able to infer two-word motifs with variable spacer lengths, characteristics of RNA polymerase Sigma (s) Factor Binding Sites (SFBSs). The aim of this thesis is to design an algorithm taking into account the biological structural observations about these sites, in order to their relevant prediction. We describe a new approach, SIGffRid (SIGma Factor binding sites Finder using R’MES to select Input Data), to identify SFBSs by comparing two related bacterial genomes. The method performs a simultaneous analysis of pairs of promoter regions of orthologous genes. SIGffRid uses a prior identification of over-represented patterns in whole genomes as selection criteria for potential -35 and -10 boxes. These patterns are then grouped using pairs of short seeds, allowing a variable-length spacer between them. This is followed by motif extension guided by statistical considerations. Finally, statitically feasible and relevant motifs are selected. We applied our method to the pair of related bacterial genomes of Streptomyces coelicolor A3(2) and Streptomyces avermitilis. We demonstrate that our approach combining statistical and biological criteria was successful to predict SFBSs, and envisage ameliorations.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Lorraine. Direction de la Documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.