Etablissement d'une architecture bioinformatique et biostatistique d'intégration et d'analyse des données génomiques, épigénétiques et phylogénétiques du génome humain : Application aux sites de fixation du facteur de transcription hStaf/ZNF143

par Yannick-Noël Anno

Thèse de doctorat en Bioinformatique

Sous la direction de Philippe Carbon et de Odile Lecompte.

Soutenue en 2010

à Strasbourg .


  • Résumé

    Le facteur STAF est une protéine deux régions distinctes d’activation de la transcription, selon la machinerie de transcription mobilisée. Une étude récente faisant état d'un millier de sites potentiels au sein des promoteurs de gènes protéiques et dont 400 furent validés expérimentalement laisse supposer que le nombre de sites à l'échelle du génome soit encore plus nombreux, forçant à développer d'autres méthodes de caractérisation à même de questionner le génome entier et de forts volumes de données. Ce problème adresse un challenge d'envergure supérieure : faire émerger de la connaissance à partir d'une région génomique. Afin de savoir quelle connaissance est pertinente, il est indispensable d'évaluer en quoi celle-ci s'écarte des valeurs attendues du génome et donc de connaitre ces valeurs. Dans cette optique nous avons développé l'architecture GeCo, solution soutenue par une base de données automatisée et son portail web, et dont la puissance repose sur son aptitude à déterminer les valeurs statistiques des gènes et du génome complet. Caractérisé par un ensemble de descripteurs (séquence, épigénétique, phylogénétique), le contexte qui en émerge est utilisé pour replacer tout questionnement génomique dans son environnement global, de manière rapide et fiable. Au delà du contexte génomique, c'est une philosophie de développement basée sur de solides outils statistiques que nous avons développé. Son message est que produire des résultats ne suffit plus et qu'il est impératif de les remettre dans leur contexte. Cette architecture permit de mettre en évidence plusieurs milliers de sites de STAF et est d’ores et déjà connectée aux autres projets du laboratoire.

  • Titre traduit

    Establishment of biostatistics-based bioinformatics platform for integration and analysis of genomic, epigenetic and phylogenetic data : Application to hSTAF/ZNF143 transcription factor binding sites


  • Résumé

    STAF factor is a protein with two distinct regions for activation of transcription using two transcription machineries. A recent study reporting a thousand potential sites within the promoters of genes and proteins of which 400 were validated experimentally suggests that the number of sites across the genome may be even higher, forcing them to develop other characterization methods to question the whole genome and high volumes of data. This issue addresses a major challenge: the emergence of knowledge from a genomic region. To determine which knowledge is relevant, it is essential to assess how it deviates from the expected values of the genome and therefore to know these values. In this context we developed the architecture GeCo, a solution supported by a computerized database and its web portal, and whose power lies in its ability to determine the statistical values of genes and genome. Characterized by a set of descriptors (sequence, epigenetic, phylogenetic) the emerging context is used to quickly and reliably replace any genomic questioning inside its overall environment. Beyond the genomic context, it is a coding philosophy based on reliable statistical tools that we developed. Its message is that producing results is no longer sufficient and it is imperative to put in back in its context. This architecture allowed revealing thousands of STAF binding sites and is already connected to other projects in the laboratory.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (250 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 146-153

Où se trouve cette thèse ?

  • Bibliothèque : Université de Strasbourg. Service commun de la documentation. Bibliothèque Blaise Pascal.
  • Disponible pour le PEB
  • Cote : Th.Strbg.Sc.2010;0685
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.