Mise au point de méthodologies statistiques appliquées à des données issues de la génomique : puces à ADN, ChIP-chip et ChIP-Seq.

par Florian Salipante

Thèse de doctorat en Biologie Santé

Sous la direction de Laurent Journot.

Soutenue le 11-07-2011

à Montpellier 2 , dans le cadre de Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; ....-2014) , en partenariat avec UMR 5203 - Institut de Génomique Fonctionnelle - IGF (laboratoire) .

Le jury était composé de Laurent Journot, Gilles Ducharme, Gregory Nuel, Christelle Reynès, Robert Sabatier.

Les rapporteurs étaient Anne-claude Camproux, Christèle Robert-granié.


  • Résumé

    La recherche dans le domaine de la génomique génère de données colossales dont la dimension ne cesse de s'accroître avec la technologie. Pour traiter cette masse d'information, la statistique est devenue un outil indispensable. Ce nouveau type de données représente un véritable challenge dans la mesure où ces données sont de très grande dimension, qu'elles sont très "bruitées" et qu'il n'existe généralement pas de "golden standard" permettant de valider les résultats. Au cours de cette thèse, nous nous sommes intéressés à l'analyse statistique de trois types de données : les puces à ADN, les ChIP-chip et les ChIP-Seq. Pour chacune d'entres elles, une nouvelle approche a été mise au point. Dans le cas des données de puces à ADN, la méthode GAGG permet de détecter les gènes différentiellement exprimés et de les grouper par type de profils. Pour ce faire, un Algorithme Génétique est utilisé de manière à optimiser deux critères liés à des méthodes voisines de l'ACP et des k-means. Pour les données de ChIP-chip, la méthode POTChIPS a été réalisée. Elle permet de repérer sur le génome, les sites de fixation d'une protéine d'intérêt (ex : un facteur de transcription). Dans cette méthode, une extraction des pics du signal est réalisée puis un seuil de significativité est déterminé à partir d'une modélisation POT. Enfin, pour ce qui est des données de ChIP-Seq, l'objectif est le même que pour les ChIP-chip, à savoir, repérer les sites de fixation d'une protéine sur l'ADN. La méthode POTSeq, mise au point au cours de cette thèse, est une adaptation de POTChIPS aux données de ChIP-Seq.

  • Titre traduit

    Development of statistical methodologies applied to genomics data : microarray, ChIP-chip and ChIP-Seq.


  • Résumé

    Research in Genomics produces very huge data which still increase with technology. Statistics is becoming essential to treat this amount of information. These new kind of data represent a great challenge in data analysis because of the great dimensions, the important background and the absence of "golden standard" which could allow to validate the obtained results. During this PhD thesis, we focused on statistical analysis for three kinds of data: DNA microarray, ChIP-chip and ChIP-Seq. For each one, a new approach have been proposed. For DNA microarrays, the GAGG method allows to detect differentially expressed genes and to cluster them by profile types. To do so, a Genetic Algorithm is used in order to optimize two criteria related to two nearby methods of PCA and $k$-means. In the case of ChIP-chip data, the POTChIPS method have been proposed. It allows to detect the binding sites of a protein of interest (a transcription factor e.g.) along the genome. In this method a peak extraction i realized then a significant threshold is obtained from a POT modelization. Finally, for ChIP-Seq data, the goal is the same that the one of chIP-chip, i.e., to find on DNA the binding sites of a protein of interest. The POTSeq method is an adaptation of POTChIPS for ChIP-Seq.La méthode POTSeq, mise au point au cours de cette thèse, est une adaptation de POTChIPS aux données de ChIP-Seq.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque interuniversitaire. Section Sciences.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.