Thèse soutenue

Etude du transcriptome à partir de données de comptages issues de séquençage haut débit

FR  |  
EN
Auteur / Autrice : Bogdan Mirauta
Direction : Alessandra Carbone
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 12/12/2014
Etablissement(s) : Paris 6
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Biologie Computationnelle et Quantitative
Jury : Examinateurs / Examinatrices : Richard Hugues, Christophe Ambroise, Nicolas Chopin, Pierre Nicolas, Claude Thermes, Jean-Daniel Zucker

Résumé

FR  |  
EN

Les technologies de séquençage jouent un rôle croissant dans l'analyse de l'expression des transcrits . La méthode la plus courante de séquençage du transcriptome, RNA-Seq est une méthode d'investigation d'une population de transcrits par cisaillement aléatoire, amplification et séquençage à haut débit. Les données issues du RNA-Seq peuvent être utilisées pour la quantification des niveaux d'expression des transcrits et pour la détection des régions transcrites et demandent des approches bioinformatiques.Nous avons développé des approches statistiques pour l'estimation des niveaux de transcription et l'identification des frontières de transcription sans faire usage de l'annotation existante et pour l'analyse des différences dans l'expression entre deux conditions. La reconstruction du paysage transcriptionel est faite dans un cadre probabiliste (Chaînes de Markov Caché - HMM) ou les variations du niveau de la transcription sont prises en compte en termes de changements brusques et de dérives. Le HMM est complété par une loi d'émission qui capture la variance des comptages dans un transcrit, l'auto-corrélation de courte portée et la fraction des positions avec zéro comptages. L'estimation repose sur un algorithme de Monte Carlo Séquentiel (SMC), le Particle Gibbs, dont le temps d'exécution est plus adapté aux génomes microbiennes. L'analyse des différences dans l'expression (DE) est réalisée sans faire usage de l'annotation existante. L'estimation de DE est premièrement faite à la résolution de position et en suite les régions avec un signal DE continu sont agrégés. Deux programmes nommés Parseq et Pardiff sont disponibles à http://www.lgm.upmc.fr/parseq/.