Annotation du génome humain grâce à l'analyse non supervisée de données de séquençage haut débit
Auteur / Autrice : | Jean-Baptiste Morlot |
Direction : | Julien Mozziconacci |
Type : | Thèse de doctorat |
Discipline(s) : | Physique |
Date : | Soutenance le 12/12/2017 |
Etablissement(s) : | Paris 6 |
Ecole(s) doctorale(s) : | École doctorale Physique en Île-de-France (Paris ; 2014-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de physique théorique de la matière condensée (Paris ; 1997-....) |
Jury : | Président / Présidente : Alessandra Carbone |
Examinateurs / Examinatrices : Annick Lesne | |
Rapporteurs / Rapporteuses : Cédric Vaillant, Marc-Thorsten Hütt |
Mots clés
Résumé
Le corps humain compte plus de 200 types cellulaires différents possédant une copie identique du génome mais exprimant un ensemble différent de gènes. Le contrôle de l'expression des gènes est assuré par un ensemble de mécanismes de régulation agissant à différentes échelles de temps et d'espace. Plusieurs maladies ont pour cause un dérèglement de ce système, notablement les certains cancers, et de nombreuses applications thérapeutiques, comme la médecine régénérative, reposent sur la compréhension des mécanismes de la régulation géniques. Ce travail de thèse propose, dans une première partie, un algorithme d'annotation (GABI) pour identifier les motifs récurrents dans les données de séquençage haut-débit. La particularité de cet algorithme est de prendre en compte la variabilité observée dans les réplicats des expériences en optimisant le taux de faux positif et de faux négatif, augmentant significativement la fiabilité de l'annotation par rapport à l'état de l'art. L'annotation fournit une information simplifiée et robuste à partir d'un grand ensemble de données. Appliquée à une base de données sur l'activité des régulateurs dans l'hématopoieïse, nous proposons des résultats originaux, en accord avec de précédentes études. La deuxième partie de ce travail s'intéresse à l'organisation 3D du génome, intimement lié à l'expression génique. Elle est accessible grâce à des algorithmes de reconstruction 3D à partir de données de contact entre chromosomes. Nous proposons des améliorations à l'algorithme le plus performant du domaine actuellement, ShRec3D, en permettant d'ajuster la reconstruction en fonction des besoins de l'utilisateur.