Thèse soutenue

Identification de déterminants génomiques impliqués dans la spécificité de fixation des facteurs de transcription.
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Raphaël Romero
Direction : Jean-Michel Marin
Type : Thèse de doctorat
Discipline(s) : Biostatistique
Date : Soutenance le 14/12/2021
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École Doctorale Information, Structures, Systèmes
Partenaire(s) de recherche : Laboratoire : Institut Montpelliérain Alexander Grothendieck (Montpellier ; 2003-....)
Jury : Président / Présidente : Anthony Mathelier
Examinateurs / Examinatrices : Jean-Michel Marin, Anthony Mathelier, Étienne Birmelé, Marie-Laure Martin-Magniette, Raphaël Mourad, Sophie Lèbre, Charles-Henri Lecellier, Laurent Bréhélin
Rapporteurs / Rapporteuses : Étienne Birmelé, Marie-Laure Martin-Magniette

Résumé

FR  |  
EN

Dans cette thèse, nous nous intéressons aux déterminants génomiques qui peuvent expliquer les différences de fixation d'un facteur de transcription (TF) particulier entre deux types cellulaires. Les facteurs de transcriptions reconnaissent des sous-séquences particulieres sur lesquelles ils se fixent, l'ensemble de ces sous-séquences est modélisé dans des motifs de fixation. Cependant, le motif de fixation d'un TF ne permet pas d'expliquer entièrement sa fixation. En effet, il n'est pas forcément fixé dès qu'il reconnait son motif de fixation et ne se fixe pas aux mêmes loci en fonction des types cellulaires. Le but de ce travail est donc d'étudier d'autres informations, afin de mieux comprendre la fixation des TF dans différents types cellulaires. Ce problème est étudié dans un cadre de classification supervisée, où les exemples sont des séquences génomiques et les deux classes correspondent aux types cellulaires dans lesquels la séquence est liée par le TF d'intérêt. Les séquences sont décrites par trois types d'informations génomiques qui sont extraites des séquences brutes par trois méthodes dédiées : la spécificité nucléotidique du site de fixation, le contenu nucléotidique autour du site de fixation, et la présence et la position de sites de fixation potentiels d'autres facteurs de transcription coopérants. Toutes ces caractéristiques sont utilisées dans un modèle de régression logistique entraîné avec une vraisemblance pénalisée sur différents problèmes de classification associant un TF dans deux tissus différents. Dans chaque expérience, le modèle est utilisé pour identifier les éléments régulateurs qui sont les plus importants pour les différences de type cellulaire. Nos expériences montrent qu'il est possible de distinguer les sites de fixation spécifiques aux cellules sur la base de la séquence uniquement. De plus, une analyse globale des résultats montre que l'importance relative des trois types d'information dépend fortement du TF et des types cellulaires.