Thèse soutenue

Caractérisation des séquences cis-régulatrices dans les régions proximales des gènes chez les plantes

FR  |  
EN
Auteur / Autrice : Julien Roziere
Direction : Marie-Laure Martin-MagnietteSylvie Coursol
Type : Thèse de doctorat
Discipline(s) : Biologie moléculaire et cellulaire
Date : Soutenance le 14/12/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Structure et Dynamique des Systèmes Vivants
Partenaire(s) de recherche : Laboratoire : Institut des sciences des plantes de Paris-Saclay (Gif-sur-Yvette, Essonne ; 2015-....) - Institut des Sciences des Plantes de Paris-Saclay
référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Life Sciences and Health (2020-....)
Jury : Président / Présidente : Claudine Landés
Examinateurs / Examinatrices : Laurent Laplaze, Morgane Thomas-Chollier, Sophie Schbath, Maud Fagny, Christophe Sallaud
Rapporteurs / Rapporteuses : Laurent Laplaze, Morgane Thomas-Chollier

Résumé

FR  |  
EN

La transcription des gènes constitue un processus essentiel dans la réponse adaptative des plantes aux contraintes environnementales qu'elles subissent. Ce processus est finement régulé par de nombreux acteurs moléculaires agissant en cis ou en trans. Les séquences cis-régulatrices correspondent à de courtes portions de l'ADN capables de moduler l'expression de gènes cibles. Elles sont présentes en forte densité dans la région entourant le site d'initiation de la transcription (région 5'-proximale), ainsi que dans celle entourant le site de terminaison de la transcription (région 3'-proximale). Bien que de nombreux travaux expérimentaux et computationnels aient permis de progresser quant à notre connaissance des séquences cis-régulatrices présentes dans ces régions proximales, la caractérisation de ces séquences reste encore lacunaire. Dans ce contexte, cette thèse synthétise les travaux réalisés pour mieux comprendre la structure et la fonction des séquences cis-régulatrices présentes dans les régions proximales des gènes chez les plantes grâce à la détection de courtes séquences d'ADN préférentiellement localisées (PLM) dans ces régions proximales.Dans un premier temps, j'ai identifié l'ensemble des PLM génomiques de novo présents chez Arabidopsis thaliana et Zea mays, deux espèces végétales dont le génome diffère en termes de contenu et d'architecture. Cette analyse a permis de révéler trois types de PLM dans les régions proximales des deux espèces végétales étudiées : (1) des sites de fixation de facteurs de transcription, (2) des séquences présentant des homologies avec des microARN et (3) des séquences cis-régulatrices putatives qui constituent 79% des PLM identifiés et dont une partie est supportée par des données expérimentales d'accessibilité de la chromatine. Ce premier axe de recherche a aussi permis de ré-étayer l'importance de la région 3'-proximale des gènes dans le contrôle de l'expression des gènes et l'intérêt qu'il y a à poursuivre sa caractérisation dans un futur proche.Dans un deuxième temps, j'ai étendu l'analyse conduite chez A. thaliana et Z. mays à 18 autres espèces de plantes à fleurs pour déterminer dans quelle mesure les PLM sont conservés. Une base de données, nommée Plant-PLMview, a aussi été développée pour les 20 espèces étudiées dans le but de mettre la méthode de détection des PLM (PLMdetect) à la disposition de toute la communauté scientifique. Cette base de données vise à accélérer la caractérisation des régions proximales des gènes chez les plantes. Pour cela, elle offre la possibilité d'utiliser simplement la méthode PLMdetect et d'interpréter les résultats aisément en visualisant des modules de PLM impliqués dans la co-régulation d'un groupe de gènes d'intérêt.Enfin, la dernière partie de cette thèse s'est focalisée sur l'implication des PLM dans la réponse globale aux stress chez A. thaliana. Pour cela, j'ai utilisé une ressource génomique originale consistant en un réseau de plusieurs milliers de gènes regroupés au sein de plusieurs dizaines de clusters de co-expression identifiés pour constituer la réponse transcriptionnelle commune aux stress. Pour chaque cluster de co-expression, j'ai identifié les PLM de novo et enrichis, ce qui a permis d'identifier plus de 250 facteurs de transcription potentiellement impliqués dans la régulation de ce réseau. Ces travaux ont également révélé des séquences cis-régulatrices putatives non caractérisées dans les bases de données. Pour les valider, j'ai développé une approche in silico pour identifier les expériences transcriptomiques et les gènes sur lesquels entreprendre les expériences humides de validation. À la suite de ce travail, différentes constructions moléculaires ont été produites afin d'initier des validations expérimentales.