Dans les abysses du transcriptome: découverte de nouveaux biomarqueurs de cellules souches mésenchymateuses par analyse approfondie du RNAseq

par Sébastien Riquier

Thèse de doctorat en Biologie Santé

Sous la direction de Farida Djouad et de Thérèse Commes-Maerten.

Thèses en préparation à Montpellier , dans le cadre de Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; 2015-....) , en partenariat avec IRMB - Cellule souches, plasticité cellulaire, régénération tissulaire et immunothérapie des maladies inflammatoires (laboratoire) .


  • Résumé

    Le développement du séquençage ARN, ou RNAseq, a permis l'essor de la recherche intensive de biomarqueurs dans de nombreux domaines de la biologie. L'information complète du transcriptome contenue dans les données de sorties, permet à un bioinformaticien assidu de dépasser les connaissances actuelles et d'accéder, grâce à des pipelines informatiques avancés, à d'innombrables signatures d'intérêts inédites. Dans cette thèse nous mettons en avant que ces marqueurs potentiels, essentiellement explorés pour répondre à des problématiques clinique en conditions pathologiques, peuvent être utilisés pour affiner la caractérisation de types de cellules sans marqueurs strictement spécifiques. Nous nous sommes intéressés aux cellules souches mésenchymateuses (MSCs), un type de cellules souches adultes multipotentes, fortement utilisées en clinique mais ne possédant pas de marqueurs positifs strictement spécifiques. Notre étude se concentre sur la recherche des ARN longs non-codants non annotés. Ces ARNs, aussi nommés "lncRNA", constituent une classe émergente de transcrits encore peu explorée à ce jour. De plus, cette catégorie démontre une spécificité conditionnelle et tissulaire élevée. Nous avons élaboré un pipeline d'analyse RNAseq optimisé pour la reconstruction et la quantification de lncRNAs non annotés. En utilisant les données publiques de RNAseq, venant de différentes sources de MSCs et d'autres types de cellules, nous avons identifié de nouveaux lncRNA non annotés exprimés spécifiquement dans les MSCs. Nous avons développé pour ce projet Kmerator.jl, un outil qui permet de décomposer un transcrit en sous séquences spécifiques (k-mers) afin de chercher et quantifier plus rapidement la signature de nos candidats dans un grand nombre de données RNAseq. Kmerator a également été utilisé dans d'autres applications pour tester la qualité des données RNA-seq disponibles en accés public. Après validation de ces nouveaux biomarqueurs de MSCs par qPCR, nous avons eu recours à plusieurs outils informatiques pour prédire leurs fonctions potentielles. Enfin, nous avons analysé des données RNAseq « single-cell » pour aborder l'hétérogénéité d'expression au sein des populations MSCs.

  • Titre traduit

    In the abyss of the transcriptome: discovery of new biomarkers of mesenchymal stem cells by in-depth analysis of RNAseq


  • Résumé

    The development of RNA sequencing, or RNAseq, have opened the path of intensive biomarkers research in many areas of biology. The complete information of the transcriptome contained in the output data, allows a bioinformatician to surpass the current knowledge and to access, thanks to advanced computer pipelines, to signatures of new interest. In this thesis, we are showing that these potential markers, classically used in clinical and pathological conditions, can be used to characterize cell types without extensive markers profile. We have studied mesenchymal stem cells, a type of adult multipotent stem cells, strongly used in clinics but without strickly specific positive markers. Our study mainly focuses on the search for non-annotated, long non-coding RNAs. These RNAs, also called "lncRNA", constitute an emerging class of transcripts and are still lightly explored. In addition, this category presents a highly tissue-related specificity. We have developed an optimized RNAseq pipeline for the reconstruction and quantification of non-annotated lncRNAs. Using public data from RNAseq, coming from different sources of MSC and other cell types, we have identified new non-annotated lncRNAs clearly and specifically expressed in MSCs. to complete this project, we developed Kmerator.jl, a bioinformatical tool that allows to decompose a transcript in k-mer, and select specific sub-sequences, in order to search and quantify at a faster rate the signature of our candidates in a large number of RNAseq dataset. After validation of these new biomarkers of MSCs by qPCR, we used several computer tools to predict their potential functions. Finally, we analyzed single-cell RNAseq data to address the heterogeneity of expression within MSC populations.