Bioinformatique pour l’exploration de la diversité inter-espèces et inter-populations : hétérogénéité & données multi-omiques

par Yannick Cogne

Thèse de doctorat en Biologie Santé

Sous la direction de Jean Armengaud et de Christine Almunia.

Le président du jury était Jacques Colinge.

Le jury était composé de Jean Armengaud, Christine Almunia, Christine Carapito, Ana Maria Varela Coelho, Michel Hébraud.

Les rapporteurs étaient Christine Carapito, Ana Maria Varela Coelho.


  • Résumé

    L’exploitation conjointe des données transcriptomiques et protéomiques permet l’étude détaillée des mécanismes moléculaires induits lors de perturbations environnementales. L’assemblage de données issues du séquençage des ARNs d’organismes dit « non-modèle » permet de produire la base de données pour l’interprétation des spectres générés en protéomique shotgun. Dans ce contexte, les travaux de thèse avaient pour objectif d’optimiser l’interprétation et l’analyse des données protéomiques par le développement de concepts innovants pour la construction de bases de données protéiques et l’exploration de la biodiversité. La première étape s’est concentrée sur la mise au point d’une méthode de pré-traitement des données de séquençage basée sur les résultats d’attribution protéomique. La deuxième étape a consisté à travailler sur la réduction de la taille des bases de données en optimisant les paramètres de la recherche automatisée des régions codantes. La méthode optimisée a permis l’analyse de 7 groupes taxonomiques de Gammaridés représentatifs de la diversité retrouvée in natura. Les bases de données protéomiques ainsi produites ont permis l’analyse inter-population de 40 protéomes individuels de Gammarus pulex répartis sur deux sites de prélèvement (pollué vs référence). L’analyse statistique basée sur une approche « individu-centré » a montré une hétérogénéité de la réponse biologique au sein d’une population d’organismes suite à une perturbation environnementale. Différents sous-groupes de mécanismes moléculaires induits ont été identifiés. Enfin, l’étude de la transversalité de biomarqueurs peptidiques identifiés chez Gammarus fossarum a permis de définir les peptides communs à l’aide de l’ensemble des données protéomiques et transcriptomiques. Pour cela, un logiciel d’exploration des séquences peptidiques a été développé permettant de proposer de potentiels biomarqueurs substituts dans le cas où les peptides définis ne sont pas applicables à certaines espèces de gammare. Tous ces concepts s’intègrent dans une démarche pour améliorer et approfondir l’interprétation des données par protéogénomique. Ces travaux entrouvrent la porte à l’analyse multi-omique d’individus prélevés in natura en considérant la biodiversité inter-espèce et intra-population.

  • Titre traduit

    Bioinformatics for exploring inter-species and inter-population diversity : heterogenity & multi-omics data


  • Résumé

    The exploitation of omics data combining transcriptomic and proteomic enables the detailed study of the molecular mechanisms of non-model organisms exposed to an environmental stress. The assembly of data from the RNA-seq of non-model organism enables to produce the protein database for the interpretation of spectra generated in shotgun proteomics. In this context, the aim of the PhD work was to optimize the interpretation and analysis of proteomic data through the development of innovative concepts for the construction of protein databases and the exploration of biodiversity. The first step focused on the development of a pretreatment method for RNA-seq data based on proteomic attribution results. The second step was to work on reducing the size of the databases by optimizing the parameters of the automated coding region search. The optimized method enabled the analysis of 7 taxonomic groups of Gammarids representative of the diversity found in natura. The proteomic databases thus produced enabled the inter-population analysis of 40 individual Gammarus pulex proteomes from two sampling sites (polluted vs reference). Statistical analysis based on an "individual" approach has shown an heterogeneity of the biological response within a population of organisms induced by an environmental stress. Different subclusters of molecular mechanisms response have been identified. Finally, the study of the transversality of the biomarkers peptides identified with Gammarus fossarum revealed which are the common ones using both proteomic and transcriptomic data. For this purpose, a software for the exploration of peptide sequences has been developed suggesting potential substitute biomarkers when the defined peptides are not available for some species of gammarids. All these concepts aim to improve the interpretation of data by proteogenomics. This work opens the door to the multi-omic analysis of individuals collected in natura by considering inter-species and intra-population biodiversity.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque interuniversitaire. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.