Sciences de l'information pour l'étude des systèmes biologiques (exemple du vieillissement du système immunitaire)

par Walid Bedhiafi

Thèse de doctorat en Bioinformatique

Sous la direction de Amel Benammar Elgaaied et de Adrien Six.

Soutenue le 20-09-2017

à Paris 6 en cotutelle avec l'Université de Tunis El Manar , dans le cadre de École doctorale Complexité du vivant (Paris) , en partenariat avec Immunologie - Immunopathologie - Immunothérapie (laboratoire) .

Le président du jury était Frédérique Peronnet.

Le jury était composé de Olivier Dameron, Véronique Thomas-Vaslin.

Les rapporteurs étaient Ahmed Rebai, Amel Borgi.


  • Résumé

    Le laboratoire i3 et le laboratoire LGIPH, utilisent des approches à haut débit pour l’étude du système immunitaire et ces disfonctionnements. Des limites ont été observées quant à l’utilisation des approches classiques pour l’annotation des signatures d’expression des gènes. L’objectif principal a été de développer une approche d’annotation pour répondre à ce besoin. L’approche que nous avons développée est une approche basée sur la contextualisation des gènes et de leurs produits puis sur la modélisation des voies biologiques pour la production de bases de connaissances pour l’étude de l’expression des gènes. Nous définissons ici un contexte d’expression des gènes comme suit : population cellulaire+compartiment anatomique+état pathologique. Pour connaitre ces contextes, nous avons opté pour la fouille de la littérature et nous avons développé un package Python, qui permet d’annoter les textes automatiquement en fonction de trois ontologies choisies en fonction de notre définition du contexte. Nous montrons ici que notre package a des performances meilleures que un outil de référence. Nous avons l’avons utilisé pour le criblage d’un corpus sur le vieillissement du système immunitaire dont on présente ici les résultats. Pour la modélisation des voies biologiques nous avons développé en collaboration avec le LIPAH une méthode de modélisation basée sur un algorithme génétique qui permet de combiner les résultats de mesure de la proximité sémantique sur la base des annotations des gènes et les données d’interactions. Nous avons réussis retrouver des réseaux de références avec un taux d’erreur de 0,47.

  • Titre traduit

    Information sciences to study biological systems (example of the aging of the immune system)


  • Résumé

    High-throughput experimental approaches for gene expression study involve several processing steps for the quantification, the annotation and interpretation of the results. The i3 lab and the LGIPH, applies these approaches in various experimental setups. However, limitations have been observed when using conventional approaches for annotating gene expression signatures. The main objective of this thesis was to develop an alternative annotation approach to overcome this problem. The approach we have developed is based on the contextualization of genes and their products, and then biological pathways modeling to produce a knowledge base for the study of gene expression. We define a gene expression context as follows: cell population+ anatomical compartment+ pathological condition. For the production of gene contexts, we have opted for the massive screening of literature. We have developed a Python package, which allows annotating the texts according to three ontologies chosen according to our definition of the context. We show here that it ensures better performance for text annotation the reference tool. We used our package to screen an aging immune system text corpus. The results are presented here. To model the biological pathways we have developed, in collaboration with the LIPAH lab a modeling method based on a genetic algorithm that allows combining the results semantics proximity using the Biological Process ontology and the interactions data from db-string. We were able to find networks with an error rate of 0.47.

Accéder en ligne

Par respect de la propriété intellectuelle des ayants droit, certains éléments de cette thèse ont été retirés.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?