Utilisation d'algorithmes génétiques pour l'identification systématique de réseaux de gènes co-régulés.

par Ali Janbain

Thèse de doctorat en Biologie Santé

Sous la direction de Robert Sabatier et de Hassan Zeineddine.

Thèses en préparation à Montpellier en cotutelle avec l'Université Libanaise , dans le cadre de Sciences Chimiques et Biologiques pour la Santé , en partenariat avec IGF - Institut de Génomique Fonctionnelle (laboratoire) .


  • Résumé

    L'objectif de ce travail est de mettre au point une nouvelle approche automatique pour identifier les réseaux de gènes concourant à une même fonction biologique. Ceci permet une meilleure compréhension des phénomènes biologiques et notamment des processus impliqués dans les maladies telles que les cancers. Différentes stratégies ont été développées pour essayer de regrouper les gènes d'un organisme selon leurs relations fonctionnelles : génétique classique et génétique moléculaire. Ici, nous utilisons une propriété connue des réseaux de gènes fonctionnellement liés à savoir que ces gènes sont généralement co-régulés et donc co-exprimés. Cette co-régulation peut être mise en évidence par des méta-analyses de données de puces à ADN (micro-arrays) telles que Gemma ou COXPRESdb. Dans un travail précédent [Al Adhami et al., 2015], la topologie d'un réseau de co-expression de gènes a été caractérisé en utilisant deux paramètres de description des réseaux qui discriminent des groupes de gènes sélectionnés aléatoirement (modules aléatoires, RM) de groupes de gènes avec des liens fonctionnels connus (modules fonctionnels, FM), c'est-à-dire des gènes appartenant au même processus biologique GO. Dans le présent travail, nous avons cherché à généraliser cette approche et à proposer une méthode, appelée TopoFunc, pour améliorer l'annotation existante de la fonction génique. Nous avons d'abord testé différents descripteurs topologiques du réseau de co-expression pour sélectionner ceux qui identifient le mieux des modules fonctionnels. Puis, nous avons constitué une base de données rassemblant des modules fonctionnels et aléatoires, pour lesquels, sur la base des descripteurs sélectionnés, nous avons construit un modèle de discrimination LDA [Friedman et al., 2001] permettant, pour un sous-ensemble de gènes donné, de prédire son type (fonctionnel ou non). Basée sur la méthode de similarité de gènes travaillée par Wang et ses collègues [Wang et al., 2007], nous avons calculé un score de similarité fonctionnelle entre les gènes d'un module. Nous avons combiné ce score avec celui du modèle LDA dans une fonction de fitness implémenté dans un algorithme génétique (GA). À partir du processus biologique d'ontologie de gènes donné (GO-BP), AG visait à éliminer les gènes faiblement co-exprimés avec la plus grande clique de GO-BP et à ajouter des gènes «améliorant» la topologie et la fonctionnalité du module. Nous avons testé TopoFunc sur 193 GO-BP murins comprenant 50-100 gènes et avons montré que TopoFunc avait agrégé un certain nombre de nouveaux gènes avec le GO-BP initial tout en améliorant la topologie des modules et la similarité fonctionnelle. Ces études peuvent être menées sur plusieurs espèces (homme, souris, rat, et possiblement poulet et poisson zèbre) afin d'identifier des modules fonctionnels conservés au cours de l'évolution.

  • Titre traduit

    Using genetic algorithms to systematically identify co-regulated genes networks.


  • Résumé

    The aim of this work is to develop a new automatic approach to identify networks of genes involved in the same biological function. This allows a better understanding of the biological phenomena and in particular of the processes involved in diseases such as cancers. Various strategies have been developed to try to cluster genes of an organism according to their functional relationships : classical genetics and molecular genetics. Here we use a well-known property of functionally related genes mainly that these genes are generally co-regulated and therefore co-expressed. This co-regulation can be detected by microarray meta-analyzes databases such as Gemma or COXPRESdb. In a previous work [Al Adhami et al., 2015], the topology of a gene coexpression network was characterized using two description parameters of networks that discriminate randomly selected groups of genes (random modules, RM) from groups of genes with known functional relationship (functional modules, FM), e.g. genes that belong to the same GO Biological Process. We first tested different topological descriptors of the co-expression network to select those that best identify functional modules. Then, we built a database of functional and random modules for which, based on the selected descriptors, we constructed a discrimination model (LDA)[Friedman et al., 2001] allowing, for a given subset of genes, predict its type (functional or not). Based on the similarity method of genes worked by Wang and co-workers [Wang et al., 2007], we calculated a functional similarity score between the genes of a module. We combined this score with that of the LDA model in a fitness function implemented in a genetic algorithm (GA). Starting from a given Gene Ontology Biological Process (GO-BP), AG aimed to eliminate genes that were weakly coexpressed with the largest clique of the GO-BP and to add genes that "improved" the topology and functionality of the module. We tested TopoFunc on the 193 murine GO-BPs comprising 50-100 genes and showed that TopoFunc aggregated a number of novel genes to the initial GO-BP while improving module topology and functional similarity. These studies can be conducted on several species (humans, mice, rats, and possibly chicken and zebrafish) to identify functional modules preserved during evolution.