Thèse soutenue

Détection de communautés dans les grands réseaux : Application aux réseaux d'interactions de gènes

FR  |  
EN
Auteur / Autrice : Marwa Ben m'barek
Direction : Marta Rukoz-CastilloAmel Borgi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/10/2022
Etablissement(s) : Université Paris sciences et lettres en cotutelle avec Université Tunis El Manar. Faculté des Sciences Mathématiques, Physiques et Naturelles de Tunis (Tunisie)
Ecole(s) doctorale(s) : Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris) - Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision / LAMSADE
établissement opérateur d'inscription : Université Paris Dauphine-PSL (1968-....)
Jury : Président / Présidente : Jean-François Pradat-Peyre
Examinateurs / Examinatrices : Marta Rukoz-Castillo, Amel Borgi, Jean-François Pradat-Peyre, Pierre Collet, Lotfi Ben Romdhane, Sana Ben Hamida, Hajer Zghal Baazaoui
Rapporteurs / Rapporteuses : Pierre Collet, Lotfi Ben Romdhane

Résumé

FR  |  
EN

Dans le cadre de cette thèse de doctorat, nous nous intéressons à la détection des communautés de gènes dansles réseaux d’interactions de protéine-protéine. Ces communautés correspondent à des ensembles de gènes quicollaborent à une même fonction cellulaire. Notre objectif consiste à déterminer un groupe ou une communautéde gènes à partir des sources d’annotation en se basant sur l’apprentissage automatique. Pour réaliser ce travail,nous combinons trois niveaux d’informations : i) le niveau sémantique : information contenue dans les ontologiesbiologiques (gene Ontology), ii) le niveau fonctionnel : information contenue dans des bases de données publiquesqui décrivent les interactions des gènes et iii) le niveau réseau : informations contenues dans les bases de voiesbiologiques. Ce travail est multidisciplinaire, à l'intersection de domaine de l’informatique et de la biologie et ilcomporte quatre volets.Le premier volet se concentre sur l’extraction des données biologiques utiles pour notre projet et sur l'étude de lasimilarité sémantique entre des groupes de gènes. Cette dernière sera l’une de caractéristique d’une communautéde gènes. Nous avons proposé, dans le deuxième volet, une approche pour la détection des communautés degènes basée sur les algorithmes génétiques. Cette approche nommée GA-PPI-Net permet de construire et dedétecter des communautés de gènes de tailles variables. GA-PPI-Net permet de maximiser une mesurecommunautaire qui combine à la fois des informations topologiques entre les gènes et des informationssémantiques. Par ailleurs, nous avons introduit une solution spécifique pour représenter une communauté(=solution) de taille variable et un opérateur de mutation optimisée. Dans le troisième volet, nous nous focalisonssur l'extension et l'amélioration de GA-PPI-Net. La première extension sert à proposer un nouvel opérateur demutation adaptatif. Cette amélioration a pour objectif d’optimiser l’exploration de l’espace de recherche afind’améliorer les qualités des communautés obtenues. La deuxième amélioration vise à rendre notre approchegénérique, Generic GA-PPI-Net, pour construire des communautés de gènes qui sont sémantiquement similaireset/ou sont en interaction. Dans le dernier volet, nous avons étendu ce travail afin de mettre à l’échelle Generic GAPPI-Net en utilisant le paradigme d’apprentissage actif. Cette extension nous a permis d’utiliser des sources dedonnées volumineuses (la totalité de réseau d’interaction de protéine chez l’être humain) pour construire descommunautés évolutives. Elle est basée sur une approche d’échantillonnage adaptative permettant de définir lapartie du graphe à explorer par les opérateurs génétiques pendant l’évolution.