Thèse soutenue

Apprentissage statistique pour les ensembles de réseaux booléens et les données scRNA-seq

FR  |  
EN
Auteur / Autrice : Gustavo Magaña Lopez
Direction : Loïc Pauleve
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/12/2025
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique
Jury : Président / Présidente : Patricia Thébault
Examinateurs / Examinatrices : Clémence Réda, Ulysse Herbach
Rapporteurs / Rapporteuses : Nacho Molina, David Šafránek

Résumé

FR  |  
EN

Le séquençage ARN à cellule unique (scRNA-seq) permet d’étudier la régulation de l’expression génique avec une résolution sans précédent. Ces données peuvent être analysées via des modèles mathématiques prédictifs tels que les réseaux booléens (RB), qui peuvent être construits manuellement ou automatiquement, à partir de connaissances préalables et de données expérimentales. Ce dernier cas est connu sous le nom d’inférence de RB orientée données. Les RB répresentent l’état des entités biologiques comme actif ou inactif, ce qui permet de raisonner sur les relations causales entre les entités sans estimer les paramètres cinétiques ni les seuils de régulation. Cependant, l’inférence de RB à partir de données biologiques conduit à une multitude de solutions, expliquant toutes de manière équivalente les données d’entrée. Le nombre de méthodes d’inférence de RB est aussi important que le nombre d’heuristiques utilisées pour sélectionner un modèle final unique. Dans ce contexte, les ensembles de réseaux booléens (ERB) exploitent plusieurs RBs plutôt que d’en sélectionner un seul, avec des critères pouvant être arbitraires et susceptibles de biaiser fortement les analyses ultérieures. Actuellement, l’inférence de RBs (manuelle ou automatisée) répose exclusivement sur des données d’entraînement sans données de validation, ce qui entrave l’analyse comparative et l’évaluation de leur pouvoir prédictif. Donc, l’inférence de RBs ortientée données a besoin de : (i) fournir une interprétation qualitative appropriée des données scRNA-seq pour la modélisation booléenne, (ii) évaluer les méthodes d’inférence et leur pouvoir prédictif, (iii) évaluer et maximiser la diversité des ERB. Ma thèse est composée de deux axes qui abordent ces défis en combinant l’apprentissage statistique (AS) et les méthodes formelles. Le premier axe, reliant les données scRNA-seq aux RBs, comprend deux contributions. La première est la méthode scBoolSeq, qui permet de binariser des données scRNA-seq expérimentales et de générer des données scRNA-seq synthétiques reflétant des états d’activation génique booléens. Ma deuxième contribution est un cadre déclaratif pour la génération de benchmarks intégrant scBoolSeq pour la génération de données scRNA-seq synthétiques. Le deuxième axe s’inspire de l’AS et l’applique à l’inférence de RBs. Inspirée par les forêts aléatoires, ma troisième contribution comprend l’évaluation de la diversité des ERB et une heuristique visant à la maximiser. Ma quatrième contribution consiste à utiliser des données de validation (conditions expérimentales) pour évaluer le pouvoir prédictif des RBs. À cette fin, je formule l’évaluation du pouvoir prédictif comme un problème de classification binaire, je construis des représentations tabulaires des RBs et je montre que des algorithmes d’AS classiques séparent de manière satisfaisante les deux classes. Les perspectives futures incluent l’utilisation de l’AS pour guider les heuristiques de diversité afin de maximiser le pouvoir prédictif des ERBs.