Thèse soutenue

Développement et étude mathématique d'algorithmes d'analyse en clusters d'interactions de données métagénomiques en biomédecine
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Camille Champion
Direction : Jean-Michel LoubèsRémy Burcelin
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 28/06/2021
Etablissement(s) : Toulouse, INSA
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications
Partenaire(s) de recherche : Laboratoire : Institut de mathématiques de Toulouse (2007-....) - Institut de Mathématiques de Toulouse UMR5219 / IMT
Jury : Président / Présidente : Antoine Chambaz
Examinateurs / Examinatrices : Jean-Michel Loubès, Rémy Burcelin, Mathilde Mougeot, Adeline Leclercq Samson, Laurent Risser
Rapporteurs / Rapporteuses : Mathilde Mougeot, Adeline Leclercq Samson

Résumé

FR  |  
EN

L'essor de nouvelles biotechnologies permet actuellement de collecter une grande variété de données biologiques, élargissant ainsi le champ d'application de la recherche biomédicale. Parmi ces données, nous retrouvons notamment les données génomiques, dont la littérature dans le domaine statistique est très riche et les données métagénomiques, encore assez peu connues, qui nécessitent des développements particuliers dû à leur nature très différente. Les systèmes biologiques ainsi étudiés, représentés à partir de réseaux, permettent de modéliser les relations fonctionnelles entre les éléments qui les composent et d'en comprendre les processus biologiques sous-jacents. Dans ce contexte, cette thèse propose des développements autour de l'étude mathématique d'algorithmes de partitionnement et l'utilisation d'outils statistiques adaptés pour analyser ces interactions .La première partie de cette thèse est consacrée au développement d'un algorithme de clustering de graphe, appelé CORE-clustering, dédié à la détection robuste de variables représentatives, centres de clusters de variables spécifiques, au sein d'un système complexe de grande dimension. Plus précisément, nous cherchons à mettre en évidence ces clusters de variables très connectés, appelés CORE-clusters, formant des structures majeures du graphe en imposant seulement au sein de chaque groupe, d'une part, la dimension minimale et d'autre part, le niveau minimal de similarités. Nous montrons alors au travers de nombreuses applications la pertinence des CORE-clusters détectés notamment dans le cadre de réseaux génétiques et routiers de grandes dimensions.La deuxième partie de cette thèse concerne le développement d'une extension de l'algorithme du spectral clustering qui, traite de la problématique liée à l'identification de structures densément connectées au sein de graphes bruités, souvent caractéristiques des réseaux biologiques réels. En s'appuyant sur les propriétés du spectral clustering, cette nouvelle variante, appelée l1-spectral clustering, permet de mettre en évidence les structures naturelles cachées du graphe au travers de l'estimation d'indicateurs de communautés en imposant une régularisation Lasso. D'un point de vue pratique, nous montrons la stabilité de ces estimateurs au travers de nombreuses simulations, comparaisons et applications biomédicales.La troisième partie concerne l'utilisation d'outils statistiques adaptés à l'analyse de données métagénomiques (gènes du microbiote intestinal). Dans le cadre d'une étude clinique réalisée sur des patients souffrant à un stade précoce, de pathologies hépatiques, nous proposons plusieurs stratégies afin d'identifier le profil phénotypique clinique type des patients ainsi que les espèces métagénomiques impliquées dans le développement de la maladie. Pour cela, nous proposons une variété de méthodes exploratoires, prédictives et de clustering de manière à mettre en évidence des groupements de bactéries présentant de fortes interactions et d'en comprendre les mécanismes sous-jacents pour l'étude de la pathologie.Cette information est essentielle pour la découverte de biomarqueurs, signatures biologiques classifiant les patients au sein de la maladie. Cette étude clinique, qui porte sur des données biomédicales issues de deux cohortes différentes, nous a amenés à développer dans cette dernière partie de la thèse, des méthodes statistiques adaptées. Nous proposons alors plusieurs approches d'apprentissage plus juste, basées sur des techniques de réduction de dimension standard afin de pouvoir expliquer l'ensemble des variabilités qui composent le jeu de données en limitant l'effet du biais engendré par la diversité des populations.