Network inference from incomplete abundance data

par Raphaëlle Momal

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Stéphane Robin et de Christophe Ambroise.

Le président du jury était Viet Chí Tran.

Le jury était composé de Florence Forbes, Otso Ovaskainen, Camille Coron, Stéphane Dray.

Les rapporteurs étaient Florence Forbes, Otso Ovaskainen.

  • Titre traduit

    Inférence de réseaux à partir de données d'abondances in­complètes


  • Résumé

    Les réseaux sont utilisés comme outils en microbiologie et en écologie pour représenter des relations entre espèces. Les modèles graphiques gaussiens sont le cadre mathématique dédié à l'inférence des réseaux de dépendances conditionnelles, qui permettent une séparation claires des effets directs et indirects. Cependant, les données observées sont souvent des comptages discrèts qui ne permettent pas l'utilisation de ce modèle. Cette thèse développe une méthodologie pour l'inférence de réseaux à partir de données d'abondance d'espèces. La méthode repose sur une exploration efficace et exhaustive de l'espace des arbres couvrants dans un espace latent des comptages observés, rendue possible par les propriétés algébriques de ces structures.Par ailleurs, il est probable que les comptages observés dépendent d'acteurs non mesurés (espèces ou covariable). Ce phénomène produit des arêtes supplémentaires dans le réseau marginal entre les espèces liées à l'acteur manquant dans le réseau complet, ce qui fausse la suite des analyses. Le second objectif de ce travail est de prendre en compte les acteurs manquants lors de l'inférence de réseau. Les paramètres du modèle proposé sont estimés par une approche variationnelle, qui fournit des éléments d'information pertinents à propos des données non observées.


  • Résumé

    Networks are tools used to represent species relationships in microbiology and ecology. Gaussian Graphical Models provide with a mathematical framework for the inference of conditional dependency networks, which allow for a clear separation of direct and indirect effects. However observed data are often discrete counts and the inference cannot be directly performed with this model. This work develops a methodology for network inference from species observed abundances. The method relies on specific algebraic properties of spanning tree structures to perform an efficient and complete exploration of the space of spanning trees. The inference takes place in a latent space of the observed counts.Then, observed abundances are likely to depend on unmeasured actors (e.g. species or covariate). This results in spurious edges in the marginal network between the species linked to the latter in the complete network, causing inaccurate further analysis. The second objective of this work is to account for missing actors during network inference. To do so we adopt a variational approach yielding valuable insights about the missing actors.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DiBISO. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.