Méthodes bayésiennes non paramétriques pour les données génomiques complexes

par Louise Alamichel

Projet de thèse en Mathématiques Appliquées

Sous la direction de Julyan Arbel.

Thèses en préparation à l'Université Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique , en partenariat avec Laboratoire Jean Kuntzmann (Grenoble) (laboratoire) et de MISTIS (equipe de recherche) depuis le 01-10-2021 .


  • Résumé

    Le cadre conceptuel des modèles bayésiens non paramétriques est particulièrement bien adapté à la description de données complexes et bruitées telles que les données métagénomiques. Ces données représentent un outil crucial pour l'exploration de la diversité des environnements. Elles sont par nature hautement dimensionnelles, souffrent de multiples sources de bruit et ont une structure latente complexe (graphes, arbres, réseaux). Les approches bayésiennes non paramétriques sont particulièrement intéressantes pour les données complexes car elles prennent naturellement en compte l'incertitude sur le mécanisme précis de génération des données, permettant une flexibilité dans des aspects cruciaux tels que la forme fonctionnelle de la dépendance des covariables, le modèle d'erreur, ou la taille de l'espace latent. Les défis informatiques liés au traitement de données de grande dimension, nécessitant le développement de stratégies d'inférence sur mesure. Nous envisageons plusieurs approches possibles : inférence variationnelle, calcul bayésien approximatif (ABC), approximations analytiques de processus bayésiens non paramétriques. La principale application biologique qui sera abordée dans cette thèse sera de décrire la diversité observée dans les données métagénomiques et sa relation avec les covariables. Le type de données métagénomiques considérées peut inclure de l'ADN environnemental (eDNA), décrivant par exemple comment la composition des communautés microbiennes du sol est liée à la pollution environnementale, ou des données métagénomiques shotgun caractérisant la composition microbienne de plusieurs compartiments (lait, air, herbe, fromage) dans une ligne de production de fromage agroécologique.

  • Titre traduit

    Bayesian nonparametric methods for complex genomic data


  • Résumé

    The conceptual framework of non-parametric Bayesian models is particularly well suited to describing complex and noisy data such as metagenomic data. These data represent a crucial tool for exploring the diversity of environments. They are by nature highly dimensional, suffer from multiple sources of noise and have a complex latent structure (graphs, trees, networks). Non-parametric Bayesian approaches are particularly interesting for complex data as they naturally take into account uncertainty about the precise mechanism of data generation, allowing flexibility in crucial aspects such as the functional form of the covariate dependence, the error model, or the size of the latent space. The computational challenges in dealing with large dimensional data, requiring the development of bespoke inference strategies. We envision several possible approaches: variational inference, approximate Bayesian computation (ABC), analytical approximations of non-parametric Bayesian processes. The main biological application that will be addressed in this thesis will be to describe the diversity observed in metagenomic data and its relationship with covariates. The type of metagenomic data considered can include environmental DNA (eDNA), describing for example how the composition of soil microbial communities is related to environmental pollution, or shotgun metagenomic data characterizing the microbial composition of several compartments (milk, air, grass, cheese) in an agroecological cheese production line.