Thèse en cours

Méthodes bayésiennes non paramétriques pour les données génomiques complexes

FR  |  
EN
Auteur / Autrice : Louise Alamichel
Direction : Julyan Arbel
Type : Projet de thèse
Discipline(s) : Mathématiques Appliquées
Date : Inscription en doctorat le 01/10/2021
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann
Equipe de recherche : MISTIS

Résumé

FR  |  
EN

Le cadre conceptuel des modèles bayésiens non paramétriques est particulièrement bien adapté à la description de données complexes et bruitées telles que les données métagénomiques. Ces données représentent un outil crucial pour l'exploration de la diversité des environnements. Elles sont par nature hautement dimensionnelles, souffrent de multiples sources de bruit et ont une structure latente complexe (graphes, arbres, réseaux). Les approches bayésiennes non paramétriques sont particulièrement intéressantes pour les données complexes car elles prennent naturellement en compte l'incertitude sur le mécanisme précis de génération des données, permettant une flexibilité dans des aspects cruciaux tels que la forme fonctionnelle de la dépendance des covariables, le modèle d'erreur, ou la taille de l'espace latent. Les défis informatiques liés au traitement de données de grande dimension, nécessitant le développement de stratégies d'inférence sur mesure. Nous envisageons plusieurs approches possibles : inférence variationnelle, calcul bayésien approximatif (ABC), approximations analytiques de processus bayésiens non paramétriques. La principale application biologique qui sera abordée dans cette thèse sera de décrire la diversité observée dans les données métagénomiques et sa relation avec les covariables. Le type de données métagénomiques considérées peut inclure de l'ADN environnemental (eDNA), décrivant par exemple comment la composition des communautés microbiennes du sol est liée à la pollution environnementale, ou des données métagénomiques shotgun caractérisant la composition microbienne de plusieurs compartiments (lait, air, herbe, fromage) dans une ligne de production de fromage agroécologique.