Thèse soutenue

Reconstruction des transmissions d'un virus au cours d'une épidémie par apprentissage statistique sur données génomiques

FR  |  
EN
Auteur / Autrice : Maryam Alamil
Direction : Samuel SoubeyrandGaël Thébaud
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées. Biostatistiques
Date : Soutenance le 11/12/2020
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : Ecole doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de biostatistique et processus spatiaux (UR 546, BioSP, Centre Avignon)
Jury : Président / Présidente : Céline Scornavacca
Examinateurs / Examinatrices : Virginie Ravigné
Rapporteurs / Rapporteuses : Pierre Nicolas, Samuel Alizon

Résumé

FR  |  
EN

Dans le but de mieux comprendre la dynamique des maladies infectieuses, ma thèse porte sur le développement d'une approche statistique visant à estimer des liens de transmission de telles maladies à partir de données de séquençage haut-débit. Ces données sont collectées sur plusieurs unités hôtes et reflétant le polymorphisme intra-hôte du virus d’intérêt. L’approche que je propose est essentiellement fondée sur un modèle semi-paramétrique et pseudo-évolutionniste, une technique d’apprentissage statistique et une quantité limitée de données d’entrainement. Le modèle permet de calculer des mesures de pseudo-vraisemblance des transitions entre des ensembles de séquences observées chez l’unité hôte infectée et chez ses sources putatives. Il est calibré sur les données d’entrainement pour apprendre la structure des liens épidémiologiques réels puis appliqué à l’ensemble de données pour inférer des liens entre toutes les unités hôtes du jeu de données. Cette approche est appliquée à des données réelles en santé humaine, animale et végétale ainsi qu’à des données simulées. Les données simulées sont générées sous des scénarios démo-génétiques significativement divers avec un modèle original que j’ai développé et qui permet la génération de dynamiques démo-génétiques hors équilibre et à variations rapides pour la population virale intra-hôte. En utilisant ce modèle, j’ai effectué une analyse de sensibilité formelle de la relation entre la performance de notre approche d’inférence et les facteurs démo-génétiques qui peuvent avoir un impact sur l’évolution, la diversité et la transmission du virus