Reconstruction des transmissions d'un virus au cours d'une épidémie par apprentissage statistique sur données génomiques
Auteur / Autrice : | Maryam Alamil |
Direction : | Samuel Soubeyrand, Gaël Thébaud |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées. Biostatistiques |
Date : | Soutenance le 11/12/2020 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | Ecole doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de biostatistique et processus spatiaux (UR 546, BioSP, Centre Avignon) |
Jury : | Président / Présidente : Céline Scornavacca |
Examinateurs / Examinatrices : Virginie Ravigné | |
Rapporteurs / Rapporteuses : Pierre Nicolas, Samuel Alizon |
Mots clés
Mots clés contrôlés
Résumé
Dans le but de mieux comprendre la dynamique des maladies infectieuses, ma thèse porte sur le développement d'une approche statistique visant à estimer des liens de transmission de telles maladies à partir de données de séquençage haut-débit. Ces données sont collectées sur plusieurs unités hôtes et reflétant le polymorphisme intra-hôte du virus d’intérêt. L’approche que je propose est essentiellement fondée sur un modèle semi-paramétrique et pseudo-évolutionniste, une technique d’apprentissage statistique et une quantité limitée de données d’entrainement. Le modèle permet de calculer des mesures de pseudo-vraisemblance des transitions entre des ensembles de séquences observées chez l’unité hôte infectée et chez ses sources putatives. Il est calibré sur les données d’entrainement pour apprendre la structure des liens épidémiologiques réels puis appliqué à l’ensemble de données pour inférer des liens entre toutes les unités hôtes du jeu de données. Cette approche est appliquée à des données réelles en santé humaine, animale et végétale ainsi qu’à des données simulées. Les données simulées sont générées sous des scénarios démo-génétiques significativement divers avec un modèle original que j’ai développé et qui permet la génération de dynamiques démo-génétiques hors équilibre et à variations rapides pour la population virale intra-hôte. En utilisant ce modèle, j’ai effectué une analyse de sensibilité formelle de la relation entre la performance de notre approche d’inférence et les facteurs démo-génétiques qui peuvent avoir un impact sur l’évolution, la diversité et la transmission du virus