Thèse soutenue

Apprentissage statistique pour les données hétérogènes et imparfaites : systèmes dynamiques neuronaux, transformée de signature et transport optimal

FR  |  
EN
Auteur / Autrice : Linus Bleistein
Direction : Agathe GuillouxAnne-Sophie Jannot
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 16/06/2025
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne) - Health data- and model- driven approaches for knowledge acquisition (Paris ; 2025-....)
Référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....)
Equipe de recherche : Statistique pour la Génomique et la Génétique
Jury : Président / Présidente : Claire Boyer
Examinateurs / Examinatrices : Gabriel Peyré, Josef Teichmann, Charlotte Bunne, Aurélien Bellet, Julie Josse
Rapporteurs / Rapporteuses : Gabriel Peyré, Josef Teichmann

Résumé

FR  |  
EN

Dans de nombreuses cas d'usage, les données utilisées sont dégradées par du bruit et des valeurs manquantes. Cette hétérogénéité dans la qualité des données induit une série de biais, qui limitent le déploiement d'algorithmes d'apprentissage machine. Cette thèse s'intéresse en premier lieu aux séries temporelles, qui sont une source omniprésente de données en apprentissage statistique. En effet, les données collectées séquentiellement alimentent de vastes champs d'application tels que l'analyse de textes, l'analyse de données médicales, la métérologie et la finance. Pour une tâche donnée, les données disponibles sont souvent hétérogènes et dégradées par un échantillonage irrégulier, propre à chaque individu, et des données manquantes. Ainsi, ces données appellent le dévelopement de modèles adaptés à ces irrégularités. Nous nous appuyons en particulier sur les développements récents autour des équations différentielles neuronales pour proposer une analyse statistique des systèmes dynamiques contrôlés. Ces systèmes modélisent le fonctionnement d'un système dynamique perturbé par un ensemble de données temporelles exogènes. Nous nous intéressons en particulier à leur linéarisation dans l'espace de signature, et aux équations différentielles contrôlées neuronales qui apprennent un champ de vecteurs paramétrisé par un réseau de neurones à une tâche donnée. Ces modèles sont ensuite appliqués à une suite de tâches inspirés par des problèmes propres aux données médicales et qui incluent l'analyse de survie, la classification et la régression. Dans un second temps, nous analysons un cadre plus abstrait où l'on souhaite comparer des distributions avec données manquantes en utilisant les outils du transport optimal. Nous proposons un estimateur asymptotiquement consistent du coût de transport et en détaillons différentes applications.