Thèse soutenue

Apprentissage statistique pour les géosciences : méthodes pour la génération d'extrêmes et l'assimilation de données

FR  |  
EN
Auteur / Autrice : Nicolas Lafon
Direction : Philippe NaveauRonan Fablet
Type : Thèse de doctorat
Discipline(s) : Géosciences
Date : Soutenance le 15/02/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale des sciences de l'environnement d'Île-de-France
Partenaire(s) de recherche : Laboratoire : Laboratoire des sciences du climat et de l'environnement (Gif-sur-Yvette, Essonne ; 1998-....)
référent : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....)
graduate school : Université Paris-Saclay. Graduate School Géosciences, climat, environnement et planètes (2020-....)
Jury : Président / Présidente : Gwladys Toulemonde
Examinateurs / Examinatrices : Marc Bocquet, Raphaël Huser, Debbie Dupuis, Marco Avella-Medina, Freddy Bouchet
Rapporteurs / Rapporteuses : Marc Bocquet, Raphaël Huser

Résumé

FR  |  
EN

Le domaine des géosciences vise à comprendre de manière exhaustive le système terrestre. Il intervient dans la compréhension de problématiques majeures, notamment l'impact du changement climatique ou la gestion des risques liés à des événements extrêmes. Les géosciences bénéficient considérablement de la massification de données à grande échelle, ce qui les rend propices à l'utilisation d'algorithmes de Machine Learning (ML). Du fait de ses spécificités, l'analyse des données géoscientifiques nécessite des formulations et des méthodologies ML innovantes. Le travail effectué dans cette thèse apporte de nouveaux outils basés sur le ML adaptés aux défis des géosciences, avec un potentiel d'applications plus larges au-delà du domaine des géosciences.Dans la première partie de cette thèse, nous proposons une approche ML pour estimer la distribution de variables spatio-temporelles dynamiques à partir d'observations bruitées et irrégulières. En effet, nous introduisons un cadre d'apprentissage pour estimer à la fois l'état d'un système dynamique et les incertitudes sous forme d'une matrice de covariance. Cette méthode trouve des applications dans les problèmes d'assimilation de données, pour lesquels on dispose d'observations bruitées et éparses couplées à des connaissances sur la dynamique physique. Les modèles de prévision météorologique ou océanographique sont concernés.La deuxième partie de cette thèse présente un modèle génératif ML produisant de nouveaux échantillons d'une distribution multivariée inconnue à partir d'exemples. Notre simulateur fournit des échantillons en dehors des données d'entraînement et permet d'extrapoler. Cette approche a des applications directes dans l'étude des risques environnementaux puisqu'elle permet la simulation numérique d'échantillons extrêmes rares.