Méthodes bayésiennes computationnelles pour l'estimation de quantiles extrêmes à partir de données environnementales

par Théo Moins

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Stéphane Girard, Julyan Arbel et de Anne Dutfoy.

Le président du jury était Anne-Catherine Favre Pugin.

Le jury était composé de Antonio Canale.

Les rapporteurs étaient Clément Dombry, Robin Ryder.


  • Résumé

    Cette thèse se situe à l'intersection de deux domaines de recherche: la statistique des valeurs extrêmes et la statistique bayésienne. L'objectif principal est d’utiliser des méthodes bayésiennes pour l'estimation de quantiles extrêmes de données environnementales. L'utilisation du point de vue bayésien est motivée par différentes problématiques liées à l'estimation des quantiles extrêmes. Tout d’abord, cela permet de directement prendre en compte différentes sources d’incertitudes dans un estimateur ponctuel, par exemple en utilisant des lois dites prédictives. Ensuite, cela permet d’accéder à des intervalles de crédibilité pour quantifier la marge d’erreur autour de l’estimation. Enfin, un dernier objectif est de fournir des éléments de réponse quant à la quantification des limites de crédibilité d’extrapolation, c’est-à-dire de déterminer jusqu’où il est raisonnable d’extrapoler la queue de distribution pour l'estimation de quantiles par exemple.La première contribution de cette thèse porte sur l’amélioration de méthodes bayésiennes computationnelles par la reparamétrisation de modèles d’extrêmes. En particulier, l’étude met en évidence deux avantages à l’utilisation d’une paramétrisation dite orthogonale. D'abord, elle améliore significativement la convergence d’algorithmes MCMC. Ensuite, elle facilite le calcul de la loi a priori de Jeffreys pour le modèle d’extrêmes caractérisé par un processus de Poisson, et permet de démontrer la propreté de la loi a posteriori associée. Cette analyse est complétée par l’utilisation d’un a priori semi-informatif appelé PC prior, qui est également calculé à partir de la vraisemblance du processus de Poisson.La deuxième contribution concerne l’amélioration du diagnostic de Gelman-Rubin noté R-hat pour la convergence des algorithmes MCMC. Une nouvelle version est proposée, basée sur une version localisée qui permet d'identifier un problème de convergence sur un quantile donné de la loi cible. Sa construction repose sur une étude théorique qui permet, entre autre, d’associer un seuil à partir duquel on estime que les chaînes MCMC n'ont pas convergé à un niveau de confiance fixé. Le cas multivarié est également traité, et des simulations sur des modèles bayésiens viennent compléter la proposition.La troisième contribution de la thèse consiste en des résultats préliminaires sur le comportement de différents estimateurs bayésiens à taille d’échantillon fini. L’objectif est de comprendre comment les estimateurs se comportent dans la queue, en prenant en compte l’incertitude associée à l’estimation des paramètres. Les résultats portent sur le domaine d’attraction des lois prédictives (a priori et a posteriori), ainsi que sur un équivalent asymptotique de deux méthodes pour estimer un niveau de retour extrême, dans le cas d’une loi extit{a priori} uniforme sur le paramètre de forme.Enfin, la dernière contribution de cette thèse est l’application du modèle et de tout les résultats précédents à des séries de données environnementales. Cela permet une estimation de niveaux de retour centennaux, millénaux et décamillénaux de débits de rivières et de vitesses de vents, ainsi que d’apporter des éléments de réponse sur les limites d’extrapolation dans la queue de distribution.

  • Titre traduit

    Bayesian computational methods for estimating extreme quantiles from environmental data


  • Résumé

    This thesis lies at the intersection of two research domains: extreme value statistics and Bayesian statistics. The main objective here is to use Bayesian methods for the estimation of extreme quantiles, and in particular the return levels of environmental datasets. The adoption of a Bayesian paradigm is motivated by various challenges associated with the estimation of extreme quantiles. Firstly, it allows for the direct consideration of different sources of uncertainty in a point estimator, for example by using the so-called predictive distributions. Secondly, it enables access to credible intervals to quantify the estimation error. Lastly, one aim is to provide insights into quantifying the limits of extrapolation, in other words, determining how far it is reasonable to extrapolate the tail of the distribution with a reasonable error for quantile estimation.The first contribution of this thesis focuses on enhancing computational Bayesian methods through the reparameterization of extreme value models. In particular, the study highlights two advantages of employing an orthogonal parametrization. This first leads to a significant improvement in the convergence of MCMC algorithms. Second, it facilitates the derivation of the Jeffreys prior for the Poisson process characterization of extremes, thereby demonstrating posterior propriety. This investigation of the prior isfurther complemented by the use of a semi-informative prior called the PC prior, which is also calculated for this Poisson process likelihood.The second contribution concerns the improvement of a convergence diagnostic for MCMC algorithms known as Gelman–Rubin diagnostic and denoted by R-hat. A new version denoted is proposed, based on a localized approach that diagnoses convergence issues on a specific quantile of the target distribution. Its construction relies on a theoretical study that enables, among other things, the association of a confidence level with a threshold indicating the lack of convergence of the MCMC chains. The multivariate case is addressed, and simulations on Bayesian models are conducted and support the proposal.The third contribution of the thesis consists of preliminary results regarding the tail behavior of different Bayesian estimators for finite sample sizes. The aim is to understand how these estimators behave in the tail, when taking into account the uncertainty associated with parameter estimation. The results cover the domain of attraction of predictive distributions (prior and posterior) and provide an asymptotic equivalence for two estimation methods of extreme return levels, under a uniform prior on the shape parameter.Lastly, the final contribution of this thesis entails the application of the model and all the previous results to a series of environmental datasets. This allows for the estimation of centennial, millennial, and decamillennial return levels for different datasets of river flows and wind speeds, while also providing insights into the extrapolation limits in the tail of the distribution.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Grenoble Alpes. Bibliothèque et Appui à la Science Ouverte. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.