Modélisation de séries chronologiques non stationnaires, non linéaires : application à la définition des tendances sur la moyenne, la variabilité et les extrêmes de la température de l'air en Europe

par Thi Thu Huong Hoang

Thèse de doctorat en Mathématiques

Sous la direction de Didier Dacunha-Castelle.

Soutenue en 2010

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Dans cette thèse, nous considérons plusieurs problèmes statistiques liés au réchauffement climatique. Le travail est donc centré sur la compréhension de récentes évolutions des caractéristiques de la température comme moyenne, variance, extrêmes et des liens entre ces quantités. Par ailleurs nous poursuivions deux objectifs particuliers liés aux risques importants : donner une méthodologie pour calculer les niveaux de retour en situation non stationnaire (risques économiques, sanitaires et industriels) et fabriquer un modèle réaliste de simulation permettant de calculer certains de ces risques de définition compliquée. Le contexte étant celui du changement climatique, en incluant bien entendu des aspects métamathématiques. Notre modèle de base pour décrire une série chronologique, plus compliqué que presque tous les modèles classiques est de la forme suivante :X(t)=m(t)+S(t)+SV(t)s(t)Z(t)où t est la date, X(t) les observations, m (t) est la tendance moyenne, S(t) la composante saisonnière et SV(t), s(t) sont respectivement la variabilité saisonnières et la variabilité sur le long terme. Notions dont nous avons cherché une définition intrinsèque. Qu'en est-il de Z(t)? Il s'agit d'un processus stochastique, centré, normé, censé avoir au moins une covariance saisonnière stationnaire. « Covariance saisonnière stationnaire » signifie que la covariance est une fonction périodique de l'intervalle de temps entre les observations. Une approche intrinsèque de la notion de tendance « à long terme » est proposée. Elle est liée au nombre d'observations et sa définition doit respecter un principe heuristique : l'évolution à venir à une échelle de temps courte par rapport à celle qui a été utilisée pour calculer la tendance et l'ajout conjoint de nouvelle données ne doit pas changer les tendances déjà définies. Notre étude est d’abord limitée à des séries de températures homogènes sans prise en compte de saisonnalités. Notre modèle (1) puis transforme en:X(t) = m(t) + s(t) Y(t)Y(t) est également centré et a au moins une covariance stationnaire. Dans notre cas, une technique d’estimation appropriée est d'utiliser la méthode Loess (local polynomial estimation) liée à une fenêtre locale. Des estimations asymptotiquement efficaces avec Loess pour des tendances de la moyenne ou dans la variance seront développées avec arguments théoriques et de nouveaux algorithmes afin de tenir compte des variances non constantes et des bruits corrélés. De réelles difficultés se font jour dans le choix du paramètre de lissage. Un nouvel algorithme permettant le choix automatique des paramètres de régularisation, nommé « modified partitionned cross validation » (MPCV), est donné. Cet algorithme possède de nombreux avantages par rapport aux moyens de sélection utilisés. Puis nous étudions l’estimation pour des modèles de variables indépendantes à paramètre fonctionnel et vectoriel, et lorsque la loi a une forme connue. Nous utilisons une estimation par des splines, résultant de la maximisation de la vraisemblance pénalisée. Dans ce cas, la non orthogonalité, dans le sens statistique, des paramètres de la distribution pose de nouvelles difficultés pour le choix du paramètre de lissage. De nouveau, nous proposons un nouvel algorithme permettant de faire automatiquement un choix pour les paramètres de lissage. La méthode est basée sur la combinaison des moindres carrés pondérés itérés et de la validation croisée itérée de Gu (2002). Sa performance asymptotique est vérifiée au travers de simulations. Cette méthode est utilisée pour estimer des modèles d’extrêmes non stationnaires GEV et POT. Nous proposons ensuite un test de stationnarité pour ce type de modèles paramétrés par des fonctions du temps, et plus spécifiquement pour des modèles d'extrêmes. L'idée est de comparer des estimateurs paramétriques et non paramétriques dans un contexte de modèle erronée. Nous calculons des distances L2 entre deux tels estimateurs. A partir de là, en utilisant des simulations, ou le bootstrap dans des cas particuliers importants, nous testons si  est significativement petite, ce qui signifie que la constance du paramètre peut être accepté. Dans notre cas, ce test est plus particulièrement utilisé pour tester l'hypothèse K suivante : « les extrêmes de Y(t) sont stationnaires ». Si K est acceptée, les paramètres d’extrêmes de X(t) peuvent être calculé en utilisant seulement la moyenne m(t), la variance s2(t) et les paramètres constants du modèle d’extrême de Y(t). En appliquant ces approches aux séries de température en Europe, nous trouvons un fort lien entre les tendances m et s et avec les tendances d’extrêmes et K est souvent accepté. Dans ce dernier cas , nous pouvons prédire le niveau de retour d’une nouvelle façon en passant par les informations de m, s et des paramètres d’extrême de Y, qui est plus robuste. L’autre objectif de cette thèse est de construire un modèle de simulation pour les températures de toute une année. A partir de modèle (2), les séries réduites Z(t) peuvent être obtenues après avoir supprimer les saisonnalités et les tendances. Z(t) n'est pas stationnaire, mais périodiquement stationnaire. Pour modéliser cette température réduite qui a des marginales de support bornés, nous précisons d’abord la théorie des extrêmes pour les diffusions à marginales bornées. Les discrétisations de ce type de modèles présentent des difficultés particulières dues au fait que le coefficient de diffusion s’annule en dehors de l’intervalle borné déterminé par les points frontières inaccessibles. Nous modifions le modèle fin de conserver les propriétés statistiques essentielles, en incluant le comportement des extrêmes mais en gardant un bruit gaussien et stationnaire. Afin de garantir alors la propriété « bornée » du processus, a est modifié pour être éliminé à l'extérieur du support borné. Les modèles vont être appliqués sur un large éventail de températures. L'ajustement de ces modèles sera considéré à travers des simulations de différents critères évalués à une date précis, ou pour un mois précis. Notre modèle, en général, montre un bon comportement et montre un meilleur ajustement comparé à d'autres modèles. Il conserve évidement cependant des faiblesses, que nous discuterons également par ailleurs.

  • Titre traduit

    Modeling non linear and non stationnary time series : Application to the definition of the trends in the mean, the variance and the extremes of the air temperature in Europe


  • Résumé

    In this thesis, we address some statistical problems linked with the warming of atmospheric temperatures. This thesis work will then focus on the understanding of the recent evolutions of extreme temperatures, related to the evolutions of the mean and the variance. The aim is then to propose a methodology to infer the future extreme levels, and on the other hand, to statistically generate coherent temperature series in the climate change context. Our basic model to describe a time series, more complicated than almost all model classically studied in theoretical non parametric analysis is of the following form :X(t)=m(t)+S(t)+SV(t)s(t)Z(t)where t is the date, X(t) the observations, m(t) the trend in mean, S(t) the seasonal component and Sv² (t), s2(t) are respectively the seasonal variance and the long term trend in variance. What about Z(t) ? It is a stochastic process, centred, normed, supposed or hoped to have at least a stationary seasonal covariance. “Stationary seasonal covariance” means that the covariance is a periodic function of the time interval between observations. An approach of the notion of “trends” is proposed. For us, the notion of “trends” must be linked with the length of the observations. In any case, trend definition or computation have to respect an heuristic principle : the latter evolution and the addition of new data must not change the trends already defined. First, in order to consider basic trends themselves, our study is limited to rather homogeneous temperature series without take into account the seasonality. Our model (1) then transforms into :X(t) = m(t) + s(t) Y(tY(t) is also supposed to have at least a stationary covariance. In our case, a logic and appropriate trend estimation is to use loess (local polynomial estimation) which linked to a “local window”. Asymptotically efficient estimations by loess for both trends in mean and in variance will be considered giving some theoretical arguments. Non constant variance and correlated noise give the difficulties for the choice of the tuning parameter. A new automatic algorithm for the choice of regularization parameters, named “modified partitioned cross-validation” (MPCV), will be given and it shows many advantages with respect to the other selectors. On the other hand, the estimation of the functional multi-parameters models is considered. The context is different than the previous one. Now, the law of the data is known, and the independence of the observations is supposed. We use spline smoothing for the estimation, which leads to maximize the penalized likelihood. Here the non-orthogonal (in the statistical sense) parameters in the distribution function set diffculties on the choice of smoothing parameters. Again, we propose a new algorithm for an automatic choice of smoothing parameters. This method is based on the iteratively weighted least squares and iterate cross validation of Gu (2002). Its asymptotic performance is checked through simulations. This approach is especially used to estimate nonstationary extreme models GEV or POT. It permits to give flexible trends in extremes and understand better the evolution of the temperature. Then, we propose a test of stationarity for models parametrized by functions of time and more specifically for extreme models. The idea is to compare non parametric and parametric estimates in a framework of misspecified models. We calculate some L2 distance between two these estimators. Then through simulations or bootstrap, we test if is significantly small, which signifies that the constancy of the parameter can be accepted or not. In our case, this test is particularly used to test the K hypothesis : “the extremes of Y(t) are stationary”. If K is valid, the extreme parameters of X(t) can be computed only using the mean m(t), the variance s2(t) and the constant parameters of the extreme model of Y(t). Applying these approaches to the temperature series in Europe, we find a strong link between the trends m and s and with the trends in extremes when K is usually valid. Moreover, when K is valid, we can predict the return level by a new way by passing by the informations of m, s and extreme parameters of Y , which is more robust. Another purpose in the thesis is to build a simulation model for temperatures of a whole year. From the model (1), the reduced series Z(t) can be obtained after removing the seasonalities and the trends. Z(t) is not stationary, but periodic stationary. To model this reduced temperature, which, has a bounded support for its marginal densities, we develop some theoretical points on bounded diffusion processes. The approximation of this kind of process is not evident, thus we give some slight modifications in order to keep the statistical properties of the model, including extremes behaviour but allowing gaussian noise and stationarity. Then in order to guarantee the boundedness of the process, a is modified to be cancelled outside the bounded support. The upper and lower bounds are seasonal. The models will be applied on many kinds of temperatures. The goodness-of-fit of these models will be considered through simulations from many criteria evaluated at a precise date or precise month. Our model, in general, performs well and shows its better goodness-of-_t compared with other models. However it has some limits that we try to discuss.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (283 p.)
  • Annexes : Bibliogr. p. 274-283

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2010)12

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Section Sciences de la Terre Recherche - cartothèque - CADIST.
  • Disponible pour le PEB
  • Cote : 10 PA11 2012
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.