Estimation des paramètres pour des modèles adaptés aux séries de records

par Anis Hoayek

Thèse de doctorat en Biostatistique

Sous la direction de Gilles Ducharme.

Soutenue le 25-11-2016

à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec Institut Montpelliérain Alexander Grothendieck (Montpellier) (laboratoire) .


  • Résumé

    Dans une série chronologique, une observation est appelée record au temps «t» si sa valeur est supérieure à toutes les valeurs précédentes. Suivant l’augmentation de «t», considérons la suite des valeurs des records et la suite des indices d’occurrence des records. Les propriétés stochastiques des suites de valeurs des records ont été largement étudiées dans le cas où les observations sont des variables aléatoires indépendantes et identiquement distribuées (iid). Il se trouve que beaucoup de ces propriétés sont universelles, c’est-à-dire tiennent pour n’importe quelle loi de probabilité commune des observations. En particulier, les records ont tendance à devenir plus espacés dans le temps à mesure que «t» augmente. Cependant, ce n’est pas ce que l’on observe dans de nombreux jeux de données réelles. Ceci a conduit à l’élaboration de modèles plus complexes pour fournir une meilleure prédiction.Le modèle, peut-être le plus simple mais en tout cas le plus populaire, pour une série de records issus d’observations indépendantes mais non identiquement distribuées est le modèle à dérive linéaire (LDM). Ce modèle a été étudié par de nombreux auteurs et trouvé en accord avec certains types de données où l’hypothèse iid ne tient pas. Cependant, dans des situations pratiques, l’utilisation du LDM nécessite la détermination du paramètre de dérive du modèle et cela pousse le problème dans le domaine de la statistique.Il existe une similitude entre les records et le traitement de données censurées en analyse de survie. En particulier, toutes les observations qui tombent entre deux records consécutifs et au-delà du dernier record peuvent être considérées comme des observations censurées par le dernier record observé. Pour mettre en évidence cette similitude, on introduit la suite des indicatrices de records qui prennent la valeur 1 si l’observation est un record et 0 sinon.Un autre modèle populaire est le modèle Yang-Nevzorov. Ce modèle est intéressant car il a la structure d’un modèle à risque proportionnel en analyse de survie, lequel a montré son utilité dans ce domaine pour modéliser de nombreux jeux de données. Cependant, à notre connaissance, l’inférence statistique pour le modèle Yang-Nevzorov a été peu développé.Le but de ce travail est d’introduire certains estimateurs des différents paramètres des modèles LDM et Yang respectivement et d’en obtenir leurs propriétés statistiques. Il est montré que le mécanisme de censure est informatif pour certains paramètres. Cela justifie l’analyse des qualités d’estimateurs qui peuvent être obtenus à partir de ces indicatrices de records. Nous donnons quelques propriétés exactes et asymptotiques de ces estimateurs. Il se trouve que dans le modèle de Yang, le comportement des différents estimateurs est indépendant de la distribution sous-jacente. Notons que nos estimateurs peuvent être utilisés même lorsque les valeurs exactes des records sont elles-mêmes indisponibles ou de mauvaise qualité et les seules indicatrices sont disponibles ou fiables. En outre, il est montré que des tests d’ajustement du modèle de Yang peuvent aussi être dérivés de ces indicatrices. Ces tests ont même des capacités diagnostiques qui peuvent aider à suggérer des corrections au modèle.Toujours dans le contexte d’un modèle de Yang, nous étudions le comportement stochastique du temps inter-records et nous donnons sa loi asymptotique, indépendamment de la loi des va sous-jacentes. De plus, nous appliquons nos résultats théoriques à des données analysées précédemment par Yang.Enfin, nous passons à l’utilisation de la totalité des données disponibles (valeurs et indices/indicatrices de records) afin de calculer, par plusieurs méthodes, des estimateurs des paramètres des modèles LDM et Yang-Nevzorov. De plus, nous introduisons des tests statistiques qui nous aident à vérifier la conformité du choix de la distribution sous-jacente des observations et à choisir entre un modèle LDM et de Yang.

  • Titre traduit

    Parameter estimation for models adapted to record series


  • Résumé

    In a time series, an observation is called a record at time «t» if its value is greater than all previous values. As «t» increases, consider the sequence of records and the sequence of indices of occurrence of the records.The stochastic properties of sequences of record values have been much studied in the case where the observations are independent and identically distributed (iid) random variables. It turns out that many of these properties are universal, i.e. they hold for any cumulative distribution function for the underlying observations. In particular, records have a tendency to become further separated in time as «t» increases. However, this is not what is observed in many real data sets. This has lead to the development of more comprehensive models to provide better prediction.One of the simplest and popular model for a series of records extracted from independent but not identically distributed observations is the linear drift model (LDM). This model has been studied by many authors and found to be in agreement with some data sets where the iid assumption does not hold. However, for its uses in practical situations, the LDM requires the specification of the drift parameter of the model and this brings the problem into the realm of statistics.There are similarities between records and censored data in e.g. survival analysis. In particular, all observations that fall between two consecutive records and beyond the last record, can be seen as censored, by the last observed record. To highlight these similarities, consider the sequence of record indicators which are 1 if the observation is a record and 0 otherwise.Another popular model is the Yang-Nevzorov model. This model is interesting because it has the structure of a proportional hazard model, which have been shown to provide good fit to many data sets in survival analysis. However, to the best of our knowledge, statistical inference for the Yang- Nevzorov model has been little developed.The goal of this work is to introduce some estimators of the parameters in LDM and Yang’s model respectively and derive their statistical properties. It is shown that the censoring mechanism is informative for certain parameters. This justifies investigating the usefulness of estimators that can be extracted from record indicators. We give some exact and asymptotic properties of these estimators. It turns out that in a Yang’s model, the behavior of these estimators is distribution-free, i.e. does not involve the underlying CDF. Note that our estimators can be used even when the exact value of the records are themselves unavailable or of poor quality and only the indicators of their occurrence are available or trustworthy. Also, it is shown that distribution-free goodness-of-fit tests for Yang’s model can be derived from these indicators. These tests even have some diagnostic capabilities that can help in suggesting corrections to the model.Still in the context of a Yang’s model, we study the stochastic behavior of the inter-record time and give its asymptotic distribution regardless of the choice of the underlying distribution. In addition, we apply our theoretical results to a previously analyzed data set.Finally, we turn to the use of all available data (record values and indices/indicators) in order to calculate, by several methods, estimators of parameters in LDM and Yang-Nevzorov’s model. In addition, we introduce statistical tests that help us to check the conformity of the choice of the underlying distribution and to choose between LDM and Yang.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque interuniversitaire. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.