Inférence statistique dans un modèle à variances isolées de grande dimension

par Damien Passemier

Thèse de doctorat en Mathématiques et applications

Sous la direction de Jian Feng Yao.

Soutenue en 2012

à Rennes 1 .


  • Résumé

    Cette thèse s'intéresse à l'estimation statistique dans un modèle à variances isolées (modèle spike) de grande dimension. La théorie des matrices aléatoires permet de prendre en compte cette spécificité, puisque la plupart des résultats limites s'appliquent aux matrices dont la taille tend vers l'infini. Une part importante de ces résultats concerne la matrice de covariance empirique. Dans un premier temps, nous nous intéressons à l'estimation du nombre de facteurs/spikes. La différence de comportement des valeurs propres de la matrice de covariance empirique, selon que l'on considère celles correspondant aux spikes ou non, nous permet de construire un estimateur. Ce dernier correspond à la différence de deux valeurs propres consécutives ordonnées. Nous établissons la consistance de l'estimateur dans le cas où toutes les spikes sont distinctes, et le comparons à deux méthodes existantes à travers des simulations. L'estimateur dépend d'un seuil qui doit remplir certaines conditions. Dans la suite, nous étendons le résultat de consistance au cas d'égalité et améliorons l'estimateur en changeant de seuil. Dans un second temps, nous considérons les estimateurs du maximum de vraisemblance d'un modèle à facteurs strict à variance homoscédastique. En utilisant un théorème limite pour les statistiques spectrales linéaires, nous corrigeons l'estimateur de la variance commune en grande dimension en donnant l'expression de son biais et en établissant sa loi limite. Nous présentons une version corrigée du test du rapport de vraisemblance d'adéquation à un modèle à facteurs. Finalement, nous construisons un test d'égalité de deux spikes.

  • Titre traduit

    Statistical inference in a high-dimensional spiked population model


  • Résumé

    This thesis deals with the statistical inference of large dimensional data. The random matrix theory allows to take into account this framework, since most asymptotic results apply to large-dimensional random matrices. A large number of these results concerns the population covariance matrix. First, we are interested in estimating the number of factors/spikes in large dimension. To construct our estimator, we use the fact that the eigenvalue behavior of the sample covariance matrix differs depending on whether they correspond to spikes or not. The estimator is based on differences between consecutive ordered eigenvalues. We establish the consistency of the estimator in the case where all the spikes are different, and compare it to two existing methods through simulation experiments. The estimator depends on a threshold which should satisfy some conditions. Furthermore, we extend our result of consistency to the equality case and improve our estimator by using a dimension-adapted threshold. Secondly, we consider the maximum likelihood estimator in a strict factor model with homoscedastic variance. Using a central limit theorem for linear spectral statistics, we correct the estimator of the common variance in high-dimensional setting by evaluating its bias and establishing its limiting law. We present a corrected version of the goodness-of-fit test for a factor model. Finally, we propose a test for the equality of two spikes.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XX-113 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 107-113

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2012/97
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.