Sélection de variables et régression sur les quantiles

par Ibrahim Sidi Zakari

Thèse de doctorat en Statistique

Sous la direction de Abdallah Mkhadri et de Assi N'Guessan.

Soutenue le 10-07-2013

à Lille 1 en cotutelle avec l'Université Cadi Ayyad (Marrakech, Maroc) , dans le cadre de École doctorale Sciences pour l'Ingénieur (Lille) , en partenariat avec Laboratoire Paul Painlevé (laboratoire) .


  • Résumé

    Ce travail est une contribution à la sélection de modèles statistiques et plus précisément à la sélection de variables dans le cadre de régression linéaire sur les quantiles pénalisée lorsque la dimension est grande. On se focalise sur deux points lors de la procédure de sélection : la stabilité de sélection et la prise en compte de variables présentant un effet de groupe. Dans une première contribution, on propose une transition des moindres carrés pénalisés vers la régression sur les quantiles (QR). Une approche de type bootstrap fondée sur la fréquence de sélection de chaque variable est proposée pour la construction de modèles linéaires (LM). Dans la majorité des cas, l’approche QR fournit plus de coefficients significatifs. Une deuxième contribution consiste à adapter certains algorithmes de la famille « Random » LASSO (Least Absolute Solution and Shrinkage Operator) au cadre de la QR et à proposer des méthodes de stabilité de sélection. Des exemples provenant de la sécurité alimentaire illustrent les résultats obtenus. Dans le cadre de la QR pénalisée en grande dimension, on établit la propriété d’effet groupement sous des conditions plus faibles ainsi que les propriétés oracles. Deux exemples de données réelles et simulées illustrent les chemins de régularisation des algorithmes proposés. La dernière contribution traite la sélection de variables pour les modèles linéaires généralisés (GLM) via la vraisemblance nonconcave pénalisée. On propose un algorithme pour maximiser la vraisemblance pénalisée pour une large classe de fonctions de pénalité non convexes. La propriété de convergence de l’algorithme ainsi que la propriété oracle de l’estimateur obtenu après une itération ont été établies. Des simulations ainsi qu’une application sur données réelles sont également présentées.

  • Titre traduit

    Variables selection and quantile regression


  • Résumé

    This work is a contribution to the selection of statistical models and more specifically in the selection of variables in penalized linear quantile regression when the dimension is high. It focuses on two points in the selection process: the stability of selection and the inclusion of variables by grouping effect. As a first contribution, we propose a transition from the penalized least squares regression to quantiles regression (QR). A bootstrap approach based on frequency of selection of each variable is proposed for the construction of linear models (LM). In most cases, the QR approach provides more significant coefficients. A second contribution is to adapt some algorithms of "Random" LASSO (Least Absolute Shrinkage and Solution Operator) family in connection with the QR and to propose methods of selection stability. Examples from food security illustrate the obtained results. As part of the penalized QR in high dimension, the grouping effect property is established under weak conditions and the oracle ones. Two examples of real and simulated data illustrate the regularization paths of the proposed algorithms. The last contribution deals with variable selection for generalized linear models (GLM) using the nonconcave penalized likelihood. We propose an algorithm to maximize the penalized likelihood for a broad class of non-convex penalty functions. The convergence property of the algorithm and the oracle one of the estimator obtained after an iteration have been established. Simulations and an application to real data are also presented.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université des sciences et technologies de Lille. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.