Thèse soutenue

Quelques questions de sélection de variables autour de l'estimateur Lasso

FR  |  
EN
Auteur / Autrice : Mohamed Hebiri
Direction : Nicolas Vayatis
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance en 2009
Etablissement(s) : Paris 7

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Le probleme general etudier dans cette these est celui de la regression lineaire en grande dimension. On s'intéresse particulièrement aux méthodes d'estimation qui capturent la sparsité du paramètre cible, Même dans le cas où la dimension est supérieure au nombre d'observations. Une méthode populaire pour estimer le paramètre inconnu de la régression dans ce contexte est l'estimateur des moindres carrés Pénalisés par la norme S\ell_1S des coefficients, connu sous le nom de lasso. Les contributions de la thèse portent sur l'étude de variantes du lasso prenant en compte soit des Informations supplémentaires sur les variables d'entrée, soit des modes semi-supervisés d'acquisition des données. Plus précisément, les questions abordées dans ce travail sont : i) l'estimation du paramètre inconnu Lorsque l'espace des variables explicatives a une structure bien déterminée (présence de corrélations, Structure d'ordre sur les variables ou regroupements entre variables) ; ii) la construction d'estimateurs Adaptés au cadre transductif, pour lequel les nouvelles observations non étiquetées sont prises en considération. Ces adaptations sont en partie déduites par une modification de la pénalité dans la Définition de l'estimateur lasso. Les procédures introduites sont essentiellement analysées d'un point de vue non-asymptotipue ; nous Prouvons notamment que les estimateurs vérifient des inégalités de sparsité oracles. Des résultats de consistance en sélection de variables sont également établis. Les performances pratiques des méthodes étudiées sont par ailleurs illustrées à travers des résultats de simulation.