Estimateur par agrégat en apprentissage statistique en grande dimension

par Edwin Grappin

Projet de thèse en Mathématiques fondamentales

Sous la direction de Arnak Dalalyan.

Thèses en préparation à Paris Saclay , dans le cadre de Mathématiques Hadamard , en partenariat avec ENSAE - X - Centre de recherche en économie et statistique (CREST) (laboratoire) , Laboratoire de Statistique (equipe de recherche) et de école nationale de la statistique et de l'administration économique  (établissement de préparation de la thèse) depuis le 15-11-2014 .


  • Résumé

    Estimateur par agrégation en statistique en apprentissage statistique en grande dimension. Les travaux de cette thèse apportent des éléments de réponses sur le comportement théoriques de certaines familles d'estimateurs particulièrement bien adapté aux questions de statistique en grande dimension et aux enjeux de la prédiction. Un chapitre de cette étude s'intéresse aux propriétés d'une famille d'estimateurs agrégés à poids exponentiels. Cette étude propose d'étendre les résultats liés à l'estimateur Lasso (Inégalité Oracle et prédiction) et aux autres estimateurs analogues dans le cas matriciel. Une seconde partie s'intéresse aux propriétés computationnelle de cette famille d'estimateur. Une méthode par Monte Carlo est proposé pour approcher précisemment l'estimateur en un nombre d'opérations fini et explicite. Enfin, une troisième partie propose des résultats et des méthodes pour améliorer les propriétés de familles d'estimateurs lorsqu'il s'agit d'un context semi-supervisé (partiellement labélisé) ou transductif.

  • Titre traduit

    Model Averaging in Large Scale Learning


  • Résumé

    Model Averaging in Large Scale Learning. This study brings insights on the theoretical behaviour of families of estimators that prove to be efficient in the context of high dimensional statistics with prediction purposes. A chapter is dedicated to the properties of a family of aggregated with exponential weights estimators. This study extends the results of the Lasso estimator (Oracle Inequality and prediction) and to other closely related estimators. A second part focus on the computational question in order to calculate these estimators. A Monte Carlo method is proposed that is proven to approximate well the estimator in a finite and explicit number of operations. The last part of this thesis proposes and analyses methods that improve guarantees of a family of estimators in the semi-supervised (partially labeled) and transductive case.