Forêts aléatoires : aspects théoriques, sélection de variables et applications

par Robin Genuer

Thèse de doctorat en Mathématiques

Sous la direction de Jean-Michel Poggi.

Soutenue en 2010

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Cette thèse s'inscrit dans le cadre de l'apprentissage statistique et est consacrée à l'étude de la méthode des forêts aléatoires, introduite par Breiman en 2001. Les forêts aléatoires sont une méthode statistique non paramétrique, qui est très performante dans de nombreuses applications, aussi bien pour des problèmes de régression que de classification supervisée. Elles présentent un bon comportement sur des données de grande dimension, pour lesquelles le nombre de variables dépasse largement le nombre d'observations. Dans une première partie, nous développons une procédure de sélection de variables, basée sur l'indice d'importance des variables calculée par les forêts aléatoires. Cet indice d'importance permet de retrouver les variables pertinentes. La procédure consiste alors à sélectionner automatiquement un sous-ensemble de variables dans un but d'interprétation ou de prédiction. La deuxième partie illustre la capacité de cette procédure de sélection de variables à être performante pour des problèmes très différents. La première application est un problème de classification en grande dimension sur des données de neuroimagerie, alors que la seconde traite des données génomiques pour un problème de régression en plus petite dimension. Une dernière partie, théorique, établit des bornes de risque pour une version simplifiée des forêts aléatoires. Dans un contexte de régression, avec une seule variable explicative, nous montrons d'une part que les estimateurs associés à un arbre et à une forêt atteignent la vitesse minimax de convergence, et d'autre part que la forêt apporte une amélioration en réduisant la variance de l'estimateur d'un facteur de trois quarts.

  • Titre traduit

    Random forests : element of theory, variable selection and applications


  • Résumé

    This thesis deals with statistical learning and is dedicated to the random forests method, which has been proposed by Breiman in 2001. Random forests are a non-parametric statistical method, which is very powerful in many applications, for regression problems as well as for supervised classification ones. They also succeed to handle very high dimensional data, where the number of variables largely exceeds the number of observations. Ln a first part, we develop a variable selection procedure, based on the variable importance index computed by random forests. This importance index allows to highlight relevant variables from useless ones. The proposed procedure consists to automatically select a variables set for interpretation or prediction purpose. The second part shows the ability of the variable selection procedure to deal with very different problems. The first application is a classification problem in very high dimension for neuroimaging data, while the second one covers genomic data which constitute a regression problem in smaller dimension. A last theoretical part, establishes some risk bounds for a simplified version of random forests. Ln the context of regression problems with a one-dimensional predictor space, we prove that both tree and forest estimators achieved the minimax rate of convergence. Ln addition we prove that forests improve accuracy by reducing the estimator variance by a factor of three fourths.

Autre version

Cette thèse a donné lieu à une publication en 2011 par [CCSD] à Villeurbanne

Forêts aléatoires : aspects théoriques, sélection de variables et applications

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (137 p.)
  • Annexes : Bibliogr. p. 129-137

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DIBISO. BU Orsay.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2010)249
  • Bibliothèque : Bibliothèque Mathématique Jacques Hadamard (Orsay, Essonne).
  • Disponible sous forme de reproduction pour le PEB
  • Cote : GENU
  • Bibliothèque : Collège de France. Bibliothèque patrimoniale.
  • PEB soumis à condition
  • Cote : GLOW 511

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2010PA112249
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.