Thèse soutenue

Arbres de décision et forêts aléatoires pour variables groupées

FR  |  
EN
Auteur / Autrice : Audrey Poterie
Direction : Jean-François Dupuy
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Applications
Date : Soutenance le 18/10/2018
Etablissement(s) : Rennes, INSA
Ecole(s) doctorale(s) : École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes)
Partenaire(s) de recherche : Comue : Université Bretagne Loire (2016-2019)
Laboratoire : Institut de recherche mathématique (Rennes ; 1996-....) - Institut de Recherche Mathématique de Rennes / IRMAR
Jury : Président / Présidente : Gérard Biau
Examinateurs / Examinatrices : Jean-François Dupuy, Gérard Biau, Christophe Biernacki, Christine Tuleau, Valérie Monbet, Laurent Rouvière
Rapporteurs / Rapporteuses : Christophe Biernacki, Jean-Michel Poggi

Résumé

FR  |  
EN

Dans de nombreux problèmes en apprentissage supervisé, les entrées ont une structure de groupes connue et/ou clairement identifiable. Dans ce contexte, l'élaboration d'une règle de prédiction utilisant les groupes plutôt que les variables individuelles peut être plus pertinente tant au niveau des performances prédictives que de l'interprétation. L'objectif de la thèse est de développer des méthodes par arbres adaptées aux variables groupées. Nous proposons deux approches qui utilisent la structure groupée des variables pour construire des arbres de décisions. La première méthode permet de construire des arbres binaires en classification. Une coupure est définie par le choix d'un groupe et d'une combinaison linéaire des variables du dit groupe. La seconde approche, qui peut être utilisée en régression et en classification, construit un arbre non-binaire dans lequel chaque coupure est un arbre binaire. Ces deux approches construisent un arbre maximal qui est ensuite élagué. Nous proposons pour cela deux stratégies d'élagage dont une est une généralisation du minimal cost-complexity pruning. Les arbres de décision étant instables, nous introduisons une méthode de forêts aléatoires pour variables groupées. Outre l'aspect prédiction, ces méthodes peuvent aussi être utilisées pour faire de la sélection de groupes grâce à l'introduction d'indices d'importance des groupes. Ce travail est complété par une partie indépendante dans laquelle nous nous plaçons dans un cadre d'apprentissage non supervisé. Nous introduisons un nouvel algorithme de clustering. Sous des hypothèses classiques, nous obtenons des vitesses de convergence pour le risque de clustering de l'algorithme proposé.