Thèse soutenue

Apprentissage supervisé de données déséquilibrées par forêt aléatoire

FR  |  
EN
Auteur / Autrice : Julien Thomas
Direction : Djamel Abdelkader Zighed
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 12/02/2009
Etablissement(s) : Lyon 2
Ecole(s) doctorale(s) : Informatique et information pour la société
Partenaire(s) de recherche : Laboratoire : Equipe de Recherche en Ingenierie des Connaissances - Equipe de Recherche en Ingénierie des Connaissances
Jury : Président / Présidente : Nicole Vincent
Examinateurs / Examinatrices : Gilles Venturini, Pierre-Emmanuel Jouve, Sylvie Philipp-Foliguet, Behzad Shariat

Résumé

FR  |  
EN

La problématique des jeux de données déséquilibrées en apprentissage supervisé est apparue relativement récemment, dès lors que le data mining est devenu une technologie amplement utilisée dans l'industrie. Le but de nos travaux est d'adapter différents éléments de l'apprentissage supervisé à cette problématique. Nous cherchons également à répondre aux exigences spécifiques de performances souvent liées aux problèmes de données déséquilibrées. Ce besoin se retrouve dans notre application principale, la mise au point d'un logiciel d'aide à la détection des cancers du sein.Pour cela, nous proposons de nouvelles méthodes modifiant trois différentes étapes d'un processus d'apprentissage. Tout d'abord au niveau de l'échantillonnage, nous proposons lors de l'utilisation d'un bagging, de remplacer le bootstrap classique par un échantillonnage dirigé. Nos techniques FUNSS et LARSS utilisent des propriétés de voisinage pour la sélection des individus. Ensuite au niveau de l'espace de représentation, notre contribution consiste en une méthode de construction de variables adaptées aux jeux de données déséquilibrées. Cette méthode, l'algorithme FuFeFa, est basée sur la découverte de règles d'association prédictives. Enfin, lors de l'étape d'agrégation des classifieurs de base d'un bagging, nous proposons d'optimiser le vote à la majorité en le pondérant. Pour ce faire nous avons mis en place une nouvelle mesure quantitative d'évaluation des performances d'un modèle, PRAGMA, qui permet la prise en considération de besoins spécifiques de l'utilisateur vis-à-vis des taux de rappel et de précision de chaque classe.