Thèse soutenue

Contribution à la sélection de variables par les machines à vecteurs support pour la discrimination multi-classes

FR  |  
EN
Auteur / Autrice : Fatima Zahra Aazi
Direction : Rafik AbdesselamBoujemâa AchchabAbdejalil El Ouardighi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/12/2016
Etablissement(s) : Lyon en cotutelle avec Université Hassan Ier (Settat, Maroc)
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : Equipe de recherche : Entrepôts, Représentation et Ingénierie des Connaissances
établissement opérateur d'inscriptions : Université Lumière (Lyon ; 1969-....)
Jury : Président / Présidente : Rajaa Aboulaich
Rapporteurs / Rapporteuses : Mohamed Nadif, Aouatif Amine, Sanaa El Fkihi

Résumé

FR  |  
EN

Les avancées technologiques ont permis le stockage de grandes masses de données en termes de taille (nombre d’observations) et de dimensions (nombre de variables).Ces données nécessitent de nouvelles méthodes, notamment en modélisation prédictive (data science ou science des données), de traitement statistique adaptées à leurs caractéristiques. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement aux données dont le nombre de variables est élevé comparé au nombre d’observations.Pour ces données, une réduction du nombre de variables initiales, donc de dimensions, par la sélection d’un sous-ensemble optimal, s’avère nécessaire, voire indispensable.Elle permet de réduire la complexité, de comprendre la structure des données et d’améliorer l’interprétation des résultats et les performances du modèle de prédiction ou de classement en éliminant les variables bruit et/ou redondantes.Nous nous intéressons plus précisément à la sélection de variables dans le cadre de l’apprentissage supervisé et plus spécifiquement de la discrimination à catégories multiples dite multi-classes. L’objectif est de proposer de nouvelles méthodes de sélection de variables pour les modèles de discrimination multi-classes appelés Machines à Vecteurs Support Multiclasses (MSVM).Deux approches sont proposées dans ce travail. La première, présentée dans un contexte classique, consiste à sélectionner le sous-ensemble optimal de variables en utilisant le critère de "la borne rayon marge" majorante du risque de généralisation des MSVM. Quant à la deuxième approche, elle s’inscrit dans un contexte topologique et utilise la notion de graphes de voisinage et le critère de degré d’équivalence topologique en discrimination pour identifier les variables pertinentes qui constituent le sous-ensemble optimal du modèle MSVM.L’évaluation de ces deux approches sur des données simulées et d’autres réelles montre qu’elles permettent de sélectionner, à partir d’un grand nombre de variables initiales, un nombre réduit de variables explicatives avec des performances similaires ou encore meilleures que celles obtenues par des méthodes concurrentes.