Thèse soutenue

ClassAdd, une procédure de sélection de variables basée sur une troncature k-additive de l'informatique mutuelle et sur une classification ascendante hiérarchique en pré-traitement

FR  |  
EN
Auteur / Autrice : Hélène Daviet Desmier
Direction : Pascale Kuntz-CosperecIvan Kojadinovic
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2009
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale sciences et technologies de l'information et des matériaux (Nantes)
Partenaire(s) de recherche : autre partenaire : Université de Nantes. Faculté des sciences et des techniques - Centrale Nantes

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Le problème de la sélection de variables en discrimination se rencontre généralement lorsque le nombre de variables, pouvant être utilisées pour expliquer la classe d'un individu, est très élevé. Les besoins ont beaucoup évolué ces dernières années avec la manipulation d'un grand nombre de variables dans des domaines tels que les données génétiques, la chimie moléculaire ou encore le traitement de documents textes. Une procédure de sélection de variables consiste à sélectionner un sous-ensemble de variables permettant d'expliquer la classe de façon optimale ou quasi-optimale. La nécessité de ce traitement est essentiellement due au fait que, généralement, un nombre de variables discriminantes trop élevé dans un modèle de discrimination détériore grandement sa capacité de généralisation et la compréhension de la relation modélisée. Dans le cadre de ce travail, nous nous intéressons au cas où les variables potentiellement discriminantes sont toutes discrètes ou nominales et nous proposons une procédure de sélection de variables indépendante d'un modèle de données. Nos travaux s'orientent dans deux directions : une mesure de pertinence peu coûteuse grâce à l'utilisation d'une troncature k-additive de l'information mutuelle et une réduction de l'espace de recherche en structurant l'ensemble des variables avec une classification ascendante hiérarchique. Notre algorithme a pu être expérimenté sur trois types de données : des jeux artificiels construits avec une structure connue, des jeux de données réelles classiques et enfin une application d'entreprise : une population de cadres à la recherche d'emploi décrite par des variables comportementales