Thèse soutenue

Visualisation et séparateurs à vaste marge en fouille de données
FR
Accès à la thèse
Auteur / Autrice : Thanh-Nghi Do
Direction : Henri BriandFrançois Poulet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2004
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale sciences et technologies de l'information et des matériaux (Nantes)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Nous présentons différentes approches coopératives combinant des méthodes de visualisation et des séparateurs à vaste marge (SVM) pour l'extraction de connaissances dans les données (ECD). La plupart des méthodes existantes à l'heure actuelle en fouille de données fonctionnent de manière automatique, l'utilisateur n'est que peu impliqué dans le processus. Par ailleurs, ces méthodes doivent pouvoir traiter des quantités de plus en plus importantes de données. Nous visons d'une part à augmenter le rôle de l'utilisateur dans le processus de fouille (par le biais de la visualisation) et d'autre part à améliorer les performances et les capacités des algorithmes de fouille pour leur permettre de traiter de grands ensembles de données. Nous présentons : - une classe d'algorithmes de SVM parallèles et distribués pour le traitement de grandes quantités de données, - des méthodes graphiques interactives pour expliquer les résultats des algorithmes de classification automatique, - des méthodes coopératives permettant d'impliquer plus significativement l'utilisateur dans la construction du modèle. Nous avons développé des algorithmes incrémentaux, parallèles et distribués (en lignes ou en colonnes) de proximal SVM, Least-Square SVM et SVM généralisé. Ces algorithmes nous permettent de traiter aisément des fichiers de très grandes tailles sur des machines standards : un milliard d'individus en dimension 10 sont classés en 7 minutes (sur 10 machines). Dans la plupart des cas, les algorithmes de SVM donnent en sortie les vecteurs support (qui forment la frontière entre les éléments des deux classes). Cette information est peu compréhensible et fait que les SVM sont utilisés comme des boîtes noires. Nous présentons des méthodes graphiques interactives pour interpréter les résultats de SVM en classification, régression et détection d'individus atypiques et permettre par exemple de déterminer les dimensions intéressantes dans le modèle obtenu. Nous en avons ensuite dérivé une méthode graphique interactive pour améliorer les résultats des algorithmes de SVM dans le cas de la classification multi-classes ou d'une classe minoritaire et une méthode graphique d'aide au paramétrage des SVM. Enfin nous présentons une méthode de fouille visuelle de données permettant la construction interactive de SVM. Les performances des algorithmes développés sont ensuite évaluées sur différents ensembles de données : les résultats sont équivalents aux algorithmes usuels en ce qui concerne les taux de précision. Nos principaux apports sont d'une part l'amélioration de la confiance et de la compréhensibilité du modèle et d'autre part la capacité à traiter de très grandes quantités de données sur du matériel standard.