Réduction de dimension en apprentissage numérique non supervisé

par Sébastien Guérif

Thèse de doctorat en Informatique

Sous la direction de Younès Bennani.

Soutenue en 2006

à Paris 13 .


  • Résumé

    La classification automatique - clustering - est une étape importante du processus d'extraction de connaissances à partir de données (ECD). Elle vise à découvrir la structure intrinsèque d'un ensemble d'objets en formant des regroupements - clusters - qui partagent des caractéristiques similaires. La complexité de cette tache s'est fortement accrue ces deux dernières décennies lorsque les masses de données disponibles ont vu leur volume exploser. En effet, le nombre d'objets présents dans les bases de données a fortement augmente mais également la taille de leur description. L'augmentation de la dimension des données a des conséquences non négligeables sur les traitements classiquement mis en œuvre: outre l'augmentation naturelle des temps de traitements, les approches classiques s'avèrent parfois inadaptées en présence de bruit ou de redondance. Dans cette thèse, nous nous intéressons à la réduction de dimension dans le cadre de la classification non supervisée. Différentes approches de sélection ou de pondération de variables sont proposées pour traiter les problèmes lies a la présence d'attributs redondants ou d'attributs fortement bruites : Nous proposons d'abord l'algorithme p-SOM qui limite l‘effet de la présence d'attributs redondants en calculant une pondération des attributs à partir d'une classification simultanée des objets et des attributs. Nous présentons ensuite une approche intégrée - embedded - de sélection de variables pour la classification automatique qui permet de découvrir à la fois le nombre de groupes d' objets présents dans les données mais aussi un sous-ensemble d'attributs pertinents. Nous terminons en présentant l'algorithme wβ -SOM qui introduit une pondération des attributs dans la fonction de coût des cartes auto-organisatrices - Self Organizing Maps - qui est ensuite optimisée itérativement en altérant trois étapes : optimisation des affectations, optimisation des prototypes et optimisation des poids. La pondération obtenue après convergence est ensuite utilisée pour proposer une approche filtre - Filter - de selection de variables. Nous concluons cette these en indiquant les limites des approches proposées et envisageant quelques axes à développer lors de la poursuite ces recherches.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (112 p.)
  • Annexes : Bibliogr.

Où se trouve cette thèse ?