Approche méthodologique de sélection et construction de variables pour l'amélioration du processus d'extraction des connaissances à partir de grandes bases de données

par Gaëlle Legrand

Thèse de doctorat en Informatique

Sous la direction de Nicolas Nicoloyannis.

Soutenue en 2004

à Lyon 2 .


  • Résumé

    De nos jours, du fait de la présence de grandes bases de données, l'amélioration de la qualité de représentation des données est au centre des préoccupations. Deux types de transformation de variables permettent d'extraire la connaissance pertinente à partir des données. La sélection de variables est un processus qui choisit un sous-ensemble optimal de variables en fonction d'un critère particulier et qui réduit l'espace des variables en supprimant les variables non pertinentes. Cette transformation permet la réduction de l'espace de représentation, l'élimination du bruit et l'élimination de la redondance. Nous proposons une méthode de sélection de variables hybride entre approche enveloppe et approche filtre qui utilise une méthode d'agrégation de préférences. La méthode d'agrégation nous permet d'obtenir une liste triée par ordre d'importance de sous-ensemble de variables grâce à l'agrégation d'un ensemble de critère myope. La construction de variables est un processus qui découvre les informations manquantes dans une relation entre variables et qui augmente l'espace des variables en créant des variables supplémentaires. Lors du processus de construction de variables, un ensemble d'opérateurs est appliqué à un ensemble de variables existantes, débouchant sur la construction d'une ou plusieurs nouvelles variables. Nous proposons de construire de nouvelles variables grâce à la découverte de la structure sous-jacente des données, c'est à dire en travaillant sur les modalités des variables. En effet, Il nous paraît plus pertinent de se concentrer sur les relations existants entre modalités de variables plutôt que sur les relations entre variables elles même.


  • Pas de résumé disponible.


  • Résumé

    Nowadays, because of the presence of great data bases, the improvement of the data representation quality is very important. Two types of feature transformation make it possible to extract relevant knowledge starting from data. The feature selection is a process which chooses an optimal feature subset according to a particular criterion and which reduces the feature space by removing nonrelevant feature. This transformation allows the reduction of representation space, the elimination of noise and the elimination of redundancy. We propose a method of feature selection between wrapper and filter approach which uses a method of preferences aggregation. The method of aggregation enables us to obtain a feature subset list sorted by order of relevance thanks to the aggregation of results of a set of short-sighted criterion. The feature construction is a process which discovers missing information in a relation between feature and which increases the feature space by creating additional feature. At the time of the process of feature construction, a set of operators is applied to an existing feature set, leading to the construction of one or more new feature. We propose to build new feature thanks to the discovery of the subjacent structure of data. Indeed, It appears more relevant to us to concentrate on the relations existing between modalities of feature rather than on the relations between feature themselves.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 202 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 195-202

Où se trouve cette thèse ?

  • Bibliothèque : Université Lumière (Bron). Service commun de la documentation. Bibliothèque universitaire.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.