Construction d'objets symboliques par synthese des resultats de requetes sql

par VERONIQUE STEPHAN

Thèse de doctorat en Sciences appliquées

Sous la direction de Edwin Diday.

Soutenue en 1998

à Paris 9 .


  • Résumé

    Avec l'augmentation des sources d'informations, l'accumulation des donnees de toutes sortes s'intensifie. L'objectif de notre travail est de synthetiser des informations stockees dans une base de donnees relationnelle (bdr) de maniere a effectuer des analyses ulterieures non pas sur les donnees initiales mais sur les resultats obtenus. Nous nous interessons particulierement au mode de selection d'une information statistique a partir d'une bdr et au choix d'une methode de generalisation, efficace pour la synthese de l'information. Dans le cadre de notre travail, la notion de generalisation est fondee sur le pouvoir de recouvrement d'une description par rapport aux donnees initiales. Notre problematique peut s'inscrire naturellement au sein du data mining, defini comme la recherche de structures pertinentes pour l'utilisateur a partir de grands volumes de donnees. La synthese d'informations que nous effectuons donne lieu a l'elaboration d'une base de connaissances, decrite dans le formalisme des objets symboliques. Ce formalisme, developpe dans le cadre de l'analyse des donnees symboliques par le pr diday, etend le modele classique utilise en analyse des donnees. Ainsi, ce modele de representation permet de prendre en compte la notion de variabilite dans la synthese de l'information et offre un cadre privilegie pour la mise en oeuvre de nouvelles analyses exploratoires. Dans notre these, nous definissons un ensemble d'operateurs utiles pour l'elaboration d'une base de connaissances a partir d'informations selectionnees par des requetes sql a la base. A cet egard, nous introduisons les notions statistiques de population, d'echantillon, de nomenclature hierarchique (encore appelee taxinomie) et de generalisation dans le contexte base de donnees. Une fois cette correspondance etablie, nous presentons leur mise en oeuvre informatique au moyen d'une maquette logicielle. La specificite de notre approche pour la generalisation reside dans le choix d'un bon compromis entre la reduction du volume de donnees a traiter et la perte d'informations qu'elle induit. Pour ce faire, nous definissons un critere de qualite d'une generalisation. Nous presentons alors deux approches pour ameliorer l'adequation d'une description generalisante par rapport aux donnees initiales. Une premiere methode reduit la description generalisante en eliminant les valeurs atypiques. Cette methode vise a ameliorer l'homogeneite de la repartition des individus au sein de la description obtenue. L'autre methode que nous abordons resume les observations par une structure classificatoire ou chaque classe est decrite par un objet symbolique. Cette structure est obtenue en maximisant l'adequation de chaque classe avec sa description par elimination des liaisons entre variables.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 226 P.
  • Annexes : 124 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Moyens Informatiques et Multimédia. Information.
  • Disponible pour le PEB
  • Cote : D-STE
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-842
  • Bibliothèque : Université Paris-Dauphine (Paris). Service commun de la documentation.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.