Outils classificatoires par objets pour l'extraction de connaissances dans des bases de données

par Arnaud Simon

Thèse de doctorat en Sciences et techniques

Sous la direction de Amedeo Napoli.

Soutenue en 2000

à Nancy 1 , en partenariat avec Université Henri Poincaré Nancy 1. Faculté des sciences et techniques (autre partenaire) .


  • Résumé

    Cette dernière décennie a vu évoluer la problématique relative au traitement des données d'une part par un facteur d'échelle - les données ainsi que la représentation qui leur est associée sont de plus en plus nombreuses - et de disponibilité (notamment par le développement des réseaux de communication et des supports de stockage) de l'autre. L'étude des techniques permettrait d'exploiter ces masses de données maintenant disponibles fait l'objet du courant de recherche appelé extraction de connaissances dans des bases de données ou ECBD. Les principales techniques étudiées dans le cadre de l'ECBD sont issues des bases de données, de l'apprentissage, de la représentation des connaissances, des statistiques, de l'analyse de données et de la visualisation. L'ECBD est ainsi un domaine de recherche pluridisciplinaire où l'ensemble des techniques mises en oeuvre visent l'objectif commun qui consiste à exploiter au mieux les données. L'approche de l'ECBD qui est adoptée dans ce mémoire de thèse est fondée sur l'étude d'outils classificatoires par objets. Les techniques classiques d'arbres de décision et principalement de treillis de Galois sont adaptées - ces techniques relèvent des problématiques issues des modèles fondés sur des « tableaux de données» -- au cas ou les données relèvent d'un système de représentation des connaissances par objets, ou système de RCO. Un système de RCO a pour fonction de stocker et d'organiser les connaissances autour de la notion de hiérarchie d'objets et de fournir des services inférentiels - qui sont destinés à compléter l'information disponible - et d'accès à l'information (filtrage) tous deux fondés sur des méthodes classificatoires. Par ailleurs, un système de RCO permet de manipuler des données « complexes» car leurs attributs ne se réduisent pas à des types de base atomique mais peuvent être d'autres objets (relations) ; aussi bien mono que multivalués. Les fonctionnalités de représentation et inférentielles des systèmes de RCO sont mises à profit pour l'ECBD pour elles-même mais aussi pour la construction de structures classificatoires d'arbres de décision et de treillis de Galois. Les structures ainsi construites sont des hiérarchies d'objets qui relèvent du modèle de RCO. Une telle approche a pour avantages de prendre en compte les connaissances disponibles et de produire des structures directement interprétables et réutilisables - pour mener à bien des inférences ou des constructions de nouvelles structures. Les structures de treillis de Galois sont également mises à profit pour la construction de toutes les règles d'association partielles. Nous montrons que notre approche possède l'avantage de construire moins de règles, car des règles redondantes ne sont pas produites, de permettre une mise à jour des règles pour tenir compte de nouveaux individus ou de nouvelles propriétés et d'améliorer l'expressivité des règles.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (192 p.)
  • Annexes : 219 ref.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Lorraine (Villers-lès-Nancy, Meurthe-et-Moselle). Direction de la Documentation - BU Sciences et Techniques.
  • Disponible pour le PEB
  • Cote : SC N2000 69
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : SIMON o
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.