Méthodes de description de classes " minimisant " le débordement combinant classification et discrimination en analyse de données symboliques

par Mohamed Mehdi Limam

Thèse de doctorat en Informatique

Sous la direction de Edwin Diday.

Soutenue en 2005

à l'Université Paris-Dauphine .

    mots clés mots clés


  • Résumé

    Dans ce travail, nous nous intéressons au problème d'une classe d'individus issue d'une population. Pour cela, notre intérêt se porte sur deux familles de méthodes apportant un grand potentiel descriptif qui sont les méthodes descendantes de classification et les méthodes descendantes de discrimination ou de segmentation. En effet, les méthodes de classification ont été conçues pour diviser une population d'individus afin d'obtenir une partition en plusieurs classes homogènes par rapport aux variables décrivant ces individus. Les méthodes de segmentation consistent à diviser une population afin d'obtenir une partition en plusieurs classes homogènes par rapport à une variable à expliquer. La recherche d'une description d'une classe d'individus en utilisant l'une de ces deux familles est alors basée sur la recherche de groupes ayant l'une des qualités suivantes: les groupes sont homogènes soit par rapport à une variable à expliquer soit par rapport aux variables descriptives. Nous proposons alors dans ce travail une méthode permettant de trouver une description à partir d'une recherche de classes ayant ces deux qualités simultanément. De plus, la description recherchée doit inclure le moins possible d'individus n'appartenant pas à la classe à décrire. Notre approche est basée sur une méthode descendante, qui divise successivement la population en deux classes. On utilise une approche monothétique donnant une interprétation claire des classes trouvées. La division repose sur une combinaison de trois sous-critères: un critère d'inertie, un critère d'impureté et un critère de débordement. La description recherchée doit pouvoir exprimer la variation interne à la classe d'individus. Pour cela, nous plongeons la problématique ci-dessus dans le cadre de l'analyse de données symboliques qui permet une meilleure modélisation des variations et des imprécisions des données réelles. Une seconde contribution porte sur le résumé d'une information détaillée stockée dans une base de données et structurée en groupes disjoints d'individus, à une information résumée de chacun de ces groupes sous forme de données symboliques. Lorsque les données à résumer sont hétérogènes, les données symboliques obtenues incluent des observations potentielles. Nous proposons alors une méthode d'extraction de descriptions symboliques par partitionnement de chacun des groupes à résumer en groupes homogènes. Cette méthode est basée sur l'approche présentée ci-dessus. Chaque groupe est résumé par plusieurs descriptions symboliques qui ont la particularité d'exprimer les caractéristiques qui soit distinguent soit rapproche ce groupe des autres. Analyse de données, analyse de données symboliques, classification automatique, discrimination, segmentation, arbre de décision, dissimilarité, base de données relationnelles.

  • Titre traduit

    Methods to describe classes combining clustering and discrimination in symbolic data analysis


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (185p.)
  • Notes : Publication autorisée par le jury
  • Annexes : bibliogr.p.177-185.Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Dauphine (Paris). Service commun de la documentation.
  • Consultable sur place dans l'établissement demandeur
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.