Segmentation en analyse de donnees symboliques : le cas de donnees probabilistes

par EMMANUEL PERINEL

Thèse de doctorat en Sciences et techniques communes

Sous la direction de Edwin Diday.

Soutenue en 1996

à Paris 9 .

    mots clés mots clés


  • Pas de résumé disponible.


  • Pas de résumé disponible.


  • Résumé

    Les methodes de segmentation, ou d'arbre de decision, sont des techniques permettant d'expliquer une partition a priori d'une population d'objets decrite par des variables explicatives. Elles ont connu ces dernieres annees un net regain d'interet, aussi bien dans le domaine de la statistique que dans celui de l'apprentissage automatique en intelligence artificielle. Toutefois, ces methodes sont souvent reconnues sensibles a une information dite imparfaite telle que, des erreurs de mesures, des imprecisions ou incertitudes, des jugements experts, ce phenomene resulte principalement du manque de flexibilite des langages de representations employes pour decrire les objets etudies, d'une part, et de la rigidite meme du processus d'apprentissage (partitionnement recursif), d'autre part. Dans ce travail, nous proposons une methodologie generale de construction d'arbre de decision appliquee a des donnees de nature probabiliste. Celles-ci sont representees par des assertions probabilistes dans le contexte de l'analyse des donnees symboliques. Son langage de description, en offrant une representation plus riche et complexe des objets etudies, nous permet d'introduire plus de flexibilite dans le processus de segmentation. Le developpement de l'arbre repose sur un critere de decoupage base sur la notion generale d'information ou de vraisemblance. La nature imprecise ou incertaine des donnees conduit, de facon naturelle, a la notion d'appartenance probabiliste des objets aux differents nuds de l'arbre. La construction de l'arbre se presente alors sous la forme d'une succession de problemes de melange de lois de probabilite que l'on resout a l'aide d'un algorithme de type em (esperance / maximisation). Nous faisons egalement le lien, dans un cadre probabiliste, entre la notion d'appartenance probabiliste precedente et celle consecutive a l'emploi d'une coupure souple ou floue. L'approche est illustree sur un jeu de donnees medicales relatives a l'utilisation de marqueurs biologiques sur des types cellulaires, et dans l'objectif de caracteriser le concept de systeme neuroendocrinien.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Dauphine (Paris). Service commun de la documentation.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.