Une approche probabiliste pour le classement d'objets incomplètement connus dans un arbre de décision

par Lamis Hawarah

Thèse de doctorat en Informatique

Sous la direction de Michel Simonet.

Soutenue en 2008

à l'Université Joseph Fourier (Grenoble) .

    mots clés mots clés


  • Résumé

    Nous présentons dans cette thèse une approche probabiliste pour déterminer les valeurs manquantes des objets incomplets pendant leur classement dans les arbres de décision. Cette approche est dérivée de la méthode d'apprentissage supervisé appelée Arbres d'Attributs Ordonnées (AAO) proposée par Lobo et Numao en 2000, qui construit un arbre de décision pour chacun des attributs, selon un ordre croissant en fonction de l'Information Mutuelle entre chaque attribut et la classe. Notre approche étend la méthode de Lobo et Numao, d'une part en prenant en compte les dépendances entre les attributs pour la construction des arbres d'attributs, et d'autre part en fournissant un résultat de classement d'un objet incomplet sous la forme d'une distribution de probabilités (au lieu de la classe la plus probable). Nous expliquons notre méthode et nous la testons sur des bases de données réelles. Nous comparons nos résultats avec ceux donnés par la méthode C4. 5 et AAO. Nous proposons également un algorithme basé sur la méthode des k plus proches voisins qui calcule pour chaque objet de la base de test sa fréquence dans la base d'apprentissage. Nous comparons ces fréquences avec les résultats de classement données par notre approche, C4. 5 et AAO. Finalement, nous calculons la complexité de construction des arbres d'attributs ainsi que la complexité de classement d'un objet incomplet en utilisant notre approche, C4. 5 et AAO.


  • Résumé

    We describe in this thesis an approach to fill missing values in decision trees during the classification phase. This approach is derived from the it ordered attribute trees (OAT) method, proposed by Lobo and Numao in 2000, which builds a decision tree for each attribute and uses these trees to fill the missing attribute values. It is based on the Mutual Information between the attributes and the class. Our approach extends this method by taking the dependence between the attributes into account when constructing the attributes trees, and provides a probability distribution as a result when classifying an incomplete object (instead of the most probable class). We present our approach and we test it on some real databases. We also compare our results with those given by the C4. 5 method and OAT. We also propose a k-nearest neighbours algorithm which calculates for each object from the test data its frequency in the learning data. We compare these frequencies with the classification results given by our approach, C4. 5 and OAT. Finally, we calculate the complexity of constructing the attribute trees and the complexity of classifying a new instance with missing values using our classification algorithm, C4. 5 and OAT.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (182 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 106 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS08/GRE1/0164/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS08/GRE1/0164
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.