Thèse soutenue

Etude de la qualité de données à partir de l'apprentissage automatique : application aux arbres d'induction

FR
Auteur / Autrice : Dominique Fournier
Direction : Khaldoun Zreik
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2001
Etablissement(s) : Caen

Résumé

FR

Thèse entrant dans le domaine d'activité de la découverte de connaissances à partir des données. En classification, la plupart des stratégies d'évaluation se focalisent sur la précision du modèle prédictif construit. L'objectif est de mettre en relief l'apport des explications fournies par les classifieurs à l'aide de leurs capacités prédictives afin d'étudier la qualité de données. Une approche générale est proposée, appropriée à toute méthode procédant par restructuration de l'ensemble d'apprentissage en une hiérarchie de partitions. A partir de cette dernière, nous proposons à l'utilisateur une quantification de la qualité du modèle, élaborée en fonction de l'explication fournie. Nous mettons en oeuvre une approche avec les arbres de décision. Nous avons ainsi mis au point IQN, IQA et IQR, des indices de qualité qui résument la valeur spécifique et globale des arbres. Ces indices estiment la généralité, la complexité et la précision du résultat. IQN évalue la qualité des noeuds alors que IQA et IQR synthétisent la qualité des arbres et sous-arbres à partir de celles de leurs feuilles. Ainsi, nous sommes en mesure de déterminer les éléments qui influencent le plus la qualité des arbres. Nous montrons l'intérêt de ces techniques d'évaluation de la qualité appliquées à l'explication et àla restructuration des données en les illustrant sur deux problèmes médicaux pour lesquels les performances en classification sont opposées. Dans un cas, l'explication des données est satisfaisante alors que dans l'autre elle demeure incertaine.