Thèse soutenue

Une approche de la categorisation de textes par l'apprentissage symbolique

FR
Auteur / Autrice : Isabelle Moulinier
Direction : Jean-Gabriel Ganascia
Type : Thèse de doctorat
Discipline(s) : Sciences et techniques communes
Date : Soutenance en 1996
Etablissement(s) : Paris 6

Mots clés

FR

Mots clés contrôlés

Résumé

FR

L'objectif principal des travaux presentes dans cette these est de determiner si la classification automatique, en particulier au moyen de l'apprentissage symbolique supervise, peut etre appliquee a la categorisation de documents, tache qui permet d'affecter des categories semantiques a des documents en fonction de leur contenu. Le memoire s'articule autour de deux axes complementaires. L'axe principal consiste a determiner si les techniques d'apprentissage apportent des solutions aux preoccupations de la recherche documentaire, en particulier le filtrage de documents. Dans cette optique, il est necessaire de prendre en compte les caracteristiques des collections textuelles, en particulier celles liees aux dimensions des donnees textuelles (plusieurs milliers d'exemples et des dizaines de milliers d'attributs), qui sortent du cadre classique des applications de l'apprentissage. Ce probleme constitue le second axe de notre travail. Pour des raisons de complexite, notre demarche est d'introduire une etape prealable de selection d'attributs avant tout apprentissage. Ceci nous conduit a proposer une methode originale de reduction, appelee scar, qui tire parti des caracteristiques des donnees textuelles. Nous comparons scar a deux methodes classiques pour la reduction de dimension. Nous evaluons ces methodes sur la collection reuters-22 173, dont la taille est consequente. Nous nous interessons ensuite aux liens entre le presuppose d'apprentissage (nature de l'apprentissage) et les donnees textuelles, dans l'optique d'une application au filtrage. Nos resultats montrent que, malgre la relative equivalence observee en moyenne en comparant les differents algorithmes proposes, on peut distinguer une reelle influence du presuppose d'apprentissage sur la performance de l'algorithme, lorsque celui est applique a certaines classes de problemes que nous avons identifie.