Une approche de la categorisation de textes par l'apprentissage symbolique

par Isabelle Moulinier

Thèse de doctorat en Sciences et techniques communes

Sous la direction de Jean-Gabriel Ganascia.

Soutenue en 1996

à Paris 6 .


  • Résumé

    L'objectif principal des travaux presentes dans cette these est de determiner si la classification automatique, en particulier au moyen de l'apprentissage symbolique supervise, peut etre appliquee a la categorisation de documents, tache qui permet d'affecter des categories semantiques a des documents en fonction de leur contenu. Le memoire s'articule autour de deux axes complementaires. L'axe principal consiste a determiner si les techniques d'apprentissage apportent des solutions aux preoccupations de la recherche documentaire, en particulier le filtrage de documents. Dans cette optique, il est necessaire de prendre en compte les caracteristiques des collections textuelles, en particulier celles liees aux dimensions des donnees textuelles (plusieurs milliers d'exemples et des dizaines de milliers d'attributs), qui sortent du cadre classique des applications de l'apprentissage. Ce probleme constitue le second axe de notre travail. Pour des raisons de complexite, notre demarche est d'introduire une etape prealable de selection d'attributs avant tout apprentissage. Ceci nous conduit a proposer une methode originale de reduction, appelee scar, qui tire parti des caracteristiques des donnees textuelles. Nous comparons scar a deux methodes classiques pour la reduction de dimension. Nous evaluons ces methodes sur la collection reuters-22 173, dont la taille est consequente. Nous nous interessons ensuite aux liens entre le presuppose d'apprentissage (nature de l'apprentissage) et les donnees textuelles, dans l'optique d'une application au filtrage. Nos resultats montrent que, malgre la relative equivalence observee en moyenne en comparant les differents algorithmes proposes, on peut distinguer une reelle influence du presuppose d'apprentissage sur la performance de l'algorithme, lorsque celui est applique a certaines classes de problemes que nous avons identifie.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 196 P.
  • Annexes : 204 REF.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Ecole Polytechnique de l’Université de Tours. Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-554
  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque Mathématiques-Informatique Recherche.
  • Non disponible pour le PEB
  • Cote : T Paris 6 1996 638
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : PMC RT P6 1996

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Accessible pour le PEB
  • Cote : MF-1996-MOU
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.