Classification automatique de textes dans des catégories non thématiques

par Romain Vinot

Thèse de doctorat en Informatique et réseaux

Sous la direction de François Yvon.

Soutenue en 2004

à Paris, ENST .


  • Résumé

    La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classificationfaiblement supervisée qui détecte des sous-classes et sélectionne lesplus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à fluxtemporel à partir du calcul du taux d'activité des sous-classes.

  • Titre traduit

    Automatic text categorization in non topical classes


  • Résumé

    Automatic text categorization was used up to now for Document Indexing. With four examples, we show some caracteristics of newapplications with their consequences for some existing textclassifiers. We highlight the fact that Rocchio, usually not veryaccurate, is very well adapted to noisy corpora and semi-automaticuses but performs poorly when classes contain many differenttopics. We propose an extension of Rocchio, Rocchio Multi-Prototypes,to deal with multi-topical classes by adapting its modelcomplexity. RMP uses a weakly supervised clustering algorithm whichdetects sub-classes and keeps the most useful ones for thecategorization. We propose also an algorithm to detect conceptshifting in temporal corpora by the use of an activity ratio for each sub-class.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (154 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 184 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.