Modeles dynamiques d'apprentissage numerique pour l'acces a l'information textuelle

par HUGO ZARAGOZA

Thèse de doctorat en Sciences et techniques

Sous la direction de Patrick Gallinari.

Soutenue en 1999

à Paris 6 .

    mots clés mots clés


  • Pas de résumé disponible.


  • Pas de résumé disponible.


  • Résumé

    Le nombre d'informations textuelles accessibles sous forme electronique augmente tres rapidement, ce qui entraine une nouvelle besoin d'outils capables d'exploiter ces informations. Dans ce travail nous explorons une voie alternative du traitement de l'information textuelle, par l'application de modeles dynamiques d'apprentissage numerique. Ces modeles nos permettent d'aborder sous une meme formalisme nombreuses taches d'analyse textuel. Nous introduisons d'abord les differentes disciplines de traitement d'information textuelle existantes, et en particuliere la recherche de l'information et l'extraction de l'information. Nous developpons ensuite les differentes techniques de representation de textes existantes, et nous proposons une nouvelle technique plus adapte a un approche dynamique. Nous introduisons ensuite la theorie de l'apprentissage statistique, les modeles temporels d'apprentissage et, en particulier les modeles de markov caches et les modeles a base de reseaux de neurones. Nous abordons ensuite l'application de ces modeles a differentes taches de l'acces a l'information textuelle : categorisation, filtrage et routage de documents, surlignage, et extraction d'informations de surface. Un modele hierarchique est aussi developpe, ou le modele vectoriel classique de ri est utilise a des niveaux structurel successifs des documents de facon a localiser l'information pertinente prealablement a son traitement pour l'extraction d'information. L'evaluation de nos modeles est faite sur deux taches distinctes : le routage et surlignage de courrier electronique, a partir du corpus 20-newgroups, et l'extraction d'informations de surface, a partir du corpus muc-6.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 168 p.
  • Annexes : 177 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Non disponible pour le PEB
  • Cote : T Paris 6 1999 534
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : PMC RT P6 1999
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.