Apprentissage automatique et recherche de l'information : application a l'extraction d'information de surface et au resume de texte

par MASSIH-REZA AMINI

Thèse de doctorat en Sciences et techniques. Chimie

Sous la direction de Patrick Gallinari.

Soutenue en 2001

à PARIS 6 .

    mots clés mots clés


  • Pas de résumé disponible.


  • Pas de résumé disponible.


  • Résumé

    La these porte sur l'utilisation de methodes issues de l'apprentissage automatique pour des taches de recherche d'information dans les textes. Notre motivation a ete d'explorer le potentiel des techniques d'apprentissage pour repondre aux demandes d'acces a l'information textuelle liees au developpement de grandes bases de donnees texte et au web. Dans ce contexte il est devenu important d'etre capable de traiter de grandes quantites de donnees, d'apporter des solutions diversifiees aux nouvelles demandes des utilisateurs, et d'automatiser les outils qui permettent d'exploiter l'information textuelle. Nous avons pour cela explore deux directions. La premiere est le developpement de modeles permettant de prendre en compte l'information sequentielle presente dans les textes afin d'exploiter une information plus riche que la representation sac de mots traditionnellement utilisee par les systemes de recherche d'information. Pour cela nous proposons des modeles statistiques bases sur des modeles de markov caches et des reseaux de neurones. Nous montrons comment ces systemes permettent d'etendre les capacites des modeles probabilistes classiques de la recherche d'information et comment ils peuvent etre utilises en particulier pour des taches d'extraction d'information de surface. La deuxieme direction exploree concerne l'apprentissage semi-supervise. Il s'agit d'utiliser pour des taches d'acces a l'information une petite quantite de donnees etiquetees conjointement a une masse importante de donnees non etiquetees. Cela correspond a une situation de plus en plus frequente en recherche d'information. Nous proposons et analysons des algorithmes originaux bases sur un formalisme discriminant. Nous avons utilise ces techniques pour le resume de texte vu sous l'angle de l'extraction de phrases pertinentes d'un document. Ces travaux se sont concretises par le developpement du systeme d'aide au resume automatique (s. A. R. A. ).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 211 p.
  • Annexes : 270 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Disponible pour le PEB
  • Cote : T Paris 6 2001 5
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : PMC RT P6 2001
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.