Thèse soutenue

Apprentissage automatique et recherche de l'information : application a l'extraction d'information de surface et au resume de texte
FR
Accès à la thèse
Auteur / Autrice : Massih-Reza Amini
Direction : Patrick Gallinari
Type : Thèse de doctorat
Discipline(s) : Sciences et techniques. Chimie
Date : Soutenance en 2001
Etablissement(s) : Paris 6

Résumé

FR

La these porte sur l'utilisation de methodes issues de l'apprentissage automatique pour des taches de recherche d'information dans les textes. Notre motivation a ete d'explorer le potentiel des techniques d'apprentissage pour repondre aux demandes d'acces a l'information textuelle liees au developpement de grandes bases de donnees texte et au web. Dans ce contexte il est devenu important d'etre capable de traiter de grandes quantites de donnees, d'apporter des solutions diversifiees aux nouvelles demandes des utilisateurs, et d'automatiser les outils qui permettent d'exploiter l'information textuelle. Nous avons pour cela explore deux directions. La premiere est le developpement de modeles permettant de prendre en compte l'information sequentielle presente dans les textes afin d'exploiter une information plus riche que la representation sac de mots traditionnellement utilisee par les systemes de recherche d'information. Pour cela nous proposons des modeles statistiques bases sur des modeles de markov caches et des reseaux de neurones. Nous montrons comment ces systemes permettent d'etendre les capacites des modeles probabilistes classiques de la recherche d'information et comment ils peuvent etre utilises en particulier pour des taches d'extraction d'information de surface. La deuxieme direction exploree concerne l'apprentissage semi-supervise. Il s'agit d'utiliser pour des taches d'acces a l'information une petite quantite de donnees etiquetees conjointement a une masse importante de donnees non etiquetees. Cela correspond a une situation de plus en plus frequente en recherche d'information. Nous proposons et analysons des algorithmes originaux bases sur un formalisme discriminant. Nous avons utilise ces techniques pour le resume de texte vu sous l'angle de l'extraction de phrases pertinentes d'un document. Ces travaux se sont concretises par le developpement du systeme d'aide au resume automatique (s. A. R. A. ).