Vers la conception de documents composites : extraction et organisation de l'information pertinente

par Sylvain Lamprier

Thèse de doctorat en Informatique

Sous la direction de Frédéric Saubion.

Soutenue en 2008

à Angers .


  • Résumé

    Au cours de ces dernières années, le domaine de la recherche d'information s'est élargi à la mise en place d'applications ne visant plus uniquement à aider l'utilisateur dans sa tâche de localisation des documents pertinents, mais cherchant à lui construire une réponse synthétique permettant de satisfaire ses besoins en information. Dans ce contexte, cette thèse se concentre sur la production d'une entité, appelée document composite, représentant un aperçu des différents types d'information que l'utilisateur pourra trouver, en rapport avec sa requête, dans le corpus interrogé. Après s'être interrogés sur le mode d'extraction et de sélection des fragments de texte à faire figurer dans ce document composite, l'étude réalisée nous a finalement conduits à la mise en place d'un algorithme multi-objectifs, de recherche du sous-ensemble de segments thématiques maximisant conjointement un critère de proximité à la requête et un critère de représentativité des thématiques abordées par les documents considérés. Outre la conception du document composite qui est l'objectif central de cette thèse, les contributions réalisées concernent le découpage des documents et son évaluation, les mesures de pertinence et de similarité des textes, l'impact que peut avoir l'individualisation des thématiques en recherche d'information, le mode d'évaluation des systèmes utilisant un clustering des résultats et enfin, la prise en considération de la requête dans les processus de clustering.


  • Résumé

    In recent years, information retrieval has expanded its area to the development of applications whose purpose is not solely to help the user to locate the relevant documents, but also try to build a synthetic answer as response to his expressed information needs. In this context, this thesis focuses on the production of an entity, called composite document, representing an overview of the different types of information that the user can find, in connection with his request, in the corpus in concern. After being concerned about the method of extraction and selection of fragments of text to be included in the composite document, the study has finally led to the setting up of a multi-objective algorithm, which aims at finding the thematic segments subset maximizing two criteria of query proximity and thematic representativeness. Beyond the composite document conception, the realized contributions concern the thematic segmentation and its evaluation, the relevance estimations and similarity computations, the impact of the thematic individualization in the field of information retrieval, the evaluation of systems presenting search results in term of a clusters set and, at last, the ways of query consideration in texts clustering process.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (viii-275 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 243-275. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Angers. Service commun de la documentation. Section Lettres - Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.