Exploration d'approches statistiques pour le résumé automatique de texte

par Florian Boudin

Thèse de doctorat en Informatique

Sous la direction de Juan-Manuel Torres Moreno et de Marc El-Bèze.

Soutenue en 2008

à Avignon .


  • Résumé

    Un résumé est un texte reformulé dans un espace plus réduit. Il doit exprimer avec un minimum de mots le contenu essentiel d'un document. Son but est d'aider le lecteur à repérer les informations qui peuvent l'intéresser sans pour autant devoir lire le document en entier. Mais pourquoi avons-nous tant besoin de résumés? Simplement parce que nous ne disposons pas d’assez de temps et d’énergie pour tout lire. La masse d'information textuelle sous forme électronique ne cesse d'augmenter, que ce soit sur Internet ou dans les réseaux des entreprises. Ce volume croissant de textes disponibles rend difficile l'accès à l'information désirée sans l'aide d'outils spécifiques. Produire un résumé est une tâche très complexe car elle nécessite des connaissances linguistiques ainsi que des connaissances du monde qui restent très difficiles à incorporer dans un système automatique. Dans cette thèse de doctorat, nous explorons la problématique du résumé automatique par le biais de trois méthodes statistiques permettant chacune la production de résumés répondant à une tâche différente. Nous proposons une première approche pour la production de résumé dans le domaine spécialisé de la Chimie Organique. Un prototype nommé Yachs a été développé pour démontrer la viabilité de notre approche. Ce système est composé de deux modules, le premier applique un pré-traitement linguistique particulier afin de tenir compte de la spécificité des documents de Chimie Organique tandis que le second sélectionne et assemble les phrases à partir de critères statistiques dont certains sont spécifiques au domaine. Nous proposons ensuite une approche répondant à la problématique du résumé automatique multi-documents orienté par une thématique. Nous détaillons les adaptations apportées au système de résumé générique Cortex ainsi que les résultats observés sur les données des campagnes d’évaluation DUC. Les résultats obtenus par la soumission du LIA lors des participations aux campagnes d'évaluations DUC 2006 et DUC 2007 sont discutés. Nous proposons finalement deux méthodes pour la génération de résumés mis-à-jour. La première approche dite de maximisation-minimisation a été évaluée par une participation à la tâche pilote de DUC 2007. La seconde méthode est inspirée de Maximal Marginal Relevance (MMR), elle a été évaluée par plusieurs soumissions lors de la campagne TAC 2008


  • Résumé

    A summary is a text rephrased in a smaller space. It should express the essential content of a document with a minimum of words. Its purpose is to help the reader to locate information which may be of interest without having to read the entire document. But why do we need so much summaries? Simply because we do not have enough time and energy to read everything. The mass of textual information in electronic format is increasing, whether on the Internet or in private networks. This increasing volume of available textual documents makes it difficult to access a desired information without using specific tools. Producing a summary is a very complex task because it requires linguistic knowledge as well as world knowledge which remain very difficult to build into an automated system. In this Ph. D. Thesis, we explore the issue of automatic text summarization through three statistical approaches, each designed to handle a different task. We first propose an efficient stratedy for summarizing documents in a specialized domain which is the Organic Chemistry. We present its implementation named \textsc{yachs} (Yet Another Chemistry Summarizer) that combines a specific document pre-processing with a sentence scoring method relying on the statistical properties of documents. Next, we propose an approach to tackle the issue of topic-oriented multi-document text summarization. We give details on the adjustments made to the generic text summarization system Cortex and we evaluate our method on the DUC evaluation data. Results obtained by the LIA during the DUC 2006 and DUC 2007 campaigns are discussed. Finally, two approaches for the update summarization task are introduced. We evaluate the first, named maximisation-minimisation, by participating to the pilot task of the DUC 2007 campaign. The second approach is based on the Maximal Marginal Relevance (MMR) and assessed by two submissions to the TAC 2008 summarization task

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (105 p.)
  • Annexes : Bibliogr. p. 99-105

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.08.334
  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Non disponible pour le PEB
  • Cote : T AVI.08.333
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.