Contribution au résumé automatique multi-documents

par Aurélien Bossard

Thèse de doctorat en Informatique

Sous la direction de Thierry Poilbeau.

Soutenue en 2010

à Paris 13 .


  • Résumé

    Que ce soit pour des professionnels qui doivent prendre connaissance du contenu de documents en un temps limité ou pour un particulier désireux de se renseigner sur un sujet donné sans disposer du temps nécessaire pour lire l’intégralité des textes qui en traitent, le résumé est une aide contextuelle importante. Avec l’augmentation de la masse documentaire disponible électroniquement, résumer des textes automatiquement est devenu un axe de recherche important dans le domaine du traitement automatique de la langue. La présente thèse propose une méthode de résumé automatique multi-documents fondée sur une classification des phrases à résumer en classes sémantiques. Cette classification nous permet d’identifier les phrases qui présentent des éléments d’informations similaires, et ainsi de supprimer efficacement toute redondance du résumé généré. Cette méthode a été évaluée sur la tâche # résumé d’opinions issues de blogs # de la campagne d’évaluation TAC 2008 et la tâche # résumé incrémental de dépêches # des campagnes TAC 2008 et TAC 2009. Les résultats obtenus sont satisfaisants, classant notre méthode dans le premier quart des participants. Nous avons également proposé d’intégrer la structure des dépêches à notre système de résumé automatique afin d’améliorer la qualité des résumés qu’il génère. Pour finir, notre méthode de résumé a fait l’objet d’une intégration à un système applicatif visant à aider un possesseur de corpus à visualiser les axes essentiels et à en retirer automatiquement les informations importantes.

  • Titre traduit

    Contribution to automatic multi-document summarization


  • Résumé

    Professionals who have to peruse documents in a limited amount of time or private individuals who want to be informed about a specific topic without having the time to read all the texts about it both need summaries. The increase in electronic documents available have made there search in automatic summarization an important domain in the field of natural language processing. We propose a method based on a sentence classification in semantic clusters, using similarity calculation between sentences. This step allows us to identify the sentences which convey the same information and to remove redundancy from the automatically generated summaries. This method has been evaluated on the # opinion summarization # task of TAC2008 evaluation campaing, and on the # news summarization # task of TAC2008 and TAC2009 campaigns. Our system ranks itself among the first quarter of the participating systems. We also propose to integrate newswire articles structure to our summarization system in order to improve the quality of the summaries it generates. Our summarization method has also been integrated to a larger application which aims to help the user to visualize the main topics of a corpus and to automatically extract the essential information.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (206 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.195-206

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Sciences.
  • PEB soumis à condition
  • Cote : TH 2010 004
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.