Résumé automatique de textes scientifiques et construction de fiches de synthèse catégorsées : approche linguistique par annotations sémantiques et réalisation informatique

par Antoine Blais

Thèse de doctorat en Informatique linguistique

Sous la direction de Jean-Pierre Desclès.

Soutenue en 2008

à Paris 4 .


  • Résumé

    Dans cette thèse, nous présentons une approche pour la construction de résumés et de fiches catégorisées à partir d'annotations discursives automatiques de textes. L'annotation discursive de textes est effectuée automatiquement avec le système informatique EXCOM, développé au laboratoire LaLIC, et qui emploie uniquement des ressources linguistiques. Ce système repose sur la méthode d'exploration contextuelle qui procède à l’identification de marqueurs linguistiques à la surface des textes, sans analyses morpho-syntaxiques ou syntaxiques. Notre travail s'est particulièrement attaché au traitement des textes scientifiques, pour lesquels un certain nombre de catégories discursives sont proposées au sein d’une carte sémantique qui les relie, avec les ressources permettant de les identifier (marqueurs et règles d'annotation). L'annotation discursive d'un texte fait alors apparaître une catégorisation des informations qu'il contient. Cette catégorisation est exploitée par deux applications essentielles que nous présentons et que nous avons réalisées informatiquement. La première, la construction de résumés, consiste à appliquer une stratégie de résumé sur les textes qui extraie tous les segments appartenant aux catégories les plus pertinentes pour un type de résumé. Des évaluations portant sur la construction de résumés sont également exposées et confirment l'intérêt de l’approche que nous adoptons. La seconde application, la construction de fiches de synthèse ou fiches catégorisées, consiste à proposer aux utilisateurs un ensemble de segments extraits ordonnés et structurés d’après leurs besoins. Nous expliquons en quoi les fiches de synthèse permettent de mieux répondre à des scénarios de recherche d’informations que les résumés en raison d'une exploitation différente des catégories d'informations contenues dans les textes. Enfin, nous discutons des aspects multilingues abordés au laboratoire LaLIC sur l'annotation discursive sur le résumé automatique, en évoquant certains travaux.

  • Titre traduit

    Automatic Summarization of Scientific Texts and Construction of Categorized synthèses : Linguistic Approach by Semantic Annotations and Computational Application


  • Résumé

    In this work, we present an approach to summarisation and the construction of text synthesis according to categories, based on the automatic discourse annotation of texts. The discourse annotation is carried out automatically by the EXCOM system, which is developed in the LaLIC Laboratory and uses exclusively linguistic resources. This system implements the Contextual Exploration method which identifies surface linguistic markers in the texts without any POS-tagging or morpho-syntactic analysis. Out work is focused particularly on the processing of scientific texts, for which a number of discourse categories are proposed and organised in a semantic map with the resources that allow their identification (linguistic markers and annotation rules). The discourse annotation of a text reveals a categorisation of the information that it contains. This categorisation is employed by two major applications that we have implemented and presented here. The first one is automatic summarisation and it consists in applying a summarisation strategy to a text that extracts all the segments that belong to the categories that are most relevant for a given type of summary. An evaluation of the automatic summarisation is also presented. It confirms the interest of the approach that we have adopted. The second application is the automatic construction of text syntheses according to categories. It proposes to users structured sets of extracted segments according to their requests. We explain why the categorised text syntheses give a better solution to some scenarios in information retrieval than the summaries, because of the different use of the information categories in the texts. Finally, we discuss the multilingual aspects that are addressed in the LaLIC Laboratory for the discourse annotation and automatic summarisation by citing some works.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 2 vol. (385, 102 p.)
  • Annexes : Bibliogr. p.372-381. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université de Paris-Sorbonne Paris 4. Service commun de la documentation. Bibliothèque Serpente.
  • Consultable sur place dans l'établissement demandeur
  • Cote : BUT 6939/1-2
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.