Thèse de doctorat en Informatique et sciences humaines
Sous la direction de Jean-Pierre Desclès.
Soutenue en 2005
à Paris 4 .
Nous avons travaillé sur la production automatique de résumé pour le domaine juridique. Nous avons développé le système LetSum, un outil informatique en vue d'extraire l'information pertinente sous une forme condensée. Nous avons collaboré avec les avocats du centre de recherche en droit public. Notre méthode est basée sur l'analyse manuelle des jugements et de leurs résumés rédigés par les résumeurs professionnels. Dans cette méthode, nous identifions le plan d'organisation d'un jugement et ses différents thèmes discursifs qui regroupent les phrases autour d'un même sujet. La création du résumé par LetSum se fait en quatre étapes: 1) Segmentation thématique détermine l'organisation du document et encadre les segments du texte associés avec un thème précis dans la jurisprudence. Nous avons divisé un jugement en cinq thèmes: Introduction (qui? a fait quoi? à qui?), Contexte (recompose l'histoire du litige et l'histoire judiciaire), Questions de droit (identifient le problème juridique dont le tribunal est saisi), Raisonnement juridique (contient l'analyse du juge et Conclusion (décision finale de la cour). 2) Filtrage qui identifie les segments qui peuvent être supprimés dans les documents, sans perdre les informations pertinentes pour le résumé, comme les citations. 3) Sélection des unités textuelles candidates pour le résumé qui construit une liste d'unités saillantes candidates pour chaque thème. 4) Production du résumé qui choisit les unités pour le résumé final et les combine. L'évaluation de 120 résumés automatiques par 12 avocats montre la qualité des résumés produits par LetSum qui est jugé excellente.
Automatic summarization of legal texts
We have developed a summarization system, called LetSum, for producing short summaries for legal decisions. We have collaborated with the lawyers of the Public Law Research Center of Université de Montréal. Our method is based on the manual analysis of the judgments by comparing manually written summaries and source documents, which investigates the extraction of the most important units based on the identification of thematic structure of the document. The production of the summary is done in four steps:1. Thematic segmentation detects the thematic structure of a judgment. We distinguish seven themes: Decision data (gives the complete reference of the decision and the relation between the parties for planning the decision. ), Introduction (who? did what? to whom?), Context (recomposes the story from the facts and events), Submission (presents the point of view the parties), Issues (identifies the questions of law), Juridical Analysis (describes the analysis of the judge), Conclusion (the final decision of the court). 2. Filtering identifies parts of the text which can be eliminated, without losing relevant information for the summary, like the citations. 3. Selection builds a list of the best candidate units for each structural level of the summary. 4. Production chooses the units for the final summary and combines them in order to produce a summary of about 10% of the judgement. The evaluations of 120 summaries by 12 lawyers show the quality of summaries produced by LetSum, which are judgedexcellent.