Building a TimeBank for French : a reference Corpus Annotated According to the ISO-TimeML Standard

par André Bittar

Thèse de doctorat en Linguistique théorique, descriptive et automatique

Sous la direction de Laurence Danlos, Pascal Amsili et de Pascal Denis.

Soutenue en 2010

à Paris 7 .


  • Résumé

    Cette thèse présente le développement de ressources pour le traitement des informations temporelles de textes en français et en particulier la construction d'un corpus de référence, le French TimeBank, annoté selon la norme ISO-TimeML Les expressions temporelles, les événements ainsi que les relations temporelles qui existent entre ces entités y sont marqués. Pour la mise en œuvre de ce projet d'annotation, nous avons aussi développé un guide d'annotation ISO-TimeML pour le français et un système d'annotation automatique à base de règles. La création de ce guide a donné lieu à des améliorations du langage ISO-TimeML. D'une part, nous proposons des extensions du schéma d'annotation afin de permettre le traitement de phénomènes linguistiques en français, tels que les temps verbaux, l'aspect grammatical et les verbes modaux. D'autre part, nous proposons un ensemble d'améliorations pouvant également s'appliquer à d'autres langues. Le système d'annotation automatique a quant à lui servi à effectuer un traitement préalable des textes avant de procéder à une correction par des annotateurs humains. Une analyse quantitative et qualitative du French TimeBank nous a permis d'évaluer la méthodologie suivie pour sa création ainsi que de donner un aperçu du matériel linguistique employé pour l'expression de la temporalité en français. Cette analyse comprend une comparaison avec le corpus TimeBank 1. 2 pour l'anglais. Nous relevons aussi un certain nombre de points pouvant aider à améliorer les outils d'annotations.

  • Titre traduit

    Building a TimeBank for French : aReference Corpus Annotated According to the ISO-TimeML Standard


  • Résumé

    This dissertation presents the development of resources for the processing of temporal information in French texts, with a particular focus on the construction of a reference corpus, the French TimeBank, annotated according to the ISO-TimeML standard. Temporal expressions and events, as well as the temporal relations between these entities are marked up. To carry out this annotation project, we also developed an ISO-TimeML annotation guide for French and an automatic rule-based annotation System. The creation of the guide lead us to propose a number of improvements to the ISO-TimeML language. Firstly, we propose extensions to the annotation schema in order to deal with certain linguistic phenomena in French, such as verb tense, grammatical aspect and modal verbs. Secondly, we propose a set o improvements also applicable to other languages. The automatic annotation System was used to perform preliminary processing of the texts before a manual correction by human annotators. A quantitative and qualitative analysis of the French TimeBank allowed us to evaluate the methodolgy adopted for its creation as well as giving insight into the linguistic material used to talk about time in French. This analysis includes a comparison with the TimeBank 1. 2 corpus for English. We also note a number of factors that could help improve annotation tools. Size so the associated complexity to their generation remains reasonable. The proposed partitioning of generation is motivated by linguistic considerations.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (320 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 115 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • PEB soumis à condition
  • Cote : TL(2010) 066

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB
  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne (Paris).
  • Non disponible pour le PEB
  • Cote : MC 12574
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.