Induction non-supervisée de schémas d’évènements à partir de textes journalistiques - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Unsupervised event schemas induction from journalistic texts

Induction non-supervisée de schémas d’évènements à partir de textes journalistiques

Résumé

Events are central in many Natural Language Processing tasks, despite the lack of a unified definition for the concept. The field of event processing took off with the MUC evaluation campaigns that provided participants with reference structures called templates. These templates were composed of a title (the name of the event) and several slots, i.e specific and atomic pieces of data about the event. Creating these templates is an expert task and therefore costly, painstaking and hard to extend to new domains.Meanwhile, the amount of data produced by individuals and organizations has grown exponentially, opening unprecedented perspectives of applications. In the journalistic domain, it fueled the development of a new paradigm called data-journalism.In this work, we aim at inducing synthetic representations of events from large textual journalistic corpora. These representations would be comparable to MUC templates and used by data-journalists to explore large textual news datasets. To this end, we propose a bottom-up approach composed of three main steps. The first step clusters several textual mentions of a same particular event (i.e tied to a time and place) to identify distinct instances. The second step groups these instances together based on more abstract features to infer event types. Finally, the third and last step extracts the most salient elements of each type to produce the synthetic, template-like structure we are looking for.
L'événement est un concept central dans plusieurs tâches du Traitement Automatique des Langues, en dépit de l'absence d'une définition unifiée de ce que recouvre cette notion. Le traitement des événements s'est structuré sous l'égide des campagnes d'évaluation MUC (Message Understanding Conference), qui fournissaient des structures de référence appelées schémas (templates), se présentant sous la forme d'un titre et d'une collection d'arguments (slots), chacun représentant un élément caractéristique de l'événement décrit (par exemple l'épicentre d'un séisme). La création de ces schémas requiert une connaissance experte et est donc longue, coûteuse et difficile à étendre à un large ensemble de domaines de spécialité.En parallèle de ces travaux, la quantité de données produites par les individus et les organisations a crû de manière exponentielle, ouvrant des perspectives applicatives inédites. Cette croissance a notamment favorisé l'essor d'un nouveau paradigme journalistique appelé journalisme de données (data-journalism).Le présent travail se propose d'induire, à partir d'un grand volume de texte journalistique et sans supervision, des représentations synthétiques d'événements journalistiques comparables aux templates des campagnes MUC, dans l'objectif de faciliter l'exploitation de grandes masses de données par des journalistes des données. Pour ce faire, nous suivons une approche ascendante divisée en trois grandes étapes. Dans la première étape, nous groupons ensemble les nombreuses mentions textuelles relatant la même réalisation d'un événement, identifiée dans le temps et l'espace et appelée instance. La deuxième étape vise à s'abstraire des caractéristiques spatio-temporelles de chaque instance pour les grouper en grands types d'événements. Enfin, la dernière étape de cette contribution vise à extraire les éléments caractéristiques de chaque type d'événement induit afin d'en proposer une représentation synthétique assimilable à un schéma d'événement.
Fichier principal
Vignette du fichier
78255_RIBEIRO_2020_diffusion.pdf (2.9 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02935100 , version 1 (10-09-2020)

Identifiants

  • HAL Id : tel-02935100 , version 1

Citer

Swen Ribeiro. Induction non-supervisée de schémas d’évènements à partir de textes journalistiques. Intelligence artificielle [cs.AI]. Université Paris-Saclay, 2020. Français. ⟨NNT : 2020UPASS059⟩. ⟨tel-02935100⟩
137 Consultations
113 Téléchargements

Partager

Gmail Facebook X LinkedIn More