Méthodes Neuronales pour l'Extraction d'Événements

par Emanuela Boros

Projet de thèse en Informatique

Sous la direction de Brigitte Grau.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , ILES - Information, Langue Ecrite et Signée (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 04-02-2013 .


  • Résumé

    Du point de vue du traitement automatique des langues (TAL), l'extraction des événements dans les textes est la forme la plus complexe des processus d'extraction d'information, qui recouvrent de façon plus générale l'extraction des entités nommées et des relations qui les lient dans les textes. Le cas des événements est particulièrement ardu car un événement peut être assimilé à une relation n-aire ou à une configuration de relations. Par rapport aux relations ne faisant intervenir que deux entités, s'ajoute donc une dimension nouvelle obligeant à sortir bien souvent du cadre de la phrase, ce qui constitue une difficulté supplémentaire. En pratique, un événement est décrit par un déclencheur (le mot ou l'expression qui évoque l'événement) et un ensemble de participants à cet événement (c'est-à-dire des arguments ou des rôles) dont les valeurs sont des extraits de texte. Alors que la recherche en extraction d'information a considérablement bénéficié des jeux de données étiquetés manuellement pour apprendre des modèles permettant l'analyse des textes, la disponibilité de ces ressources reste un problème important. En outre, de nombreuses approches en extraction d'information fondées sur l'apprentissage automatique reposent sur la possibilité d'extraire à partir des textes de larges ensembles de traits définis manuellement grâce à des outils de TAL élaborés. De ce fait, l'adaptation à un nouveau domaine constitue un défi supplémentaire. Cette thèse présente plusieurs stratégies pour améliorer la performance d'un système d'extraction d'événements en utilisant des approches fondées sur les réseaux de neurones. Ceux-ci ont en effet l'avantage de ne pas nécessiter une modélisation a priori des connaissances du domaine et de générer automatiquement un ensemble de traits beaucoup plus vaste pour apprendre un modèle. Nous avons proposé plus spécifiquement différents modèles d'apprentissage profond pour deux sous-tâches liées à l'extraction d'événements : la détection d'événements et la détection d'arguments. La détection d'événements est considérée comme une sous-tâche importante de l'extraction d'événements dans la mesure où la détection d'arguments est très directement dépendante de son résultat. La détection d'événements consiste plus précisément à identifier des instances d'événements dans les textes et à les classer en types d'événements précis. Classiquement, un même événement peut apparaître sous la forme de différentes expressions et ces expressions peuvent elles-mêmes représenter des événements différents dans des contextes différents, d'où la difficulté de la tâche. La détection des arguments s'appuie sur la détection de l'expression considérée comme déclencheur de l'événement et assure la reconnaissance des participants de l'événement. Parmi les difficultés à prendre en compte, il faut noter qu'un argument peut être commun à plusieurs événements et qu'il ne s'identifie pas nécessairement à une entité nommée facilement reconnaissable. En préalable à l'introduction de nos nouveaux modèles, nous commençons par présenter en détail le modèle de l'état de l'art qui en constitue la base. Des expériences approfondies sont menées sur l'utilisation de différents types de plongements de mots et sur l'influence des différents hyperparamètres du modèle en nous appuyant sur le cadre d'évaluation ACE 2005, standard d'évaluation pour cette tâche. Nous proposons ensuite deux nouveaux modèles permettant d'améliorer un modèle de détection d'événements de 6,4% par rapport aux résultats de l'état de l'art. L'un permet d'augmenter le contexte pris en compte par l'intermédiaire d'une modélisation entière des phrases tandis que l'autre intègre l'information à un niveau sous-lexical. Nous proposons également de reconsidérer la détection des arguments comme une extraction de relations d'ordre supérieur et nous analysons la dépendance des arguments sur la détection d'événements.

  • Titre traduit

    Neural Methods for Event Extraction


  • Résumé

    With the increasing amount of data and the exploding number data sources, the extraction of information about events, whether from the perspective of acquiring knowledge or from a more directly operational perspective, becomes a more and more obvious need. This extraction nevertheless comes up against a recurring difficulty: most of the information is present in documents in a textual form, thus unstructured and difficult to be grasped by the machine. From the point of view of Natural Language Processing (NLP), the extraction of events from texts is the most complex form of Information Extraction (IE) techniques, which more generally encompasses the extraction of named entities and relationships that bind them in the texts. The event extraction task can be represented as a complex combination of relations linked to a set of empirical observations from texts. Compared to relations involving only two entities, there is therefore a new dimension that often requires going beyond the scope of the sentence, which constitutes an additional difficulty. In practice, an event is described by a trigger (the word or phrase that evokes the event) and a set of participants in that event (that is, arguments or roles) whose values are text excerpts. While IE research has benefited significantly from manually tagged datasets to learn patterns for text analysis, the availability of these resources remains a significant problem. These datasets are often obtained through the sustained efforts of research communities, potentially complemented by crowdsourcing. In addition, many machine learning-based IE approaches rely on the ability to extract large sets of manually defined features from text using sophisticated NLP tools. As a result, adaptation to a new domain is an additional challenge. This thesis presents several strategies for improving the performance of an Event Extraction (EE) system using neural-based approaches. These have the advantage of not requiring a priori modeling domain knowledge and automatically generate a much larger set of features to learn a model. More specifically, we have proposed different deep learning models for two sub-tasks related to EE: event detection and argument detection and classification. Event Detection (ED) is considered an important subtask of event extraction since the detection of arguments is very directly dependent on its outcome. ED specifically involves identifying instances of events in texts and classifying them into specific event types. Classically, the same event may appear as different expressions and these expressions may themselves represent different events in different contexts, hence the difficulty of the task. The detection of the arguments is based on the detection of the expression considered as triggering the event and ensures the recognition of the participants of the event. Among the difficulties to take into account, it should be noted that an argument can be common to several events and that it does not necessarily identify with an easily recognizable named entity. As a preliminary to the introduction of our new models, we begin by presenting in detail the model of the state-of-the-art which constitutes the base. In-depth experiments are conducted on the use of different types of word embedding and on the influence of the different hyperparameters of the model using the ACE 2005 evaluation framework, a standard evaluation for this task. We then propose two new models to improve an event detection model by 6.4% compared to state-of-the-art results. One allows to increase the context taken into account through an entire modeling of sentences while the other integrates information at a sub-lexical level. We also propose to reconsider the detection of arguments as an extraction as a high-order relation extraction and we analyze the dependence of arguments on the ED task.