ARTEXT4LOD - n-ARy relaTions EXTraction for Linked Open Data

par Martin Lentschat

Projet de thèse en Informatique

Sous la direction de Patrice Buche et de Mathieu Roche.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec IATE - Ingénierie des Agropolymères et Technologies Emergentes (laboratoire) depuis le 01-07-2018 .


  • Résumé

    Le but de cette thèse est d'enrichir une base de connaissances de relations N-aires extraites de documents scientifiques textuels. L'objectif du projet de doctorat ARTEXT4LOD est de faciliter l'extraction de données expérimentales à partir de documents scientifiques disponibles en ligne, les données expérimentales étant représentées comme des relations N-aire où un objet étudié est modélisé comme un argument symbolique et ses caractéristiques comme arguments quantitatifs associés à leurs attributs, à savoir la valeur numérique et l'unité de mesure. Le thésard devra explorer deux directions de recherche principales: - Exploiter les métadonnées extraites des documents scientifiques textuels pour guider l'identification et l'extraction des relations N-aire, telles que les légendes des figures, les légendes des tableaux ou les informations structurelles (par exemple résumé, sommaire). Cette première tâche est très difficile car les caractéristiques textuelles ne sont pas nécessairement normalisées (par exemple les unités de mesure). Il s'agira d'étendre et d'améliorer les premiers résultats du travail de thèse de Soumia Lilia Berrahou (Berrahou et al., 2017). - Prendre en compte les connaissances expertes, cela pouvant être appris tout au long de l'identification et de l'extraction des relations. Cela permet la localisation itérative et incrémentielle, l'identification, l'extraction et l'annotation des relations N-aires en utilisant des connaissances spécialisées. Cela pourrait être fait en utilisant des méthodes originales basées sur des approches d'apprentissage actif (Silva et Silva 2007, Martinez Alonso et al 2015) et des commentaires pertinents (Harashima et Kurohash, 2011, Valcarce et al., 2018) utilisés pour les tâches de recherche d'information.

  • Titre traduit

    ARTEXT4LOD - n-ARy relaTions EXTraction for Linked Open Data


  • Résumé

    The goal of this PhD Thesis is to enrich a knowledge base with n-ary relations extracted from textual scientific documents. The aim of the ARTEXT4LOD PhD project is to ease the extraction of experimental data from scientific documents available on-line, experimental data being represented as n-ary relations where a studied object is modeled as a symbolic argument and its features as quantitative arguments associated with their attributes, i.e. the numerical value and measurement unit. The PhD fellow will have to explore two main research directions: - To exploit meta-data extracted from textual scientific documents to guide the n-ary relations identification and extraction such as figures' captions, tables' captions or structural information (e.g. abstract, summary). This first task is very difficult as the textual features are non-necessarily normalized (e.g. the units of measurement). It will consist in extending and improving the first results of the PhD work of Soumia Lilia Berrahou (Berrahou et al. 2017). - To take into account expert knowledge, that could be learnt all along the n-ary relations identification and extraction. This allows the iterative and incremental localization, identification, extraction and annotation of n-ary relations using expert knowledge. This could be done using original methods based on active learning approaches (Silva et Silva 2007 ; Martinez Alonso et al. 2015) and Relevant Feedback (Harashima et Kurohash, 2011 ; Valcarce et al. 2018) used for Information Retrieval tasks.