Content and data linking leveraging ontological knowledge in data journalism

par Cheikh Brahim El Vaigh

Thèse de doctorat en Informatique

Soutenue le 07-01-2021

à Rennes 1 , dans le cadre de MATHSTIC , en partenariat avec Institut national de recherche en informatique et en automatique (France). Unité de recherche (Rennes, Bretagne-Atlantique) (laboratoire) et de SHAMAN (laboratoire) .

Le président du jury était Sophie Rosset.

Le jury était composé de Peggy Cellier, Amedeo Napoli.

Les rapporteurs étaient Nathalie Pernelle, Xavier Tannier.

  • Titre traduit

    Utilisation de connaissances ontologiques dans la liaison de contenus et de données appliquée au journalisme de données


  • Résumé

    Cette thèse s’intéresse à la création de liens entre contenus textuels et bases de connaissances ontologiques (BC). Elle fait appel à plusieurs domaines de recherche : le traitement automatique des langues, la recherche d’information et le web sémantique, notamment l’utilisation de BC fondées sur le modèle RDF. Nous proposons d’une part d’étudier le liage d’entités collectif qui cherche à relier simultanément les mentions d’entités présentes dans un texte aux entités d’une BC. Notre contribution porte sur la définition de mesures sémantiques bien fondées qui exploitent les propriétés des BC pour améliorer l’état de l’art, et permettent d’introduire du raisonnement. D’autre part, nous nous intéressons à l’alignement de différentes BC, moyennant des approches de plongement des bases dans des espaces de grandes dimensions. Cet alignement permet l’enrichissement des BC, et indirectement l’amélioration du liage d’entités collectif. Pour ce faire, nous proposons un nouveau critère qui se fonde sur l’alignement des dimensions des espaces de plongement des BC, et permet de résister à un alignement a priori bruité entre les BC, voire de supprimer ce besoin d’alignement manuel.


  • Résumé

    This thesis is about the creation of links between textual content and ontological knowledge bases (KBs). It pertains several areas of research: natural language processing, information retrieval and semantic web, and in particular RDF-based KBs. We propose to study collective entity linking, which consists in linking at once mentions of entities present in a textual document to entities in a KB. To that end, we leverage semantic measures, i.e., entity relatedness measures which exploit the relationships between the entities in a KB. We contribute by the definition of well-founded entity relatedness measures that benefit to the extent possible from the properties of RDF KBs through (basic) reasoning, and thus allow to improve the state-of-the-art. Furthermore, we are also interested in the alignment of different KBs, based on KBs embedding techniques. This alignment not only allows to enrich the KBs at hand, but also to indirectly improve the collective entity linking. We contribute by an alignment criterion, based on the alignment of the dimensions of the KBs embedding spaces, which, notably does not need any prior knowledge to perform said KBs alignment.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Bibliothèque de ressources en ligne.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.