Fouille de schemas dans les bases de connaissances

par Jonathan Lajus

Projet de thèse en Informatique

Sous la direction de Fabian Suchanek.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec Laboratoire de Traitement et Communication de l'Information (laboratoire) , IC2 : Interaction, Cognition et Complexité (equipe de recherche) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    Ces dernie`res anne ́es nous avons assiste ́ a` un accroissement significatif du nombre de bases de connaissances volumineuses telles que DBpedia, YAGO, Freebase ou le Google Knowledge Graph. Le succe`s du Linked Open Data, qui re ́pertorie des milliers de bases de connaissances, te ́moigne de l'ampleur de ce mouvement. Les bases de connaissances utilisent RDF pour de ́crire leurs ressources et donc intrinse`quement, n'ont pas de sche ́ma associe ́. Nous proposons d'utiliser l'extraction de re`gles a` partir des donne ́es pour en de ́duire automatiquement des contraintes de sche ́ma. En s'appuyant sur les re ́centes avance ́es dans le domaine, nous proposons d'e ́largir le champ de l'extraction des re`gles au re`gles nume ́riques et existentielles. Les contraintes qui en de ́coulent pourraient eˆtre utilise ́es pour repe ́rer les erreurs dans les donne ́es ou meˆme pour pre ́dire les pie`ces manquantes dans les bases de connaissances. Le de ́fi spe ́cifique au contexte de bases de connaissances est l'absence des contre-exemples. De nouvelles approches doivent donc eˆtre envisage ́es pour l'extraction des re ́gle ́s.

  • Titre traduit

    Schema mining in Knowledge Bases


  • Résumé

    Recent years have seen the rise of large knowledge bases such as DBpedia, YAGO, Freebase, and Google's knowledge graph. The advance of the Linked Open Data project, which now contains thousands of knowledge bases, is a case to the point. These knowledge bases use RDF and are thus inherently schema-less. We propose to use rule mining to deduce schema constraints automatically from the data. Building on recent advances in the field, we propose to enlarge the scope of automated rule mining to numerical and existential rules. The resulting constraints could be used to spot errors in the data or even to predict missing pieces in the knowledge. The particular challenge in the context of knowledge bases is the absence of counterexamples, which requires a new approach to mining rules.