Maintenance des bases de connaissances à l'aide de contraintes

par Thomas Pellissier-Tanon

Thèse de doctorat en Informatique, données, IA

Sous la direction de Fabian Suchanek et de Antoine Amarilli.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) et de DIG – Data, Intelligence and Graphs (equipe de recherche) depuis le 15-09-2017 .


  • Résumé

    Knowledge bases are huge collections of primarily encyclopedic facts. They are widely used in entity recognition, structured search, question answering, and other tasks. These knowledge bases have to be curated, and this is a crucial but costly task. In this thesis, we are concerned with curating knowledge bases automatically using constraints. Our first contribution aims at discovering constraints automatically. We improve standard rule mining approaches by using (in-)completeness meta-information. We show that this information can increase the quality of the learned rules significantly. Our second contribution is the creation of a knowledge base, YAGO 4, where we statically enforce a set of constraints by removing the facts that do not comply with them. Our last contribution is a method to correct constraint violations automatically. Our method uses the edit history of the knowledge base to see how users corrected violations in the past, in order to propose corrections for the present.

  • Titre traduit

    Knowledge Base Curation using Constraints


  • Résumé

    Les bases de connaissances sont des ensembles de faits, souvent sur des sujets encyclopédiques. Elles sont souvent utilisées pour la reconnaissance d'entités nommées, la recherche structurée, la réponse automatique à des questions, etc. Ces bases de connaissances doivent être maintenues, ce qui est une tâche cruciale mais coûteuse. Le sujet de cette thèse est la maintenance automatique de bases de connaissances à l'aide de contraintes. La première contribution de cette thèse est à propos de la découverte automatique de contraintes. Elle améliore les approches classiques d'apprentissage de règles en utilisant des méta-informations de complétude des données. Elle montre que que ces informations permettent d'améliorer de manière significative la qualité des règles trouvées. La seconde contribution est la création d'une base de connaissances, YAGO 4, qui assure le respect d'une série de contraintes en supprimant les faits qui n'y correspondent pas. La troisième contribution est une méthode pour corriger automatiquement les violations de contraintes. Cette méthode utilise l'historique des modifications de la base de connaissances afin de proposer des corrections, ceci à partir de la manière avec laquelle les utilisateurs de la base de connaissances ont déjà corrigé des violations similaires.