Fast, exact, and exhaustive rule mining in large knowledge bases
Auteur / Autrice : | Jonathan Lajus |
Direction : | Fabian Suchanek |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, données, IA |
Date : | Soutenance le 16/02/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) |
Jury : | Président / Présidente : Thomas Bonald |
Examinateurs / Examinatrices : Fabian Suchanek, Heiko Paulheim, Paolo Papotti, Fatiha Saïs, Hannah Bast, Luis Galárraga Del Prado | |
Rapporteurs / Rapporteuses : Heiko Paulheim, Paolo Papotti |
Mots clés
Résumé
Au fil des ans, le Web Sémantique s'est agrandi pour regrouper une constellation d'énorme Bases de Connaissances interconnectées. Ces bases répertorient nos connaissances du monde sous la forme de faits structurés et sont utilisées pour la réponse automatique de questions ainsi que pour le raisonnement automatique. Mais pour tirer pleinement avantages de ce vivier d'informations, il est essentiel de comprendre le schéma et les interdépendances intrinsèques à ces données. En particulier, les dépendances fonctionnelles entre les différentes relations peuvent être représentées sous la forme de règles simples. Il est donc crucial de pouvoir extraire ces règles efficacement à partir de nos données.Dans cette thèse, on introduit de nouvelles approches et optimisations pour accélérer l'extraction de règles dans de larges Bases de Connaissances. On présente deux nouveaux algorithmes implémentant ces optimisations: AMIE 3 (le successeur de l'algorithme exact AMIE+) et Pathfinder, un nouvel algorithme spécialisé dans l'extraction de règles chaînées. Ces deux algorithmes sont exhaustifs, ils calculent la qualité des règles de manière exacte et passent à l'échelle de manière efficace sur un plus grand volume de données et sur des règles plus complexes.