Thèse soutenue

Vers des systèmes de désambiguïsation d'entités efficaces, généraux et robustes

FR  |  
EN
Auteur / Autrice : Lihu Chen
Direction : Fabian SuchanekGaël Varoquaux
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/06/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
Jury : Président / Présidente : Chloé Clavel
Examinateurs / Examinatrices : Chloé Clavel, Evangelos Kanoulas, Gerard Melo de, Serena Villata, Mrinmaya Sachan
Rapporteurs / Rapporteuses : Evangelos Kanoulas, Gerard Melo de

Résumé

FR  |  
EN

La désambiguïsation des entités vise à faire correspondre les mentions dans les documents à des entités standard dans une base de connaissances donnée, ce qui est important pour diverses applications telles que l'extraction d'informations, la recherche sur le web et la réponse aux questions.Bien que le domaine soit très dynamique et que de nombreux travaux nouveaux apparaissent, trois questions sont sous-explorées par les travaux antérieurs.1) Peut-on utiliser un petit modèle pour approcher les performances d'un grand modèle ?2) Comment développer un système de désambiguïsation unique adapté à plusieurs domaines ?3) Les systèmes existants sont-ils robustes aux mots hors-vocabulaire et aux différents ordres de mots ?Sur la base de ces trois questions, nous étudions comment construire un système de désambiguïsation d'entités efficace, général et robuste. Nous appliquons également avec succès la désambiguïsation d'entités à la tâche d'achèvement de la base de connaissances, en particulier pour les entités à longue traîne.