Contextualization and Generalization in Entity and Relation Extraction | Theses.fr

Bruno Taillé

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Contextualisation et généralisation en extraction d'entités et de relations

FR |

EN

Auteur / Autrice :	Bruno Taillé
Direction :	Patrick Gallinari, Vincent Guigue
Type :	Thèse de doctorat
Discipline(s) :	Sciences et technologies de l'information et de la communication
Date :	Soutenance le 11/03/2022
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche :	Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury :	Président / Présidente : Xavier Tannier
	Examinateurs / Examinatrices : Maud Ehrmann
	Rapporteurs / Rapporteuses : Antoine Doucet, Patrice Bellot

Mots clés

FR |

EN

Mots clés contrôlés

Linguistique -- Informatique

Traitement automatique du langage naturel

Apprentissage profond

Exploration de données

Mots clés libres

Extraction d'information

Reconnaissance d'entités nommées

Extraction de relations

Traitement automatique des langues

Apprentissage profond

Généralisation

Résumé

FR |

EN

Depuis 2018, le transfert de modèles de langue pré-entraînés et la préservation de leurs capacités de contextualisation ont permis d'atteindre des performances sans précédent sur les benchmarks de Traitement Automatique des Langues. Cependant, alors que ces modèles atteignent des scores impressionnants, leurs capacités de compréhension apparaissent assez peu développées, révélant les limites des jeux de données de référence pour identifier leurs facteurs de performance et pour mesurer précisément leur capacité de compréhension. Dans cette thèse, nous étudions la généralisation à des faits inconnus par des modèles état de l'art en Extraction d'Entités Nommées et de Relations. En effet, les benchmarks traditionnels présentent un recoupement lexical important entre les mentions et les relations utilisées pour l'entraînement et l'évaluation des modèles. Au contraire, l'intérêt principal de l'Extraction d'Information est d'extraire des informations inconnues jusqu'alors. Nous proposons plusieurs études pour séparer les performances selon le recoupement des mentions et des relations avec le jeu d'entraînement. Nous constatons que les modèles de langage pré-entraînés sont principalement bénéfiques pour détecter les mentions non connues, en particulier dans des genres de textes nouveaux. Bien que cela les rende adaptés à des cas d'utilisation concrets, il existe toujours un écart de performance important entre les mentions connues et inconnues. En particulier, même les modèles d'Extraction d'Entités et de Relations les plus récents reposent sur une heuristique de rétention superficielle, basant plus leur prédiction sur les arguments des relations que sur leur contexte.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Contextualisation et généralisation en extraction d'entités et de relations

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Contextualisation et généralisation en extraction d'entités et de relations

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses