Incorporating expert knowledge in deep neural networks for domain adaptation in natural language processing | Theses.fr

Guilhem Xavier Piat

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Intégration de connaissances expertes dans des modèles neuronaux profonds pour l'adaptation au domaine dans le traitement automatique de la langue

FR |

EN

Auteur / Autrice :	Guilhem Xavier Piat
Direction :	Alexandre Allauzen, Nasredine Semmar, Julien Tourille
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 11/12/2023
Etablissement(s) :	université Paris-Saclay
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'intégration des systèmes et des technologies (Gif-sur-Yvette, Essonne ; 2001-....) - Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris)
	référent : Faculté des sciences d'Orsay
	graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury :	Président / Présidente : Aurélie Névéol
	Examinateurs / Examinatrices : Reinhard Rapp, Xavier Tannier, Elise Bonzon
	Rapporteurs / Rapporteuses : Reinhard Rapp, Xavier Tannier

Mots clés

FR |

EN

Mots clés contrôlés

Langage médical

Plongements (mathématiques)

Réseaux neuronaux (informatique)

Ontologies (informatique)

Traitement automatique du langage naturel

Mots clés libres

Traitement automatique de la langue

Connaissances expertes

Adaptation au domaine

Réseaux de neurones

Apprentissage profond

Transformers

Résumé

FR |

EN

Les Modèles de Langage (LMs) de pointe sont capables de converser, résumer, traduire, résoudre des problèmes inédits, raisonner, et manipuler des concepts abstraits à niveau quasi-humain. Cependant, pour acquérir ces capacités, et en particulier pour acquérir une forme de ``bon sens'' ou des connaissances spécifiques à un domaine, ils requièrent de vastes quantités de texte, qui ne sont pas disponibles pour toutes les langues ou tous les domaines. De surcroît, leurs besoins en puissance de calcul ne sont atteignables que par quelques organisations, limitant leur spécificité ainsi que leur applicabilité aux données sensibles.Les Graphes de Connaissances (GCs) sont des sources de connaissances structurées qui associent des concepts linguistiques entre eux par le biais de relations sémantiques. Ces graphes sont des sources de connaissances de haute qualité, préexistantes dans une variété de domaines même peu dotés en ressources, et plus denses en informations que du texte. En permettant aux LMs d'exploiter ces structures d'information, ils sont délestés de la responsabilité de mémoriser les informations factuelles, réduisant la quantité de ressources textuelles et calculatoires nécessaires à leur entraînement, et nous permettant de mettre à jour leur connaissances à moindre coût, élargissant leur cadre d'application et augmentant leur potentiel de démocratisation.Diverses approches pour l'amélioration de LMs par intégration de GCs ont démontré leur efficacité. Elles reposent cependant sur la supposition rarement vérifiée que le problème de Désambiguïsation d'Entités Nommées (DEN) est résolu en amont. Ce mémoire couvre les limitations de cette approche, puis explore l'apprentissage simultané de modélisation de langue et de DEN. Cette démarche s'avère viable mais échoue à réduire considérablement la dépendance du LM sur le texte issu du domaine. Enfin, ce mémoire aborde la stratégie de générer du texte à partir de GCs de manière à exploiter les capacités linguistiques des LMs. Il en ressort que même une implémentation naïve de cette approche peut se solder par de considérables progrès en modélisation de langue dans des domaines de spécialité.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Intégration de connaissances expertes dans des modèles neuronaux profonds pour l'adaptation au domaine dans le traitement automatique de la langue

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Intégration de connaissances expertes dans des modèles neuronaux profonds pour l'adaptation au domaine dans le traitement automatique de la langue

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses