Thèse en cours

Extraction de relations sémantique dans un contexte de veille et d'intelligence d'entreprise

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu le 19/05/2022. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Massinissa Atmani
Direction : Mathieu Lafourcade
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 19/05/2022
Etablissement(s) : Université de Montpellier (2022-….)
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Equipe de recherche : Département Informatique
Jury : Président / Présidente : Marianne Huchard
Examinateurs / Examinatrices : Mathieu Lafourcade, Didier Schwab, Patrice Bellot, Nathalie Aussenac, Anne Laurent
Rapporteurs / Rapporteuses : Didier Schwab, Patrice Bellot

Résumé

FR  |  
EN

Dans cette thèse, nous abordons la question de l'extraction de relations sémantiques depuis des textes avec une attention particulière portée aux bases de connaissances afin de réduire la quantité de données nécessaires pour l'entraînement d'un modèle neuronal basé sur l'apprentissage profond. Ainsi, nous essayons de concevoir un modèle d'extraction de relations en prenant en compte les aspects suivants : 1) sobriété - a permis efficacement le modèle avec peu de données d'apprentissage en volume, 2) adaptabilité - pouvoir adapter le modèle à différents domaines, alors que la plupart des approches à base d'apprentissage automatique ne sont que difficilement adaptables, et 3) explicabilité - pouvoir fournir automatiquement des éléments d'explication des résultats produits par le modèle. De ce fait, nous indiquons de normaliser des triplets ayant une représentation prédicat-arguments à l'aide de ressources externes (bases de connaissances) de façon à obtenir des performances comparables aux approches basées sur l'apprentissage automatique sans reposer sur un quelconque corpus textuel d'apprentissage. Les inférences de notre approche sont interprétables car le prédicat du triplet est censé capturer le déclencheur (un segment textuel) de la relation présente dans le texte. Pour cela, nous avons perdu un modèle d'OpenIE (extraction ouverte d'informations) pour extraire les triplets (prédicat-arguments), UD2OIE, qui n'exploite que l'analyse syntaxique afin de respecter la contrainte d'adaptation au domaine autant que possible. Nous montrons également que notre système dépasse l'état de l'art actuel sur différents domaines de spécialités et que les approches actuelles fondées sur les modèles de langage (BERT) ne respectent que peu la contrainte d'adaptation au domaine. Nous abordons également le problème de l'hypothèse distributionnelle, sur laquelle le modèle de langage repose, qui n'est pas suffisant pour capturer les propriétés relationnelles et sémantiques entre les termes. En effet, les approches actuelles différenciant la similarité sémantique des autres relations, nous dévoilons le modèle Jeux2BERT tirant profit de bases de connaissances afin que les représentations vectorielles des mots puissent modéliser à la fois leurs propriétés distributionnelles et relationnelles. Nous illustrons aussi l'apport de notre méthodologie relativement à l'état de l'art. Finalement, nous présentons un modèle hybride d'extraction de relations Jeux2BERT+OIE qui exploite le modèle Jeux2BERT pour normaliser les triplets obtenus par le modèle UD2OIE. Nous appliquons notre modèle d'extraction de relations sémantiques au domaine de veille technologique et d'intelligence d'entreprise.