Thèse soutenue

Instanciation de relations n-aires dans des articles scientifiques guidée par une ressource termino-ontologique de domaine
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Martin Lentschat
Direction : Patrice BucheMathieu RocheJuliette Dibie-Barthélemy
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/12/2021
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École Doctorale Information, Structures, Systèmes
Partenaire(s) de recherche : Laboratoire : Ingénierie des Agro-Polymères et Technologies Emergentes (Montpellier) - Territoires, Environnement, Télédétection et Information Spatiale (Montpellier)
Jury : Président / Présidente : Nathalie Aussenac-Gilles
Examinateurs / Examinatrices : Patrice Buche, Mathieu Roche, Juliette Dibie-Barthélemy, Nathalie Pernelle, Patrice Bellot, Konstantin Todorov
Rapporteurs / Rapporteuses : Nathalie Pernelle, Patrice Bellot

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse vise à proposer de nouvelles méthodes de représentation et d’extraction de données expérimentales à partir d’articles scientifiques.Ces méthodes ont été évaluées sur un corpus d’articles dans le domaine des emballages alimentaires.L’objectif de cette thèse est de peupler une base de connaissances d’instances de relations N-Aires extraites de documents scientifiques textuels.Les données expérimentales peuvent être représentées sous forme de relations n-Aires composées d’arguments symboliques et quantitatifs.L’approche proposée s’appuie sur une Ressource Termino-Ontologique (RTO) et se décompose en deux Phases : (1) la reconnaissance et l’extraction des instances d’arguments et (2) la mise en relation de celles-ci dans des relations n-Aires.La Phase (1) propose une représentation originale des instances d’arguments extraites, appelée SciPuRe (Scientifique Publication Representation).Celle-ci intègre des descripteurs ontologiques, lexicaux et structurels qui décrivent le contexte d’apparition des instances d’arguments et permettent de les trier selon leurs pertinences.Nos résultats montrent l’importance du tri des instances pertinentes à l’issue de la reconnaissance des arguments, les deux critères les plus importants pour déterminer la pertinence d’une instance d’argument symbolique sont la spécificité du concept associé à l’argument dans la RTO et sa fréquence dans le document.Pour les arguments quantitatifs, c’est l’appartenance de l’instance d’argument à des sections des documents qui permet de déterminer sa pertinence.La Phase (2) s’appuie sur les informations présentes dans les tableaux des documents pour guider l’extraction des relations n-Aires à partir de relations partielles.Ces relations partielles sont ensuite complétées par les instances d’arguments reconnues lors de la Phase (1).Trois approches sont proposées et évaluées afin d’identifier les instances d’arguments qui doivent compléter les relations :l’utilisation de la structure des documents, l’analyse des cooccurrences entre les instances d’arguments dans les textes, et enfin l’utilisation de modèles de word-embedding permettant de mesurer les similarités entre les instances d’arguments candidates et les arguments déjà renseignés dans les relations partielles.Nos expérimentations sur la Phase (2) confirment l’utilité des scores de pertinence calculés lors de la Phase (1) pour discriminer les instances d'arguments.L’analyse des résultats avec différents filtrages des instances d’arguments candidates selon leurs pertinences montre un net effet positif lors du filtrage de 20% des instances avec les pertinences les plus faibles.Nous avons également expérimenté la possibilité de sélectionner plusieurs candidats pour chaque instance d’argument manquante dans une relation partielle, dans une approche d’assistance aux experts du domaine qui peuvent ensuite déterminer l’instance valide.Lors de la sélection d’un seul candidat, l’approche fondée sur les analyses des cooccurrences donne les meilleurs résultats pour détecter l’instance d’argument candidate valide.Avec une sélection plus importante, de trois ou cinq candidats, l’analyse des similarités sémantiques permise par des modèles BERT de plongement lexicaux fournit de bons résultats pour la détection d’associations entre les instances d’arguments présentes dans les relations partielles et les instances d’argument candidates à la complétion des relations.Enfin, lors de la sélection de dix candidats, les expérimentations montrent que l’approche fondée sur la structure des documents est efficace pour compléter les relations n-Aires.