Thèse soutenue

Question-réponse utilisant des données et modèles hybrides

FR  |  
EN
Auteur / Autrice : Sanjay Kamath Ramachandra Rao
Direction : Anne Vilnat
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/02/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020)
Jury : Président / Présidente : Nicolas Sabouret
Examinateurs / Examinatrices : Patrice Bellot, Mohand Boughanem, Catherine Berrut, Patrick Gallinari, Yue Ma
Rapporteurs / Rapporteuses : Patrice Bellot, Mohand Boughanem

Résumé

FR  |  
EN

La recherche de réponses à des questions relève de deux disciplines : le traitement du langage naturel et la recherche d’information. L’émergence de l’apprentissage profond dans plusieurs domaines de recherche tels que la vision par ordinateur, le traitement du langage naturel etc. a conduit à l’émergence de modèles de bout en bout. Les travaux actuels de l’état de l’art en question-réponse (QR) visent à mettre en oeuvre de tels modèles. Dans le cadre du projet GoASQ, l’objectif est d’étudier, comparer et combiner différentes approches pour répondre à des questions formulées en langage naturel sur des données textuelles, en domaine ouvert et en domaine biomédical. Ce travail se concentre principalement sur 1) la construction de modèles permettant de traiter des ensembles de données à petite et à grande échelle, et 2) l’exploitation de connaissances sémantiques pour répondre aux questions par leur intégration dans les différents modèles. Nous visons à fusionner des connaissances issues de textes libres, d’ontologies, de représentations d’entités, etc. Afin de faciliter l’utilisation des modèles neuronaux sur des données de domaine de spécialité, nous nous plaçons dans le cadre de l’adaptation de domaine. Nous avons proposé deux modèles de tâches de QR différents, évalués sur la tâche BIOASQ de réponse à des questions biomédicales. Nous montrons par nos résultats expérimentaux que le modèle de QR ouvert convient mieux qu’une modélisation de type Compréhension machine. Nous pré-entrainons le modèle de Compréhension machine, qui sert de base à notre modèle, sur différents ensembles de données pour montrer la variabilité des performances. Nous constatons que l’utilisation d’un ensemble de données particulier pour le pré-entraînement donne les meilleurs résultats lors du test et qu’une combinaison de quatre jeux de données donne les meilleurs résultats lors de l’adaptation au domaine biomédical. Nous avons testé des modèles de langage à grande échelle, comme BERT, qui sont adaptés à la tâche de réponse aux questions. Les performances varient en fonction du type des données utilisées pour pré-entrainer BERT. Ainsi, le modèle de langue appris sur des données biomédicales, BIOBERT, constitue le meilleur choix pour le QR biomédical. Les modèles d’apprentissage profond visent à fonctionner de bout en bout. Les informations sémantiques provenant de sources de connaissances construites par des experts n’y sont généralement pas introduites. Nous avons annoté manuellement et automatiquement un jeu de données par les variantes des réponses de BIOASQ et montré l’importance d’apprendre un modèle de QR avec ces variantes. Ces types sont ensuite utilisés pour mettre en évidence les entités dans les jeux de données, ce qui montre des améliorations sur l’état de l’art. Par ailleurs l’exploitation de représentations vectorielles d’entités dans les modèles se montre positif pour le domaine ouvert. Nous faisons l’hypothèse que les résultats obtenus à partir de modèles d’apprentissage profond peuvent être encore améliorés en utilisant des traits sémantiques et des traits collectifs calculés à partir des différents paragraphes sélectionnés pour répondre à une question. Nous utilisons des modèles de classification binaires pour améliorer la prédiction de la réponse parmi les K candidats à l’aide de ces caractéristiques, conduisant à un modèle hybride qui surpasse les résultats de l’état de l’art. Enfin, nous avons évalué des modèles de QR ouvert sur des ensembles de données construits pour les tâches de Compréhension machine et Sélection de phrases. Nous montrons la différence de performance lorsque la tâche à résoudre est une tâche de QR ouverte et soulignons le fossé important qu’il reste à franchir dans la construction de modèles de bout en bout pour la tâche complète de réponse aux questions.