Question-réponse utilisant des données et modèles hybrides

par Sanjay Kamath Ramachandra rao

Thèse de doctorat en Informatique

Sous la direction de Anne Vilnat.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) et de Université Paris-Sud (établissement opérateur d'inscription) .


  • Résumé

    Le domaine des questions-réponses se situe entre le traitement du langage naturel et la recherche d'information. L'émergence des approches d'apprentissage profond dans plusieurs domaines de recherche tels que la vision par ordinateur, le traitement du langage naturel, la reconnaissance vocale a conduit à l'émergence de modèles dit «end to end». Dans le cadre du projet GoASQ, nous traitons différentes approches pour répondre à des questions formulées en langage naturel sur des données textuelles en domaine ouvert et biomédical. Cette thèse se concentre sur la construction de modèles pour des ensembles de données de petite et grande échelle et sur l'exploitation d'informations structurées et sémantiques pour répondre aux questions des modèles. Actuellement, dans l'état de l'art on retrouve des modèles d'apprentissage profond. Afin de faciliter leur utilisation sur des dataset de petite taille sur des données du domaine fermé, nous proposons d'utiliser l'adaptation de domaine. Nous modélisons l'ensemble de données biomédicales BIOASQ sur les tâches de réponse aux questions biomédicales en deux modèles de tâches d'QA différents et montrons comment la tâche Questions-Réponses de domaine ouvert convient mieux que la tâche «reading comprehension». Nous pré-entrainons le modèle «reading comprehension» sur différents dataset pour montrer la variabilité des performances lorsque ces modèles sont adaptés au domaine biomédical. Nous constatons que l'utilisation d'un dataset particulier (SQUAD v2.0) pour le pré-entraînement donne les meilleurs résultats pour un seul dataset avant l'entrainement et qu'une combinaison de quatre dataset de «reading comprehension» a donné des meilleurs résultats pour l'adaptation du domaine biomédical. Nous effectuons des tests ci-dessus à l'aide de modèles de langage à grande échelle pré-entrainé comme BERT qui sont ajustés avec précision à la tâche de réponse aux questions. Les performances varient en fonction du type de données utilisées pour pré-entrainer BERT. Pour le pré-entraînement de BERT sur la tâche de modélisation linguistique, nous pensons que les données biomédicales formées par BIOBERT constituent le meilleur choix pour l'QA biomédicale. Étant donné que les modèles d'apprentissage profond ont tendance à fonctionner en «end to end», les informations sémantiques et structurées provenant de sources d'information annotées par des experts ne sont pas explicitement utilisées. Il est nécessaire d'utiliser «Lexical and Expected Answer Types» et dans le domaine ouvert et biomédical en effectuant plusieurs vérifications. Ces types sont utilisés pour mettre en évidence les entités dans deux tâches d'QA qui montrent des améliorations tout en utilisant les incorporations d'entités basées sur les annotations de type réponse. Nous avons annoté manuellement un ensemble de données de variante de réponse pour BIOASQ et montré l'importance d'apprendre un modèle d'QA avec des variantes de réponse présentes dans les paragraphes. Notre hypothèse est que les résultats obtenus à partir de modèles d'apprentissage profond peuvent être encore améliorés en utilisant des caractéristiques sémantiques et collectives de différents paragraphes pour une question. Nous proposons d'utiliser des modèles de classement basés sur des méthodes de classification binaires pour mieux classer la prédiction Top-1 parmi les prédictions Top-K à l'aide de ces caractéristiques, conduisant à un modèle hybride qui surpasse les résultats de l'état de l'art sur plusieurs dataset. Nous testons sur plusieurs modèles généraux de réponses à des questions en domaine ouvert sur des dataset de sous-tâches d'QA construits pour les tâches «reading comprehension» et Réponse à la sélection des phrases. Nous montrons la différence de performance lorsque ceux-ci sont modélisés comme tâche d'QA globale et soulignons l'écart important dans la construction de modèles «end to end» pour la tâche globale de réponse aux questions.

  • Titre traduit

    Question Answering with Hybrid Data and Models


  • Résumé

    Question Answering is a discipline which lies in between natural language processing and information retrieval domains. Emergence of deep learning approaches in several fields of research such as computer vision, natural language processing, speech recognition etc. has led to the rise of end-to-end models. In the context of GoASQ project, we investigate, compare and combine different approaches for answering questions formulated in natural language over textual data on open domain and biomedical domain data. The thesis work mainly focuses on 1) Building models for small scale and large scale datasets, and 2) Leveraging structured and semantic information into question answering models. Hybrid data in our research context is fusion of knowledge from free text, ontologies, entity information etc. applied towards free text question answering. The current state-of-the-art models for question answering use deep learning based models. In order to facilitate using them on small scale datasets on closed domain data, we propose to use domain adaptation. We model the BIOASQ biomedical question answering task dataset into two different QA task models and show how the Open Domain Question Answering task suits better than the Reading Comprehension task by comparing experimental results. We pre-train the Reading Comprehension model with different datasets to show the variability in performance when these models are adapted to biomedical domain. We find that using one particular dataset (SQUAD v2.0 dataset) for pre-training performs the best on single dataset pre-training and a combination of four Reading Comprehension datasets performed the best towards the biomedical domain adaptation. We perform some of the above experiments using large scale pre-trained language models like BERT which are fine-tuned to the question answering task. The performance varies based on the type of data used to pre-train BERT. For BERT pre-training on the language modelling task, we find the biomedical data trained BIOBERT to be the best choice for biomedical QA. Since deep learning models tend to function in an end-to-end fashion, semantic and structured information coming from expert annotated information sources are not explicitly used. We highlight the necessity for using Lexical and Expected Answer Types in open domain and biomedical domain question answering by performing several verification experiments. These types are used to highlight entities in two QA tasks which shows improvements while using entity embeddings based on the answer type annotations. We manually annotated an answer variant dataset for BIOASQ and show the importance of learning a QA model with answer variants present in the paragraphs. Our hypothesis is that the results obtained from deep learning models can further be improved using semantic features and collective features from different paragraphs for a question. We propose to use ranking models based on binary classification methods to better rank Top-1 prediction among Top-K predictions using these features, leading to an hybrid model that outperforms state-of-art-results on several datasets. We experiment with several overall Open Domain Question Answering models on QA sub-task datasets built for Reading Comprehension and Answer Sentence Selection tasks. We show the difference in performance when these are modelled as overall QA task and highlight the wide gap in building end-to-end models for overall question answering task.