Question-réponse hybride sur des données hétérogènes

par Sanjay kamath Ramachandra Rao

Projet de thèse en Informatique

Sous la direction de Brigitte Grau et de Yue Ma.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , ILES - Information, Langue Ecrite et Signée (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    La thèse porte sur la comparaison et la combinaison de deux approches pour répondre à des questions exprimées en langage naturel sur des données textuelles, semi-structurées, ou structurées. L'une est de répondre aux questions en se fondant sur les textes et de rechercher des réponses aux questions en langue naturelle en utilisant des techniques du traitement du language naturel et de la recherche d'information sémantique. L'autre approche est d'essayer de transformer les questions en language naturel en requêtes formelles pour interroger des bases de données. Une traduction automatique est nécessaire parce qu'il est difficile pour les utilisateurs (par exemple, docteurs, étudiants) de formaliser leurs besoins en requêtes formelles. La thèse a vise à proposer un modèle hybride de recherche de réponse, et d'évaluer la méthode obtenue.

  • Titre traduit

    Hybrid Question Answering over Heterogeneous Data


  • Résumé

    This PhD project is to develop a novel answering question paradigm that integrates both formal database-like query answering and texts based question answering by information extraction methods. This is because these are two important approaches for complex question answering, but of each own advantages. To benefit from both methods, a key contribution of this PhD work will be the approaches for combining answers to a formal query with answers found based on information retrieval techniques, which has been identified as a challenge in question answering systems. It is to study the hybrid complex question answering systems by taking into account the limits of both ontological reasoning and text processing approaches alone. In particular, the following approaches need to be developed: - Text-for-ontology search: selecting relevant cases by text-based retrieval for defining a subset of individuals to reduce the calculation complexity of formal queries. - Ontology driven search: querying the populated ontology for selecting potential relevant individuals and related texts, and reranking these individuals by verifying remaining unstructured information on them. - Hybrid answer production: producing final answers to a question by comparing and then combining the results from ontology based reasoning method and text based processing method.