Recherche d'information précise par processus hybrides

par Romain Beaumont

Projet de thèse en Informatique

Sous la direction de Brigitte Grau.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , ILES - Information, Langue Ecrite et Signée (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2014 .


  • Résumé

    Contexte Le contexte de cette thèse est la recherche d'informations précises en langage naturel dans des textes et dans des bases de connaissances. Désormais de nombreuses bases de connaissances sont disponibles à travers les open linked data (Freebase, DBPedia...). Les interfaces en langage naturel pour ces bases de connaissance permettent d'exploiter l'expressivité des modèles de données sémantiques, tout en masquant leur complexité pour les utilisateurs. Par ailleurs, se sont développés depuis de nombreuses années des systèmes de réponse à des questions permettant de rechercher le même type d'information dans des textes. Les données structurés offrent l'avantage d'être non ambiguës, mais d'une couverture restreinte, et nécessitent de traduire une question en langue vers un langage de requête. Les textes en revanche offrent une plus grande couverture des informations, mais ces informations sont non structurées, ambiguës, et de formulation variable. La recherche d'information précise dans des textes et dans des bases de connaissance sont actuellement étudiées de façon indépendante, et les méthodes proposées sont fortement dépendantes de la représentation de l'information cherchée et du domaine couvert. Les problèmes posés sont cependant en partie identiques : reconnaître les informations importantes dans les questions, et les typer, en tenant compte de la variation linguistique. Objectifs Développer des méthodes de recherche d'information précise génériques exploitant des ressources structurées ou textuelles. Il s'agira d'étudier comment intégrer ces approches dans un cadre unifié dans le but de développer des techniques novatrices de représentation/compréhension du texte. L'objectif est d'élaborer une représentation sémantique des questions de suffisamment haut niveau pour pouvoir ensuite être adaptée aux différents contextes de recherche d'informations, que ce soit en domaine ouvert ou dans un domaine de spécialité.

  • Titre traduit

    Precise information retrieval by hybrid processes


  • Résumé

    Context The context of this thesis is information retrieval in natural language in texts and knowledge bases. Multiple knowledge bases are available in linked data (Freebase, DBpedia...). Interfaces in natural language for these knowledge base make it possible to exploit the expressiveness of the semantic data model and hide their complexity to their users and enable to answer natural language questions. For many years, question answering systems have been developed to answer such questions from texts. Structured data offer the advantage of being unambiguous, but with a limited coverage. The texts in contrast offer greater coverage of information, but this information is unstructured, ambiguous and of variable formulation. Precise information retrieval in texts and knowledge bases are being studied independently, and the proposed methods are highly dependent on the representation of the information sought and the covered area. The problems, however, are in part identical: to recognize the important information in the questions, and typing them, taking account of linguistic variation. Objectives Develop generic precise information research methods exploiting structured or textual resources. It will explore how to integrate these approaches within a unified framework in order to develop innovative processes of representation and understanding of the text. The objective is to develop a high level semantic representation of questions in order to then be adapted to different information retrieval contexts, whether in open domain or in a specialty area.