Interrogation des sources de données hétérogènes : une approche pour l'analyse des requêtes

par Ibrahim Soumana

Thèse de doctorat en Sciences du langage

Sous la direction de Sylviane Cardey-Greenfield.


  • Résumé

    Le volume des données structurées produites devient de plus en plus considérable. Plusieurs aspects concourent à l’accroissement du volume de données structurées. Au niveau du Web, le Web de données (Linked Data) a permis l’interconnexion de plusieurs jeux de données disponibles créant un gigantesque hub de données. Certaines applications comme l’extraction d’informations produisent des données pour peupler des ontologies. Les capteurs et appareils (ordinateur, smartphone, tablette) connectés produisent de plus en plus de données. Les systèmes d’information d’entreprise sont également affectés. Accéder à une information précise devient de plus en plus difficile. En entreprise, des outils de recherche ont été mis au point pour réduire la charge de travail liée à la recherche d’informations, mais ces outils génèrent toujours des volumes importants. Les interfaces en langage naturel issues du Traitement Automatique des Langues peuvent être mises à contribution pour permettre aux utilisateurs d’exprimer naturellement leurs besoins en informations sans se préoccuper des aspects techniques liés à l’interrogation des données structurées. Les interfaces en langage naturel permettent également d’avoir une réponse concise sans avoir besoin de fouiller d’avantage dans une liste de documents. Cependant actuellement, ces interfaces ne sont pas assez robustes pour être utilisées par le grand public ou pour répondre aux problèmes de l’hétérogénéité ou du volume de données. Nous nous intéressons à la robustesse de ces systèmes du point de vue de l’analyse de la question. La compréhension de la question de l’utilisateur est une étape importante pour retrouver la réponse. Nous proposons trois niveaux d’interprétation pour l’analyse d’une question : domaine abstrait, domaine concret et la relation domaine abstrait/concret. Le domaine abstrait s’intéresse aux données qui sont indépendantes de la nature des jeux de données. Il s’agit principalement des données de mesures. L’interprétation s’appuie sur la logique propre à ces mesures. Le plus souvent cette logique a été bien décrite dans les autres disciplines, mais la manière dont elle se manifeste en langage naturel n’a pas fait l’objet d’une large investigation pour les interfaces en langage naturel basées sur des données structurées. Le domaine concret couvre le domaine métier de l’application. Il s’agit de bien interpréter la logique métier. Pour une base de données, il correspond au niveau applicatif (par opposition à la couche des données). La plupart des interfaces en langage naturel se focalisent principalement sur la couche des données. La relation domaine abstrait/concret s’intéresse aux interprétations qui chevauchent les deux domaines. Du fait de l’importance de l’analyse linguistique, nous avons développé l’infrastructure pour mener cette analyse. L’essentiel des interfaces en langage naturel qui tentent de répondre aux problématiques du Web de données (Linked Data) ont été développées jusqu’ici pour la langue anglaise et allemande. Notre interface tente d’abord de répondre à des questions en français

  • Titre traduit

    Querying heterogeneous data sources


  • Résumé

    No english summary available


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Informations

  • Détails : 1 vol. (119 p.)
  • Notes : Thèse soumise à l'embargo de l'auteur jusqu'au 07 juin 2016
  • Annexes : Bibliographie p.109-119

Où se trouve cette thèse ?