Découverte de schéma pour les données du Web sémantique

par Kenza Kellou-Menouer

Thèse de doctorat en Informatique

Sous la direction de Zoubida Kedad.

Soutenue le 09-10-2017

à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec Données et algorithmes pour une ville intelligente et durable (DAVID) (laboratoire) , Université de Versailles-Saint-Quentin-en-Yvelines et de Données et algorithmes pour une ville intelligente et durable - DAVID / DAVID (laboratoire) .

Le président du jury était Yamine Aït-Ameur.

Le jury était composé de Florent Masseglia, Fatiha Sais.

Les rapporteurs étaient Isabelle Comyn-Wattiau, Mohand Saïd Hacid.


  • Résumé

    Un nombre croissant de sources de données interconnectées sont publiées sur le Web. Cependant, leur schéma peut êtreincomplet ou absent. De plus, les données ne sont pas nécessairement conformes au schéma déclaré. Ce qui rend leur exploitation complexe. Dans cette thèse, nous proposons une approche d’extraction automatique et incrémentale du schéma d’une source à partir de la structure implicite de ses données. Afin decompléter la description des types découverts, nous proposons également une approche de découverte des patterns structurels d’un type. L’approche procède en ligne sans avoir à télécharger ou à parcourir la source. Ce quipeut être coûteux voire impossible car les sources sont interrogées à distance et peuvent imposer des contraintes d’accès, notamment en termes de temps ou de nombre de requêtes. Nous avons abordé le problème de l’annotationafin de trouver pour chaque type un ensemble de labels permettant de rendre compte de sonsens. Nous avons proposé des algorithmes d’annotation qui retrouvent le sens d’un type en utilisant des sources de données de références. Cette approche s’applique aussi bien pour trouver des noms pertinents pour les typesdécouverts que pour enrichir la description des types existants. Enfin, nous nous sommes intéressés à caractériser la conformité entre les données d’une source et le schéma qui les décrit. Nous avons proposé une approche pour l'analyse et l'amélioration de cette conformité et nous avons proposé des facteurs de qualité, les métriques associées, ainsi qu'une extension du schéma permettant de refléter l'hétérogénéité entre les instances d'un type.

  • Titre traduit

    Schema Discovery in Semantic Web Data Sources


  • Résumé

    An increasing number of linked data sources are published on the Web. However, their schema may be incomplete or missing. In addition, data do not necessarily follow their schema. This flexibility for describing the data eases their evolution, but makes their exploitation more complex. In our work, we have proposed an automatic and incremental approach enabling schema discovery from the implicit structure of the data. To complement the description of the types in a schema, we have also proposed an approach for finding the possible versions (patterns) for each of them. It proceeds online without having to download or browse the source. This can be expensive or even impossible because the sources may have some access limitations, either on the query execution time, or on the number of queries.We have also addressed the problem of annotating the types in a schema, which consists in finding a set of labels capturing their meaning. We have proposed annotation algorithms which provide meaningful labels using external knowledge bases. Our approach can be used to find meaningful type labels during schema discovery, and also to enrichthe description of existing types.Finally, we have proposed an approach to evaluate the gap between a data source and itsschema. To this end, we have proposed a setof quality factors and the associated metrics, aswell as a schema extension allowing to reflect the heterogeneity among instances of the sametype. Both factors and schema extension are used to analyze and improve the conformity between a schema and the instances it describes


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université de Versailles Saint-Quentin-en-Yvelines. Service Commun de la Documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.