Classement de services et de données par leur utilisation

par Camélia Constantin

Thèse de doctorat en Informatique

Sous la direction de Bernd Amann.

Soutenue en 2007

à Paris 6 .


  • Résumé

    L'émergence des systèmes pair-à-pair et la possibilité de réaliser des calculs et d'échanger des données par des services web conduit à des systèmes d'intégration de données à large échelle où l'évaluation de requêtes et d'autres traitements complexes sont réalisés par composition de services. Un problème important dans ce type de systèmes est l'absence de connaissances globales. Il est difficile par exemple de choisir le meilleur pair pour le routage des requêtes, le meilleur service lors de la composition de services ou de décider parmi les données locales à un pair celles à rafraîchir, à mettre en cache, etc. La notion de choix implique celle de classement. Bien qu'il soit possible de comparer et classer des entités d'après leur contenu ou d'autres métadonnées associées, ces techniques sont généralement basées sur des descriptions homogènes et sémantiquement riches. Une alternative intéressante dans le contexte d'un système à large échelle est le classement basé sur les liens qui exploite les relations entre les différentes entités et permet de faire des choix fondés sur des informations globales. Cette thèse présente un nouveau modèle générique de classement de services fondé sur leurs liens de collaboration. Nous définissons une importance globale de service en exploitant des connaissances spécifiques sur sa contribution aux autres services à travers les appels reçus et les données échangées. L'importance peut être calculée efficacement par un algorithme asynchrone sans génération de messages supplémentaires. La notion de contribution est abstraite et nous avons étudié son instanciation dans le cadre de trois applications: (i) le classement de services basé sur les appels où la contribution reflète la sémantique des services ainsi que leur utilisation avec le temps; (ii) le classement de services par l'utilisation des données où la contribution des services est fondée sur l'utilisation de leurs données pendant l'évaluation des requêtes dans un entrepôt distribué; (iii) la définition des stratégies de cache distribuées qui sont basées sur la contribution d'une mise en cache des données à réduire la charge du système.

  • Titre traduit

    Usage-based ranking of services and data


  • Résumé

    The emergence of peer-to-peer systems and the possibility to use web services to perform computations and to exchange data lead to large-scale integration systems where query evaluation and other complex tasks are performed through service composition. A crucial problem in such systems is the lack of global knowledge. Therefore it is difficult to find the best peer for query routing, the best service for composition or to decide which local data of a peer must be refreshed or cached. Making a choice implies to perform a ranking. Although it is possible to rank entities according to their content or to other associated metadata, these techniques are generally based on homogeneous and semantically rich descriptions. An interesting alternative in the context of large-scale systems is a link-based ranking that exploits relations between the different entities and allows to make choices according to global information. This thesis presents a new generic service ranking model based on their collaboration links. We define a global service importance by exploiting specific knowledge about its contribution to other services through received calls and exchanged data. The importance may be computed efficiently by an asynchronous algorithm without additional messages. Our notion of contribution is abstract and we study its instantiation in the context of three applications: (i) service ranking based on calls where the contribution reflects the service semantics and usage; (ii) service ranking based on data usage where the service contribution is based on the usage of its data during the query evaluations in a distributed warehouse; (iii) distributed cache strategies based on the contribution of a data cache on a peer to reduce the cost the system workload.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (173 p.)
  • Annexes : Bibliogr. p. 161-173. 203 réf. bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2007 321
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.