Provenance et Qualité dans les Workflows Orientés Données : application à la plateforme WebLab

par Clément Caron

Thèse de doctorat en Informatique

Sous la direction de Bernd Amann et de Camélia Constantin.

Soutenue le 03-11-2015

à Paris 6 , dans le cadre de École doctorale Informatique, télécommunications et électronique (Paris) , en partenariat avec Laboratoire d'informatique de Paris 6 / LIP6 (laboratoire) .

Le jury était composé de Maria-Esther Vidal, Daniela Grigori, Genoveva Vargas-Solar, Christophe Marsala.


  • Résumé

    La plateforme Weblab est un environnement de définition et d’exécution de chaines de traitements média-mining développé par le service IPCC1 d’Airbus Defence and Space. Il s’agit d’une plateforme ouverte d’intégration de composants externes dont la richesse permet aux concepteurs de construire des chaines média-mining très complexes, mais pose également des problèmes liés à la sensibilité de la qualité des résultats par rapport aux composants utilisés. Avant le début de cette thèse, aucun outil n’existait pour l’analyse et l’amélioration de la qualité de workflows WebLab. La problématique principale de la thèse repose sur le fonctionnement dit boite noire des services WebLab. L’approche choisie est non-intrusive : nous complétons la définition du workflow WebLab par des règles de provenance et de propagation de qualité. Les règles de provenance génèrent des liens de dépendance dit grains-fins entre les données et les services après l’exécution d’une chaine de traitements WebLab. Les règles de propagation de qualité profitent des liens inférés précédemment pour raisonner sur l’influence de la qualité d’une donnée utilisée par un service sur la qualité d’une donnée produite...

  • Titre traduit

    Provenance and Quality in Data Oriented Workflows : application to the WebLab Platform


  • Résumé

    The WebLab platform is an application used to define and execute media-mining workflows. It is an open source platform, developed by the IPCC1 section of Airbus Defence and Space, for the integration of external components. A designer can create complex media-mining workflows using components, whose operation is not always known (black-boxes services). These complex workflows can lead to a problem of data quality, however, and before this work, no tool existed to analyse and improve the quality of WebLab workflows. To deal with black-box services, we choose to tackle this quality problem with a non-intrusive approach: we enhance the definition of the WebLab workflow with provenance and quality propagation rules. Provenance rules generate fine-grained data dependency links between data and services after the execution of a WebLab workflow. Then the quality propagation rules use these links to reason on the influence that the quality of the data used by a component has on the quality of the output data…


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.