Thèse de doctorat en Informatique et Réseaux
Sous la direction de Talel Abdessalem et de Pierre Senellart.
Soutenue le 30-03-2015
à Paris, ENST , dans le cadre de École doctorale Informatique, télécommunications et électronique de Paris , en partenariat avec Laboratoire Traitement et communication de l'information (Paris ; 2003-....) (laboratoire) .
Le président du jury était Benjamin Nguyen.
Le jury était composé de Dario Colazzo, Stéphane Gançarski.
Les rapporteurs étaient Pascal Molli, Laure Berti-Équille.
Cette thèse s’intéresse à certains problèmes fondamentaux découlant d’un besoin accru de gestion des incertitudes dans les applications Web multi-sources ayant de la structure, à savoir le contrôle de versions incertaines dans les plates-formes Web à large échelle, l’intégration de sources Web incertaines sous contraintes, et la découverte de la vérité à partir de plusieurs sources Web structurées. Ses contributions majeures sont : la gestion de l’incertitude dans le contrôle de versions de données arborescentes en s’appuyant sur un modèle XML probabiliste ; les étapes initiales vers un système d’intégration XML probabiliste de sources Web incertaines et dépendantes ; l’introduction de mesures de précision pour les données géographiques et ; la conception d’algorithmes d’exploration pour un partitionnement optimal de l’ensemble des attributs dans un processus de recherche de la vérité sur des sources Web conflictuelles.
Harnessing uncertain data structure
This thesis addresses some fundamental problems inherent to the need of uncertainty handling in multi-source Web applications with structured information, namely uncertain version control in Web-scale collaborative editing platforms, integration of uncertain Web sources under constraints, and truth finding over structured Web sources. Its major contributions are: uncertainty management in version control of treestructured data using a probabilistic XML model; initial steps towards a probabilistic XML data integration system for uncertain and dependent Web sources; precision measures for location data and; exploration algorithms for an optimal partitioning of the input attribute set during a truth finding process over conflicting Web sources.
Il est disponible au sein de la bibliothèque de l'établissement de soutenance.