Flux XML, requêtes XPath et automates

par Olivier Gauwin

Thèse de doctorat en Informatique

Sous la direction de Joachim Niehren et de Sophie Tison.

Soutenue le 28-09-2009

à Lille 1 .


  • Résumé

    L'intérêt croissant pour les technologies Web génère de nouveaux défis. Le format XML s'est imposé comme une référence pour le stockage et l'échange de données. Certains documents XML ont acquis une taille telle, qu'il est inefficace voire impossible de les stocker en mémoire centrale. Cela amène à repenser les algorithmes prévus pour traiter ces documents. Une solution consiste à considérer un document XML comme un flux, qui correspond à une lecture unidirectionnelle de ce document. Ce flux est alors traité à la volée. Ainsi le document n'est jamais stocké en mémoire centrale, et uniquement les parties utiles y sont mémorisées. L'un des traitements effectués sur les fichiers XML est la sélection d'information par des requêtes. Ceci constitue une étape de base pour la transformation de documents XML, permettant ainsi à des applications utilisant différents schémas XML d'échanger des informations. Cette thèse étudie l'évaluation de requêtes sur des flux XML. Deux formalismes de requêtes sont considérés· le standard XPath, et les automates d'arbres Pour cela, une mesure de la faculté d'une requête à être évaluée sur des flux XML est introduite. A l'aune de cette mesure, les requêtes XPath et par automates ne sont pas adaptées à une évaluation de flux XML. Pour chacun des deux formalismes de requêtes, de larges fragments adaptés à ce type d'évaluation sont définis et étudiés. Pour les requêtes par automates d'arbres, deux autres critères liés à l'évaluation de flux XML sont montrés décidables en temps polynomial

  • Titre traduit

    Streaming tree automata and XPath


  • Résumé

    The growing interest for Web technologies leads to new challenges. XML is now a reference for storing and exchanging data. Some XML documents are now so large, that il is inefficient or even impossible to store them in main memory. This calls for new paradigms to treat these data. One of them consists in considering an XML document as a stream, corresponding to a one-way reading of this document. This stream is then processed on-the-f1y. Hence the document is never stored in main memory, and only the useful parts are memorized. One task of XML processing is to retrieve information, using queries. This is the base step for XML document transformation, that allows applications using distinct XML schemas to exchange data. This thesis studies the query answering problem on XML streams. Two query classes are considered: the XPath standard, and tree automata. For this purpose, a measure of streamability of a query is introduced. This one shows that queries defined by XPath expressions or tree automata are not streamable. For both query formalisms, large streamable fragments are introduced and studied. For queries defined by tree automata, Iwo other streamability criteria are proved to be decidable in polynomial time.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université des sciences et technologies de Lille. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.