Motifs arborescents pour données semi-structureés XML : compilation et applications

par Julien-Laurent Carcenac

Thèse de doctorat en Informatique

Sous la direction de Dominique Perrin.

Soutenue en 2006

à l'Université de Marne-la-Vallée .


  • Résumé

    La quantité de données disponibles au format XML, en tant que fichiers ou à travers les services web, pose le problème de sa manipulation. Exalead, société éditrice de logiciels de recherche, a choisi de développer pour ses propres besoins un langage de programmation "orienté-XML", le langage ExaScript. Ce langage unifie le modèle objet des langages de programmation impératifs et le modèle XML. En considérant les documents XML comme des objets, des manipulations de base viennent naturellement : construction d'un objet, accès et modification d'un champ. . . Toutefois, le paradigme de programmation impérative ne possède pas de primitive de manipulation avancée pour les objets complexes comme les arborescences XML. L'appariement de motif nous a paru le mécanisme le plus adapté pour exprimer des contraintes sur les objets XML et en sélectionner des sous-parties. La capacité de manipulation repose alors sur la simplicité de ces motifs et sur leur expressivité. Les contraintes imposées par ces motifs se doivent de capturer l'"essence" du XML en prenant en considération ses différents aspects : à la fois document textuel, arborescence étiquetée, chaîne de caractères. Cette thèse propose une algèbre de motifs arborescents adaptée au traitement des données semi-structurées XML. Cette algèbre a pour particularité d'unifier plusieurs aspects : lexical, grammatical, structurel et booléen. Nous établissons un schéma de compilation hiérarchique fondé sur des structures compilées simples : les évaluateurs booléens, les automates de caractères et une variante des automates classiques, les automates de classes d'identifiants. Nous présentons différentes applications réalisées à partir de notre algèbre de motifs et leurs implications sur les systèmes de recherche. Plusieurs applications de traitement du langage naturel, comme l'appariement de motifs linguistiques ou les outils de veille, peuvent être construites à partir d'un sous-ensemble de notre algèbre. Enfin, nous présentons l'intégration de cette algèbre dans le langage ExaScript, ainsi que son utilisation à des fins de détourage de pages interne

  • Titre traduit

    XML tree patterns : compilation and applications


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (103 f.)
  • Annexes : Bibliogr. f. [100]-103 (77 réf.)

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Est Marne-la-Vallée. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 2006 CAR 0312
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.