Induction de requêtes guidée par schéma

par Jérôme Champavère

Thèse de doctorat en Informatique

Sous la direction de Joachim Niehren.

Soutenue le 10-09-2010

à Lille 1 .


  • Résumé

    La plupart des outils existants pour définir des requêtes de sélection de nœuds sur les documents XML présupposent des connaissances techniques de la part de l'utilisateur. L'induction de requêtes supervisée est un moyen d'élaborer des tâches d'extraction d'information sans ces prérequis. Dans un tel système, une interface graphique permet à l'utilisateur d'annoter des documents qui servent d'exemples. Un algorithme d'apprentissage est alors utilisé pour inférer la requête. Dans cette thèse, nous proposons d'utiliser les connaissances fournies par le schéma XML dans les algorithmes d'induction de requêtes basés sur une technique d'inférence grammaticale. En tant que langages réguliers d'arbres, les schémas peuvent être facilement représentés par des automates d'arbres. Leur utilisation dans des algorithmes d'inférence d'automates apparaît donc particulièrement appropriée. Nous en distinguons deux.- La première est de contraindre la requête inférée à être consistante avec le schéma. Pour cela, nous avons mis au point un test d'inclusion efficace dans les automates d'arbres factorisés déterministes, un nouveau modèle d'automates permettant de représenter les DTD de façon compacte.- La seconde est que les informations contenues dans le schéma peuvent être précieuses pour les heuristiques d'élagage, nécessaires en pratique. Nous caractérisons la classe de requêtes apprenables à partir d'un ensemble d'arbres annotés élagués, à savoir les requêtes stables.Nous avons implémenté et testé nos algorithmes d'induction de requêtes guidée par schéma. Les résultats de nos expériences montrent que l'usage du schéma permet d'améliorer l'apprentissage.

  • Titre traduit

    Schema-Guided Query Induction


  • Résumé

    Most existing tools for defining node-selecting queries over XML documents require technical skills from the user. Inductive query learning is a way of designing information extraction tasks without any prior knowledge. In such a system, the user annotates some example documents with a graphical interface. A learning algorithm is then used in order to infer the query.In this thesis, we suggest to use the knowledge provided by XML schemas into query induction algorithms based on grammatical inferencetechniques. As regular tree languages, schemas can be easily represented by tree automata. Thus their use is especially appropriate to automata inference algorithms. We distinguish two of them.- The first idea is to constrain inferred queries to be consistent with the schema. For this purpose, we have designed an efficient inclusion test in deterministic factorized tree automata, a model of automata we have defined in order to represent DTDs in a compact manner.- The second idea is that information contained in XML schemas might be useful for tree pruning heuristics, which are necessary in practice. We characterize the class of queries that can be learned from a sample of pruned annotated trees, namely stable queries.We have implemented and tested our schema-guided query induction algorithms. The results of our experiments show that schema-guidance improves the learning process.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université des sciences et technologies de Lille. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.