XSEarch, un moteur de recherche pour XML combinant structure et contenu

par Jonathan Mamou

Thèse de doctorat en Informatique

Sous la direction de Marie-Christine Rousset.

Soutenue en 2005

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    De plus en plus de documents XML sont publiés sur le Web. Cela nous a conduit à proposer un nouveau moteur de recherche pour XML que nous avons nommé XSEarch. La conception et l'implémentation de XSEarch a relevé un certain nombre de défis. La syntaxe des requêtes convient à l'utilisateur naïf et facilite une recherche de fine granularité. Elle permet à l'utilisateur de préciser de quelle façon les mots-clefs sont reliés aux balises. Une réponse dans XSEarch est constituée de fragments de documents sémantiquement liés. La notion de lien sémantique a été combinée aux techniques traditionnelles de recherche d'information. Ainsi, les réponses ne sont pas simplement des fragments de documents sémantiquement liés, mais des fragments relevants aux mots-clefs de la requête. Le mécanisme de ranking prend en considération le degré du lien sémantique ainsi que le caractère pertinent des mots-clefs. Les structures de données pour l'indexation ainsi que les algorithmes d'évaluation permettent de générer les réponses dans un ordre similaire à leur classement.

  • Titre traduit

    XSEarch, a search engine for XML combining structure and content


  • Résumé

    It is becoming increasingly popular to publish data on the Web in the form of XML documents. We present XSEarch, an XML Search Engine, that, given labels and keywords, retrieves the relevant fragments from a collection of XML documents. In XSEarch, we have tried to solve the different issues raised by using classical search engines and structured query languages. XSEarch has involved several challenges. The syntax is suitable for a naive user and facilitates writing a fine-granularity search. The user can specify in the query keywords, labels and how keywords are related to labels. Also, a query may consist only of keywords just like queries of classical search engines. Consequently, a user does not need to know the schema of the XML documents and is not required to learn the complicated syntax of structured query languages, in order to write a query. XSEarch determines the appropriate level of granularity in order to return to the user as answers, relevant fragments and not necessarily full XML documents. The fragments that are returned, are semantically related even when only keywords are specified in the query. The notion of semantic relationship is combined with classical Information Retrieval techniques to guarantee that answers are not merely semantically related fragments, but actually fragments that are highly relevant to the keywords of the query. Answers are ranked according to their relevance to the query. The ranker takes into account both structural and textual ranking factors. We have developed efficient index structures and evaluation algorithms to make our system scalable.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (52 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 47-[50]

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2005)138
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.