Recherche d'information conceptuelle dans les documents semi-structurés

par Rami Harrathi

Thèse de doctorat en Informatique

Sous la direction de Sylvie Calabretto.

Soutenue en 2010

à Lyon, INSA .


  • Résumé

    Avec l'avènement de XML, comme un format reconnu de représentation et d'échange de documents semi-structurés, de nombreuses approches ont été proposées pour la Recherche d'Information dans les documents semi-Structurés (RIS). Ces approches de RIS présentent des limites à différents niveaux : au niveau de l'appariement élément/requête et au niveau du langage de requêtes. En effet, l'appariement élément/requête vise à attribuer des scores de pertinences aux éléments des documents. La majorité des approches actuelles sont fondées sur des systèmes d'indexation basés sur des mots clés où l'élément d'un document et la requête sont représenté par une liste de mots clés pondérés. Cependant, l'indexation par des mots clés est imprécise et ne prend pas en considération les relations sémantiques entre ces mots. D'autre part, la majorité des langages de requêtes proposés pour l'Interrogation des documents semi-structurés sont des langages textuels. Une limite des langages textuels réside dans le fait qu'Il s'agit de langages inadaptés aux utilisateurs non informaticiens. Ces langages nécessitent de la part de l'utilisateur un apprentissage de leur syntaxe formelle. L'utilisation des langages visuels s'avère être une bonne solution pour remédier aux limites des langages textuels. Dans ce cadre, nos contributions portent principalement sur la proposition d'une approche de RI conceptuelle dans les documents semi-structurés et d'un modèle d'interrogation visuelle. Nos contributions ont été évaluées grâce à la campagne d'évaluation IN EX et à travers le développement d'un prototype.

  • Titre traduit

    = Conceptual information retrieval in semi-structured document


  • Résumé

    With the advent of XML as the de facto standard for semi-structured document representation and exchange over the Web, several approaches of structured information retrieval (SIR) for semi-structured document have been proposed. These approaches have limitations of RIS at different levels: the matching element/query and query language. The matching element/query consist of assigning a relevance scores of elements in the documents. Most approaches for evaluating the relevance are based on keywords-based indexing systems where the element of a document and the query are represented by a list of weighted keyword. The keywords-based indexing is generally imprecise. This imprecision is due to the problem of semantic ambiguity of words in natural language. To address these limitations, several studies were interested in taking into account the semantic indexing terms. This type of indexing is called semantic or conceptual indexing. These works take into account the notion of concept in place of the notion of word. The query languages allow the user to query semi-structured documents by content and structure. Most query languages which proposed for querying semi-structured documents were textual query languages. The limitation of textual languages lies in the fact that it is unsuitable for users who are novices in computer science. These languages are characterized by a complex formalism. They require training in the formal syntax of the language. The use of visual languages overcomes these limitations. In this context, our contributions focus on the proposal of a conceptual IR approach in semi-structured documents and a model of visual querying. Our contributions are evaluated through the IN EX Evaluation Initiative and the development of a prototype.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XIII-167 p.)
  • Annexes : Bibliogr. p. [153]-167

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(3650)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.