Annotation sémantique de documents semi-structurés pour la recherche d'information

par Mouhamadou Thiam

Thèse de doctorat en Informatique

Sous la direction de Moussa Lô et de Chantal Reynaud.

Soutenue en 2010

à Paris 11 en cotutelle avec Gaston Berger , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Le web sémantique est défini par un ensemble de méthodes et de technologies permettant à des agents logiciels d raisonner sur le contenu des ressources du Web. Cette vision du Web dépend de la construction des ontologies et d l'utilisation de métadonnées pour représenter ces ressources. L'objectif de notre travail de thèse est d'annote sémantiquement des documents balisés et relatifs au même domaine. Ces documents peuvent comporter des parties bie structurées et d'autres textuelles. Nous supposons disposer d'une ontologie de domaine définie par des concepts, de relations entre ces concepts et des propriétés. Cette ontologie comporte une composante lexicale où chaque concept e accompagné de labels, d'un ensemble d'entités nommées (EN) et de termes du domaine. Nous avons défini une approch automatique SHIRl-Extract qui permet d'extraire des termes et des EN de manière indépendante du domaine et de le aligner aux concepts de l'ontologie. L'alignement utilise la composante lexicale ou le Web pour découvrir de nouveau termes. Nous avons défini un modèle d'annotation représentant les résultats d'extraction et d'annotation. Le métadonnées de ce modèle distinguent les nœuds selon que les termes ou les EN agrégés dans un même nœud SOI alignés avec un ou plusieurs concepts différents. Elles permettent également d'annoter la relation de voisinage entre le nœuds. Nous avons défini SHIRl-Annot, un ensemble de règles déclaratives pour annoter les nœuds et leurs relations. L base d'annotations RDF(S) construite peut être interrogée à l'aide de requêtes SP ARQL. L'évaluation a porté sur une collection de documents portant sur des appels à participation à des conférences. .

  • Titre traduit

    Semantic annotation of semi-structured documents for information retrieval


  • Résumé

    The semantic web is defined by a set of methods and technologies enabling software agents to reason about the contents of Web resources. This vision of the Web depends on the construction of ontologies and the use of metadata to represent these resources. The objective of our thesis is to annotate semantically tagged documents related to a domain of interest. These documents may contain well-structured nodes and textual ones. We assume having a domain ontology defined by concepts, relations between these concepts and their properties. This ontology includes a lexical component (labels, a set of named entities (NE) and terms) for each concept. We have defined an automatic and domain independent approach SHIRl-Extract that extracts terms and NE and aligns them with the concepts of the ontology. The alignment uses the lexical component or the Web to discover new terms. We have defined an annotation model which represents the results of extraction and annotation. The metadata of this model distinguish nodes depending on how the terms and NE are aligned and aggregated in a node. The model can also represent the structural neighbor relations between nodes. We have defined SHIRl-Annot, a set of declarative rules to annotate the nodes and their relations. The constructed RDF(S) annotation base can be queried using SP ARQL. We have implemented and evaluated our approach on a collection of call for participation to computer science conferences.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-125p.)
  • Annexes : Bibliogr. p. 119-124. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : Og ORSAY(2010)174
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.