Construction d'une cartographie de domaine à partir de ressources sémantiques hétérogènes

par Sarra Ben Abbès

Thèse de doctorat en Informatique

Sous la direction de Adeline Nazarenko.

Soutenue en 2013

à Paris 13 .


  • Résumé

    Ces dernières années, un effort considérable a été accompli pour le partage et la réutilisation des connaissances dans le cadre du Web sémantique. Un nombre important de ressources sémantiques ont été mises à disposition mais cette richesse et cette diversité compliquent la réutilisation de ressources existantes. Avant de chercher à réutiliser des ressources, un ingénieur de la connaissance doit commencer par dresser un état des lieux du domaine qui l'intéresse, identifier les ressources disponibles et les positionner les unes par rapport aux autres. Il lui faut se repérer dans un web foisonnant dont l'hétérogénéité sémantique ne cesse de croître. C'est le défi que cette thèse a cherché à relever. Nous proposons de cartographier le web sémantique sur un domaine particulier et nous avons mis au point une méthode qui permet de construire automatiquement de telles « cartographies de domaine » destinées à des ingénieurs de la connaissance souhaitant prendre connaissance des ressources disponibles pour un domaine particulier. Pour que ces cartographies soient centrées sur leurs centres d'intérêt, les ingénieurs fournissent en entrée un texte représentatif du domaine et de l'application visée, ce texte servant ensuite de pivot à l'ensemble de la méthodologie de construction de la cartographie. Nous avons défini un processus global de construction de cartographies qui se décompose en trois étapes, en supposant résolue l'étape préalable de sélection des ressources sémantiques. Le texte d'acquisition servant de point de départ, la première étape consiste à lier les ressources sélectionnées au texte : c'est une phase d'annotation sémantique qui projette les entités d'ontologies sur le texte afin d'identifier celles qui y sont mentionnées. La deuxième étape permet d'aligner les différentes ressources et ce processus d'alignement est lui-aussi guidé par le texte : les entités de ressources différentes sont rapprochées sur la base de leur proximité distributionnelle dans le texte. La troisième étape permet de détecter et au besoin de corriger les anomalies sur les correspondances obtenues à l'issue de la phase d'alignement ; cette phase permet aussi de détecter et d'afficher les correspondances remarquables qui peuvent aider l'ingénieur à prendre connaissance du matériau existant. Notre méthode d'alignement d'ontologies présente la particularité d'être guidée par le texte. L'alignement consiste classiquement à identifier des relations ou « correspondances » existant entre les entités issues d'ontologies différentes et il est utilisé dans plusieurs applications, comme l'enrichissement d'une ontologie, la fusion de plusieurs ontologies ou, ici, pour aider l'ingénieur de la connaissance à appréhender les ressources disponibles pour un domaine particulier. L'exploitation d'un texte permet de rapprocher des entités ontologiques qui n'ont ni la même étiquette - comme dans les méthodes d'alignement lexical - ni la même position dans les ressources d'origine - comme dans les approches structurelles. Nous proposons de différencier deux types de correspondance selon la nature de la relation existant entre les termes associés : si les termes ou étiquettes tendent à apparaître dans les mêmes phrases nous présumons l'existence d'une relation associative entre eux ; à l'inverse, s'ils se substituent l'un à l'autre, on peut faire l'hypothèse d'une relation d'équivalence. La construction d'une cartographie de domaine se fait à partir des résultats de l'alignement. Cette phase consiste à repérer les anomalies et les correspondances remarquables à présenter à l'ingénieur de la connaissance. Nous faisons en effet l'hypothèse que ces deux types de configurations sont importantes à repérer : les anomalies font apparaître des différences notables dans les choix de conceptualisation sur lesquels reposent les deux ressources alignées ; les configurations remarquables font au contraire ressortir les zones les plus centrales et les plus cohérentes de l'alignement proposé. Repérer et analyser ces configurations doit donc permettre à l'ingénieur de comprendre comment les ressources alignées se positionnent l'une par rapport à l'autre. L'ensemble de cette approche a été implémenté et testé sur différents cas d'usage dans les domaines de la biologie, de la géographie et de l'alimentation.

  • Titre traduit

    Building a domain cartography from heterogeneous semantic resources


  • Résumé

    In recent years, a large effort has been devoted to the sharing and reuse of knowledge in the semantic web. A number of semantic resources have been made available significantly but this richness and diversity complicate the reuse of existing resources. Before trying to reuse resources, the knowledge engineer must begin by drawing up an inventory of the domain's interest, identify available resources and put it against each other. He must locate in a "teeming" web where the semantic heterogeneity is growing. This is the challenge that this thesis has sought to address. We propose to map the semantic web on a particular domain and we have developed an automatic method to create such "domain cartographies" for engineers wishing to gain insught in the available resources on a particular domain. In order to have these cartographies suited to their interests, engineers give as an input a text which is representative of the domain and the target application and the text is a pivot to the whole the cartography process. We have defined an overall process of building cartographies that is composed of three steps, assuming resolved the prior selection step of semantic resources. The text acquisition is a starting point, the first step is to link the selected resources to the text : it is a step of semantic resources annotation which projects ontological entities on the text in order to identify those which are mentioned. The second step is to align different resources and the alignment process itself is also based on the text : the entities of different resources are aligned based on their distributional proximity in the text. The third step is to detect and correct the mapping anomalies obtained after the alignment step ; this step can also detect and display the remarkable mappings that can help the engineer to take knowledge of the existing resources. The originality of our ontology alignment method is to use the text. The alignment consists typically on identifying relations or mappings between entities from different ontologies. It is used in several applications, such as the ontology enrichment, the ontology merging or here, to help the knowledge engineer to understand the available resources of a particular domain. Using a text allows closer ontological entities that do not have the same label - as in the lexical alignment methods - or the same position in the original resources - as in structural approaches. We propose to distinguish between two types of mappings with the nature of the relationship between related terms : if the terms or labels tend to appear in the same sentences, we conclude an associative relationship between them ; on the contrary, if they are substituted to each other, we can conclude an equivalence relation. The building cartography process is based on the results of the alignment process. This step consists on identifying anomalies and to present the remarkable mappings to the knowledge engineer. We make the hypothesis that these two types of configurations are important to identify : anomalies show significant differences in the choice of conceptualization represented on the two aligned resources ; remarkable configurations are instead highlighting the most central parts and most consistent of the proposed alignment. Identify and analyze these configurations must allow the engineer to understand how resources are aligned to each other. This overall approach was implemented and tested on different use cases in the biology, geography and food domains.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (128p.)
  • Annexes : Bibliogr. p. 123-128

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Sciences.
  • PEB soumis à condition
  • Cote : TH 2013 061
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.