Le web de données comme une base de connaissance a priori pour le processus d'alignement d'ontologies

par Abdennasser Tigrine

Projet de thèse en Informatique

Sous la direction de Zohra Bellahsene et de Konstantin Todorov.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier) (laboratoire) et de Département Informatique (equipe de recherche) depuis le 01-10-2014 .


  • Résumé

    Une ontologie est un ensemble de concepts et de relations entre ces concepts qui décrivent de manière formelle et explicite les connaissances sur un domaine d'intérêt. L'ontologie est un composant important du web de données, ou le web sémantique, qui permet de structurer et décrire les données en facilitant l'accès aux ressources. Il est fréquent de devoir mettre en correspondance plusieurs ontologies, créées de manière indépendante, afin de permettre leur interopérabilité sémantique. En raison des hétérogénéités syntaxiques, sémantiques et terminologiques inhérentes à la nature décentralisée de l'acquisition des ontologies, l'interopérabilité reste un problème difficile. La mise en correspondance vise à apporter des solutions à ce problème par l'introduction des systèmes qui, en prenant deux ontologies hétérogènes en entrée, découvrent de manière automatique les liens sémantiques entre les éléments de ces ontologies. Malgré les nombreux travaux réalisés et les résultats obtenus, il reste plusieurs défis [5], parmi lesquels l'on peut citer l'utilisation de la connaissance a priori, ou de « background », pour faciliter le processus d'alignement. En effet, d'un coté chaque ontologie est créée avec une connaissance riche du domaine, qui reste plus ou moins implicite dans la structure conceptuelle finale. De l'autre coté, deux ontologies sont toujours intrinsèquement différentes en termes de leurs intentions et conceptualisations. Des sources de « background » peuvent être utiles afin d'introduire explicitement cette connaissance du domaine et ainsi donner un cadre sémantique cohérent au processus d'alignement d'ontologies. Etant donné que l'une des applications les plus prometteuses des ontologies est dans le domaine du web, quelle source de connaissance a priori peut être plus appropriée que le web même ? La thèse a pour but d'étudier d'une manière approfondie les approches existantes de mise en correspondance d'ontologies à l'aide de la connaissance a priori et de proposer une approche basée sur de la connaissance venant des sources du web de données. Nous nous intéressons à deux types de sources de connaissances web avec deux applications distinctes : (1) des bases de connaissances génériques, telles que DBPedia, Yago, ou Wikipedia. Ici, nous nous intéressons dans un premier temps à une application dans le domaine du multilinguisme : l'alignement d'ontologies définies dans des langages naturelles différentes. (2) des alignements déjà existants sur le web, par exemple, des liens RDF entre des jeux de données ou bien des sources comme UMLS (un metathésaurus dans le domaine de la médecine). Le but dans ce cas serait d'une part de pourvoir réutiliser les mappings présents dans ces sources au sein d'un système d'alignement et d'autre part d'enrichir celles-ci incrémentalement après la découverte de nouveaux mappings par le système. Dans un premier temps, nous allons nous intéresser à l'étude des cas dans lesquels l'utilisation de la connaissance de « background » est justifiée et nécessaire ainsi que des domaines d'application dans lesquels une telle méthode d'alignement plus sophistiqué peut être utilisée (par exemple, le domaine géo-spatiale, le domaine biomédical, etc.). Le choix de source(s) de connaissance de « background » sera ensuite étudié. Enfin, une question de recherche importante que nous nous poserons sera quel est le bon compromis entre la complexité des algorithmes d'alignement sous-jacents et la richesse de la base de connaissance de background utilisée. Nous formulons la thèse que l'utilisation d'une base de connaissance riche et proprement choisie entrainera une simplification des méthodes d'alignement. Ceci aurait pour conséquence l'amélioration des performances en termes de temps d'exécution. Plusieurs apports au niveau applicatif pour le processus d'alignement sont envisagés. En premier temps, l'alignement à l'aide de la connaissance a priori nous permettra de proposer des méthodes d'alignement qui produisent des résultats de type « 1 : m », ou 1 à plusieurs. Cela est particulièrement intéressant dans le cas d'ontologies large échelle pour lesquelles la probabilité qu'il existe un seul matching exacte entre deux concepts et que celui-ci soit « le meilleur possible » est très faible. En outre, il est envisageable dans ce cadre de proposer une méthode d'alignement simultané de plusieurs ontologies, i.e., prendre en entrée un ensemble d'ontologies au lieu de deux ontologies (ce qui est le cas traité par les systèmes existants aujourd'hui). Des travaux sur ce problème ont déjà été menés au sein de l'équipe Open Data. Nous avons précédemment proposé une approche d'alignement d'ontologies en utilisant Wikipedia [3,4]. L'équipe est également auteur du système générique d'alignement d'ontologies YAM++ [1,2] qui est parmi les meilleurs dans l'état de l'art actuelau web de données (publication, interconnexion, recommandation) [6]. Ces travaux serviront de base pour les études menées dans le cadre de cette thèse . En outre, l'équipe a une expertise solide sur les technologies sous-jacentes

  • Titre traduit

    The Web of data as a background knowledge for ontology matching


  • Résumé

    An ontology can be seen as a set of concepts and relations between these concepts that together describe formally and explicitly the knowledge about a certain domain. The ontology is an important component of the web of data, or the semantic web, allowing to structure and describe data and facilitating access to different resources. Due to syntactic, semantic and terminological heterogeneities between different ontologies resulting from the decentralised nature of ontology acquisition, the ontology interoperability is a difficult pronlem. Often we have to deal with the task of aligning, or matching, ontologies that have been created independently and in a decentralised manner in order to enable their interoperability. Ontology matching (OM) suggests solutions to this problem by introducing systems that, taking two ontologies as an input, automatically discover the semantic links between their elements. In spite of the many approaches that have been proposed during the past years, many challenges remain in front of the OM community. Among them, we underline the use of background knowledge (BK) in the matching process. On the one hand, every ontology is created by using rich domain knowledge which remains more or less implicit in the final ontological structure. On the other hand, two ontologies are always intrinsically different in terms of their intentions and conceptualisations. Background knowledge sources can be very useful in order to introduce explicitly this missing domain knowledge and also to provide a coherent semantic framework to the ontology matching process. Given that one of the most promising applications of the ontologies is on the web of data, what source of background knowledge can be more appropriate than the web itself? This thesis will provide an in-depth study of the existing approaches of ontology matching by the help of BK and will propose a novel approach based on BK sources coming from the web of data. We will be interested in two types of BK with two different applications: 1. Generic knowledge bases, such as DBPedia, YAGO or Wikipedia. Among other possible applications, in the first place we will use this background knowledge in order to propose a solution in the field of multilingualism: matching two ontologies defined in two different natural languages. 2. A corpus of already existing alignments: for example, RDF links between datasets on the web of data, or sources such as UMLS (a metathesaurus in the medical field). The aim here will be to propose a means to reuse these mappings within an already existing ontology matching system, on the one side, and on the other side – enrich this alignment corpus by newly discovered alignments by the system. Several questions related to the use of BK arise. First, we will be interested in the study of the cases when the use of BK is justified and necessary, as well as the fields in which such an approach could be applied (e.g., the geo-spatial field, the biomedical field, etc.). Further, we will study the criteria for a choice of an appropriate BK with respect to a given matching task. An important research question that we will posit is what is the good trade-off between the matching algorithms complexity and the expressiveness and richness of the used BK. We formulate the thesis that the use of an appropriately chosen BK source can lead to a simplification of the underlying matching techniques and algorithms applied in the matching process. From a practical viewpoint, there are multiple contributions to the ontology matching field which can be envisaged. In the first place, a BK mediated alignment will allow for the definition of 1:m or many-to-many types of alignment. This is particularly interesting in the case of large-scale ontologies where the probability that there exists one single exact match between two concepts and that this match is “the best possible” is very low. Further, the BK framework will enable the simultaneous matching of multiple ontologies, i.e. taking as an input a whole set of ontologies, instead of just two (which is the case in the current state-of- the-art systems). Contributions to these problems have already been made by the Open Data research group. We have proposed an approach for aligning ontologies by using Wikipedia [3,4] in a fuzzy set theoretic setting. The group is also author of the ontology matching system YAM++ which is among the best in the current state-of-the-art [1,2]. Additionally, the group has solid expertise in the field of the web of data and the underlying techniques for publication and linking of open data [6]. These works will serve as a basis for the studies and goals pursued in this PhD project.