Linking heterogeneous open data : application to the musical domain

par Manel Achichi

Thèse de doctorat en Informatique

Sous la direction de Zohra Bellahsene.

Le président du jury était Ollivier Haemmerlé.

Le jury était composé de Zohra Bellahsene, Ollivier Haemmerlé, Mathieu D'Aquin, Catherine Faron-Zucker, Konstantin Todorov.

Les rapporteurs étaient Mathieu D'Aquin, Catherine Faron-Zucker.


  • Résumé

    Des milliers d'œuvres musicales sont décrites dans des catalogues des institutions culturelles, dont le rôle est de stocker toutes les créations musicales à travers le catalogage et de les diffuser auprès du grand public. Cette thèse s’inscrit dans le cadre du projet ANR DOREMUS -DOnnées en REutilisation pour la Musique en fonction des USages- qui vise à explorer les métadonnées des catalogues de trois grandes institutions culturelles : Bibliothèque Nationale de France (BNF), Philharmonie de Paris et Radio France afin qu'elles puissent communiquer entre elles et être mieux utilisées par les différents publics. Dans cette thèse, nous nous intéressons aux liens dits d’identité, exprimant une équivalence entre deux ressources différentes décrivant la même entité du monde réel. Notre objectif principal est de proposer une approche de liage générique, traitant certains challenges, avec comme cas concret d’utilisation les données de DOREMUS.Dans cette thèse, nous nous focalisons sur trois principaux challenges : (1) réduire la configuration manuelle de l’outil de liage, (2) faire face à différents types d’hétérogénéité entre les descriptions, et (3) Supprimer l’ambiguïté entre les ressources très similaires dans leur descriptions mais qui ne sont pas équivalentes. Certaines approches de liage demandent souvent l’intervention de l’utilisateur pour configurer certains paramètres. Ceci peut s’avérer être une tâche coûteuse pour l’utilisateur qui peut ne pas être expert du domaine. Par conséquent, une des questions de recherche que nous nous posons est comment réduire autant que possible l’intervention humaine dans le processus de liage des données. De plus, les descriptions des ressources peuvent présenter diverses hétérogénéités qu’un outil doit savoir gérer. Par ailleurs, les descriptions peuvent être exprimées dans différentes langues naturelles, avec des vocabulaires différents ou encore avec des valeurs différentes. La comparaison peut alors s’avérer très difficile en raison des variations selon trois dimensions : basées sur les valeurs, ontologiques et logiques. Dans cette thèse, nous analysons les aspects d’hétérogénéité les plus récurrents en identifiant un ensemble de techniques qui peuvent leur être appliquées. Un autre défi est la distinction entre des descriptions de ressources fortement similaires mais non équivalentes. En leur présence, la plupart des outils existants se voient diminuer leur efficacité en terme de qualité, en générant beaucoup de faux positifs. Dans cette optique, certaines approches ont été proposées pour identifier un ensemble de propriétés discriminatives appelées des clefs. De telles approches découvrent un très grand nombre de clés. La question qui se pose est de savoir si toutes les clés permettent de découvrir les mêmes paires d’instances équivalentes, ou si certaines sont plus significatives que d'autres. Aucune approche ne fournit de stratégie pour classer les clefs générées en fonction de leur efficacité à découvrir les bons liens. Afin d’assurer des alignements de qualité, nous avons proposé dans ce travail une nouvelle approche de liage de données visant à relever les défis décrits ci-dessus.Un outil de liage automatique de données hétérogènes, nommé Legato, qui répond aux challenges évoqués précédemment a été développé. Il est basé sur la notion de profile d’instance représentant chaque ressource comme un document textuel de littéraux gérant une variété d’hétérogénéités de données sans l’intervention de l’utilisateur. Legato implémente également une étape de filtrage de propriétés dites problématiques permettant de nettoyer les données du bruit susceptible de rendre la tâche de comparaison difficile. Pour pallier au problème de distinction entre les ressources similaires dans leur description, Legato implémente un algorithme basé sur la sélection et le ranking des clefs afin d’améliorer considérablement la précision au niveau des liens générés.

  • Titre traduit

    Liage de données ouvertes et hétérogènes : application au domaine musical


  • Résumé

    This thesis is part of the ANR DOREMUS project. We are interested in the catalogs of three cultural institutions: BNF (Bibliothèque Nationale de France), Philharmonie de Paris and Radio France, containing detailed descriptions about music works. These institutions have adopted the Semantic Web technologies with the aim of making these data accessible to all and linked.The links creation becomes particularly difficult considering the high heterogeneity between the descriptions of the same entity. In this thesis, our main objective is to propose a generic data linking approach, dealing with certain challenges, for a concrete application on DOREMUS data. We focus on three major challenges: (1) reducing the tool configuration effort, (2) coping with different kinds of data heterogeneities across datasets and (3) dealing with datasets containing blocks of highly similar instances. Some of the existing linking approaches often require the user intervention during the linking process to configure some parameters. This may be a costly task for theuser who may not be an expert in the domain. Therefore, one of the researchquestions that arises is how to reduce human intervention as much as possible inthe process of data linking. Moreover, the data can show various heterogeneitiesthat a linking tool has to deal with. The descriptions can be expressed in differentnatural languages, with different vocabularies or with different values. The comparison can be complicated due to the variations according to three dimensions: value-based, ontological and logical. Another challenge is the distinction between highly similar but not equivalent resource descriptions. In their presence, most of the existing tools are reduced in efficiency generating false positive matches. In this perspective, some approaches have been proposed to identify a set of discriminative properties called keys. Very often, such approaches discover a very large number of keys. The question that arises is whether all keys can discover the same pairs of equivalent instances, or ifsome are more meaningful than others. No approach provides a strategy to classify the keys generated according to their effectiveness to discover the correct links.We developed Legato — a generic tool for automatic heterogeneous data linking.It is based on instance profiling to represent each resource as a textual documentof literals dealing with a variety of data heterogeneities. It implementsa filtering step of so-called problematic properties allowing to clean the data ofthe noise likely to make the comparison task difficult. To address the problem ofsimilar but distinct resources, Legato implements a key ranking algorithm calledRANKey.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque interuniversitaire. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.