Partage de données biomédicales : modèles, sémantique et qualité

par Rémy Choquet

Thèse de doctorat en Informatique biomédicale

Sous la direction de Marie-Christine Jaulent.

Soutenue en 2011

à Paris 6 .


  • Résumé

    The amount of available data in information systems is constantly increasing and more and more efforts have been made in trying to interconnect this data in order to gain knowledge or meaning. Yet, these attempts at interconnecting such data have never been satisfactory enough when it comes to using the information at a wider scale. The origins of such difficulties are manifold. First, information is represented in many different structures. Second, the vocabulary used to express data is heterogeneous. Finally, the quality of the information is often too poor to be used and to withdraw any knowledge from it. Such observation applies specifically to the biomedical area where it is still difficult to agree on a common and shared representation (structures and vocabulary) concerning a particular sub-domain of the medical field. It would appear difficult in such a context to solve the problem of information sharing by imposing standard coding and standard information models. More recently, the introduction of semantics in the process of information sharing enables us to setup pivots representations which are independent from the structure or from the naming of the data. This thesis deals with the problematics of biomedical information sharing in the study of antibiotics resistance evolution to bacteries in Europe. Our general working hypothesis is : how can we share biomedical information in Europe in a non ambiguous way, in a fast way, and on demand ? Many issues are raised by this working hypothesis. We will deal with the issue of the quality of the data, the issue of the representation of data through their structure, their vocabulary, their semantics. We will also address the problems of alignment of data with domain ontologies. And the problem of data mediation helped with domain ontologies. We will then present a system of semantic interoperability based on rules which addresses the problem of semantic alignment of heterogeneous systems applied to our domain. Finally we will discuss how semantics can contribute to the improvement of information sharing and we will also discuss the limits of the current tools and methods

  • Titre traduit

    Sharing biomedical information : models, semantics and quality


  • Résumé

    Le volume de données disponibles dans les systèmes d’information est de plus en plus important et pour autant, nous n’avons jamais autant essayer d’interconnecter cette information pour en extraire de la connaissance sans véritable succès généralisable. L’origine du problème est multiple. Tout d’abord, l’information est représentée dans des structures différentes. Ensuite, les vocabulaires utilisés pour exprimer les données sont hétérogènes. Enfin, la qualité de l’information est souvent trop mauvaise pour utiliser une information et en déduire des connaissances. Ce diagnostic est d’autant plus vrai dans le cadre du partage d’information dans le domaine biomédical où il reste difficile de s’entendre sur des représentations (structures et vocabulaires) pivots d’un domaine de la médecine, et donc où il apparaît difficile de résoudre le problème du partage d’information par l’imposition de standard de codage et de structuration de l’information. Plus récemment, l’introduction de la sémantique dans des processus de partage d’information, nous offre la possibilité de mettre en oeuvre des représentations pivots indépendantes de la structuration ou du nommage d’une donnée. Cette thèse s’inscrit dans cette problématique de partage de données biomédicales dans le cadre de l’évaluation de l’évolution de la résistance des bactéries aux antibiotiques en Europe. L’hypothèse générale de travail que nous proposons est la suivante : comment partager de l’information biomédicale de manière non ambigüe, en temps réel, et à la demande en Europe. Cette hypothèse pose diverses problématiques que nous abordons dans ce mémoire. La problématique de la qualité des données. Celle de la représentation des données à travers leur structure, leur vocabulaire et de leur sémantique. Nous aborderons aussi les problèmes d’alignement de données aux ontologies de domaine et de la fédération de données aidée d’ontologie. Enfin, nous présenterons un système d’interopérabilité sémantique basé sur des règles qui aborde le problème d’alignement sémantique de systèmes hétérogènes appliqué à notre domaine. Nous discuterons finalement de l’apport de la sémantique pour le partage d’information et des limites des outils et méthodes actuels

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (196 p.)
  • Annexes : Bibliogr. p. 187-196. 101 réf. bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Section Biologie-Chimie-Physique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2011 467
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.