Interopérabilité sémantique et entreposage de données cliniques

par Ariane Assele Kama

Thèse de doctorat en Informatique Médicale

Sous la direction de Marie-Christine Jaulent.

Soutenue en 2013

à Paris 6 .


  • Résumé

    En médecine, les entrepôts de données permettent d’intégrer diverses sources de données à des fins d'analyses décisionnelles. Les données intégrées proviennent de sources souvent réparties et hétérogènes, dans le but de fournir une vue globale de l’information aux analystes et aux décideurs. L’entreposage de données en santé à des fins d’analyses décisionnelles pose la problématique de représentation des connaissances médicales en constante évolution, nécessitant l’utilisation de nouvelles méthodologies pour intégrer la dimension sémantique du domaine à analyser. La difficulté d’entreposage est liée à la complexité du domaine à décrire et à modéliser, mais surtout, au besoin d’associer la connaissance du domaine aux données. De ce fait, une des problématiques de recherche dans le domaine des entrepôts de données concerne la cohabitation de la connaissance et des données, et le rôle des ontologies dans la modélisation d'un entrepôt de données, l’intégration et l'exploitation des données. Ce travail de thèse, réalisé dans un laboratoire de recherche INSERM spécialisé en ingénierie des connaissances en santé (UMRS 872 EQ20), s’inscrit dans la problématique de modélisation, de partage et d’exploitation de données cliniques au sein d’une plateforme d’interopérabilité sémantique. Pour répondre à cette problématique, nous soutenons la thèse que : (i) l’intégration d’un modèle d’information normalisé avec un modèle de connaissance permet de mettre en oeuvre des entrepôts de données sémantiques dans le but d’optimiser l’exploitation des données; (ii) l’utilisation de ressources terminologiques et ontologiques aide à l’interconnexion de ressources distribuées et hétérogènes; (iii) la représentation des données impacte son exploitation et contribue à l’optimisation des systèmes décisionnels (ex. Outils de monitoring). En utilisant des méthodes et des outils innovants issus du Web Sémantique, nous avons optimisé l’intégration et l’exploitation de données cliniques pour la mise en œuvre d’un système de monitoring pour l’évaluation de l’évolution de la résistance bactérienne aux antibiotiques en Europe. Dans un premier temps, nous avons défini le modèle multidimensionnel d’un entrepôt de données sémantique, basé sur les standards existants tels que HL7. Nous avons par la suite, articulé ces données avec les connaissances du domaine des maladies infectieuses. Pour cela, nous avons représenté les données à travers leur structure, leur vocabulaire et leur sémantique, dans une ontologie dite « ontologie de définition de données », pour les aligner à l’ontologie de domaine via des règles de mapping. Nous avons proposé une méthode de génération semi-automatique de « l’ontologie de définition de données », à partir du schéma de la base de données, en nous appuyant sur des outils et résultats de projets existants. Enfin, l’entrepôt de données et les ressources sémantiques sont accessibles et exploités via un système d’interopérabilité sémantique développé dans le cadre du projet européen DebugIT et que nous avons expérimenté au sein de l'Hôpital européen Georges Pompidou.

  • Titre traduit

    Semantic interoperability and storage of clinical data


  • Résumé

    In medicine, data warehouses allow to integrate various data sources for decisional analysis. The integrated data often come from distributed and heterogeneous sources, in order to provide an overview of information to analysts and deciders. The clinical data warehousing raises the issue of medical knowledge representation constantly evolving, requiring the use of new methodologies to integrate the semantic dimension of the study domain. The storage problem is related to the complexity of the field to describe and model, but more importantly, to the need to combine domain knowledge with data. Therefore, one of the research topics in the field of data warehouses is about the cohabitation of knowledge and data, and the role of ontologies in data warehouse modeling, data integration and data mining. This work, carried out in an INSERM research laboratory specialized in knowledge health engineering (UMRS 872 EQ20), is part of issue on modeling, sharing and clinical data use, within a semantic interoperability platform. To address this issue, we support the thesis that: (i) the integration of a standardized information model with a knowledge model allows to implement semantic data warehouses in order to optimize the data use; (ii) the use of terminological and ontological resources aids the interconnection of distributed and heterogeneous resources; (iii) data representation impact its exploitation and helps to optimization of decision support systems (e. G. Monitoring tools). Using innovative methods and Semantic Web tools, we have optimized the integration and exploitation of clinical data for the implementation of a monitoring system to assess the evolution of bacterial resistance to antibiotics in Europe. As a first step, we defined the multidimensional model of a semantic data warehouse based on existing standards such as HL7. We subsequently articulated these data with domain knowledge of infectious diseases. For this, we have represented the data across their structure, vocabulary and semantics in an ontology called « data definition ontology », to map data to the domain ontology via mapping rules. We proposed a method for semi-automatic generation of « data definition ontology » from a database schema, using existing tools and projects results. Finally, the data warehouse and semantic resources are accessed and used via a semantic interoperability system developed in the framework of the DebugIT European project (Detecting and Eliminating Bacteria UsinG Information Technology), that we have experimented within the G. Pompidou university hospital (HEGP, France).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (203 p.)
  • Annexes : Bibliogr. p.173-187. Index

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque Biologie-Chimie-Physique Recherche.
  • Accessible pour le PEB
  • Cote : T PARIS 6 2013 359
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.