Intégration sémantique de données de santé grâce à des ressources terminologiques multilingues et des services d'appariement collaboratif

par Nicolas Paris

Projet de thèse en Informatique

Sous la direction de Pierre Zweigenbaum.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , ILES - Information, Langue Ecrite et Signée (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-09-2017 .


  • Résumé

    Dans les hôpitaux du monde entier, des initiatives locales d'accumulation de données médicales permettent de mener des recherchent qui accroissent la connaissance médicale et bénéficient au soin des patients. Fédérer les données issues de ces initiatives locales augmenterait la puissance des conclusions qui en sont tirées. Cependant, peu de méthodes et d'outils permettent de fédérer des données de santé issues de sites différents, qui sont complexes et reposent souvent sur des référentiels différents dans leur langue et dans la nature et la couverture des concepts qu'ils représentent. Le processus de fédération des données passe par la conception de modèles de médiation, la fédération des référentiels s'appuie sur des ressources terminologiques multilingues spécialisées à large couverture. Ces deux aspects sont encore loin d'être aboutis et représentent des verrous auxquels s'attaquera cette thèse.

  • Titre traduit

    Optimizing semantic integration of healthcare data thanks to multilingual vocabulary resources and supportive collaborative matching services


  • Résumé

    In hospitals worldwide, local medical dataset constitution initiatives allow researchers to improve medical knowledge, with benefits for patient care. Federating the data obtained by these local initiatives would increase the power of the conclusions obtained from them. However, few methods and tools make it possible to federate health data originating from multiple sites, which are complex and often rely on different terminologies in terms of language and in terms of the nature and coverage of the concepts they represent. The federation process relies on the design of mediation models, while the federation of terminologies relies on large-coverage specialized multilingual terminology resources. These two processes are far from being perfect and constitute challenges which this thesis will address.