Construction et validation d'indicateurs syndromiques de surveillance réactive de la mortalité fondés sur les causes médicales de décès, à partir de méthode de traitement automatique du langage

par Yasmine Baghdadi

Projet de thèse en Santé publique - épidémiologie

Sous la direction de Anne Gallay et de Anne Fouillet.

Thèses en préparation à Paris Est , dans le cadre de École doctorale Santé Publique (Le Kremlin-Bicêtre, Val-de-Marne ; 2015-...) , en partenariat avec Santé Publique France (laboratoire) et de Direction appui, traitements et analyses de données (equipe de recherche) depuis le 01-10-2016 .


  • Résumé

    La surveillance de la mortalité est essentielle à la caractérisation de l'impact d'un évènement sanitaire et à l'évaluation de l'état de santé de la population. La capacité d'analyse en temps réel de la mortalité se limite pour l'instant à l'exploitation statistique quantitative des données démographiques issues des bureaux d'état-civils. L'Inserm-CépiDc met à disposition des données de mortalité analysables par cause médicales mais celles-ci sont disponibles dans un délai long. La certification électronique mise en place depuis 2007 donne accès aux textes bruts des causes de décès, mais ceux-ci sont difficilement analysables en l'état en temps quasi-réel. L'objectif majeur de ce projet est donc de développer ou identifier et mettre en œuvre de façon opérationnelle une méthode de traitement du langage afin de transformer ces données brutes en indicateurs syndromiques dans le but d'une surveillance réactive et en routine. Pour cela il faudra dans définir des indicateurs syndromiques pertinents à surveiller, puis analyser les textes bruts des causes de décès des certificats électroniques à l'aide d'outil de traitement du langage. Enfin les indicateurs identifiés devront être évalués. Les résultats de ces travaux devront permettre la mise en œuvre opérationnelle de la surveillance en routine des indicateurs syndromiques.

  • Titre traduit

    Elaboration and validation of syndromic surveillance indicators for real-time surveillance based on free-text medical causes of death, using natural language processing (NLP) tools


  • Résumé

    The surveillance of mortality is essential in the characterization of the impact of a sanitary event and in the evaluation of the population health. Real time mortality analysis is limited to the quantitative statistical exploitation of the demographic data from office of civil status. Inserm-CépiDc gives data which can be analyze by medical causes of death but the period of time of availability is too long. The electronic death certificate set up in 2007 gives medical causes of death in plain-text but these are difficult to analyze in real time. Thus, the main objective of this project is to develop or identify and implement in an operational way a method of automatic language treatment to transform those plain-text into syndromics indicators to set up a reactive and routine surveillance. So it will be necessary to define relevant syndromic indicators to watch, then to analyze the plain-text of electronic death certificate using automatic language treatment tools. Finally, we will evaluate the indicators built. The results of this work will have to allow the operational implementation of the routine surveillance of the syndromic indicators.