MÉTHODES GÉNÉRIQUES DE SURVEILLANCE ÉPIDÉMIOLOGIQUE FONDÉES SUR L'INTÉGRATIONDE DONNÉES TEXTUELLES HÉTÉROGÈNES

par Mehtab alam Syed

Projet de thèse en Informatique

Sous la direction de Mathieu Roche et de Maguelonne Teisseire.

Thèses en préparation à Montpellier , dans le cadre de École Doctorale Information, Structures, Systèmes , en partenariat avec TETIS - Territoire Environnement Teledetection et Information Spatiale (laboratoire) depuis le 04-01-2021 .


  • Résumé

    Plusieurs systèmes de veille ont été conçus pour automatiser la surveillance des sources en ligne en s'intéressant à un large éventail de menaces pour la santé, par exemple MedISys, HealthMap, GPHIN, ProMED ou PADI-web. PADI-web (Platform for Automated Extraction of Disease Information from the Web) est un système automatisé dédié à la veille du Web pour la détection des maladies infectieuses en santé animale. Le travail de doctorat porte sur le développement de méthodes génériques afin d'extraire des événements nouveaux et pertinents dans des données textuelles hétérogènes dans un contexte One Health ('PADI-web One Health'). Objectifs: 1) Extraction d'événements dans un contexte One Health - Comment définir l'extraction d'événement dans un contexte One Health ? - Comment convertir des informations spatiales du langage naturel en données géoréférencées ? - Comment intégrer les descripteurs de sentiment pour l'identification des signaux faibles ? 2) Extraction d'événements nouveaux et pertinents issus des médias - Comment extraire de nouvelles informations dans des données textuelles hétérogènes et multilingues à partir des médias ? - Comment comparer les informations des données officielles et non officielles (média) ? - Comment intégrer des critères de qualité (sources, données, méthodes de TALN utilisées) afin de classer / identifier les informations épidémiologiques ?

  • Titre traduit

    GENERIC METHODS FOR EPIDEMIOLOGICAL MONITORING BASED ON THE INTEGRATION OFHETEROGENEOUS TEXTUAL DATA


  • Résumé

    Several surveillance systems were designed to automatize the monitoring of online sources regarding a wide range of health threats, e.g. MedISys, HealthMap, GPHIN, ProMED or PADI-web. PADI-web (Platform for Automated extraction of Disease Information from the web) is an automated system dedicated to Web monitoring for the detection of animal health infectious diseases. The PhD work deals with the development of generic methods in order to extract new and relevant event in heterogeneous data textual in a One Health context ('PADIweb One Health'). Objectives: 1) Event extraction in a One Health context: - How to define event extraction in a One Health context? - How to covert spatial information in natural language into georeferenced data? - How to integrate sentiment features for weak signal identification? 2) Extraction of new and relevant event in media - How to extract new information in heterogenous and multilingual textual data from media? - How to compare information from official and unofficial (media data)? - How to integrate quality criteria (sources, data, NLP methods used) in order to rank/highlight epidemiologic information?