Construction d'une mémoire des sites potentiellement pollués à l'aide de méthodes de traitement automatique des langues
Auteur / Autrice : | Chuanming Dong |
Direction : | Catherine Domingues |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 06/11/2023 |
Etablissement(s) : | Université Gustave Eiffel |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2010-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire en Sciences et technologies de l'information géographique (Champs-sur-Marne, Seine-et-Marne) - Laboratoire en Sciences et technologies de l'information géographique (Champs-sur-Marne, Seine-et-Marne) |
Jury : | Examinateurs / Examinatrices : Catherine Domingues, Delphine Battistelli, Thierry Poibeau, Davide Buscaldi, Mathieu Constant, Philippe Gambette, Geoffroy Séré |
Rapporteurs / Rapporteuses : Delphine Battistelli, Thierry Poibeau |
Mots clés
Mots clés contrôlés
Résumé
Le but de ma thèse est de construire une mémoire des sites polluées sous la forme d'une base de données unique (BDU), qui rassemble et réorganise les informations concernant les activités et les événements industriels, ainsi que les autres informations pertinentes qui caractérisent les sites industriels en France. La construction de la BDU est fondée sur les bases de données institutionnelles déjà existantes concernant les sites industriels, dans lesquelles les activités et les événements industriels sont caractérisés à la fois par les champs attributaires et les textes descriptifs non structurés. Cette thèse traite les problèmes concernant l'appariement des données dans différentes bases de données, ainsi que l'extraction des informations caractérisant les activités et les événements industriels à partir des textes. Différentes tâches ont été réalisées pour construire la mémoire des sites. Les bases de données ont été appariées par la comparaison entre les champs attributaires pour standardiser les données et construire la base de la BDU; les informations concernant les activités et les événements industriels ont été extraites et structurées avant d'être enregistrées dans la BDU. Les bases de données institutionnelles concernant les sites industriels enregistrent des connaissances écologiques, et elles contiennent un grand volume de données textuelles, ce qui signifie que pour traiter les données dans ces bases de données, il est nécessaire d'utiliser les méthodes et les outils de traitement automatique des langues. La thèse se situe ainsi dans un domaine pluridisciplinaire combinant informatique, linguistique et écologie