Immersing evolving geographic divisions in the semantic Web

par Camille Bernard

Thèse de doctorat en Informatique

Sous la direction de Jérôme Gensel et de Quoc-Hy Dao.

Soutenue le 27-11-2019

à l'Université Grenoble Alpes (ComUE) , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'informatique de Grenoble (laboratoire) et de STEAMER (équipe de recherche) .

  • Titre traduit

    Immersion dans le Web sémantique de découpages géographiques en évolution


  • Résumé

    De nos jours, le volume de données provenant du secteur public augmente rapidement dans le Web des données ouvertes. La plupart des données proviennent d’organismes gouvernementaux tels que des instituts officiels de statistique et de cartographie. Ensemble, ces institutions publient des statistiques géo-codées qui revêtent une importance capitale pour que les responsables politiques mènent diverses analyses de leur territoire, dans le temps et dans l’espace. Cependant, au cours du temps et partout dans le monde, les divisions (administratives ou électorales par exemple) de ces territoires (portions d’espace sur la terre) délimités par des groupes humains (ou sous le contrôle de groupes humains) sont sujettes à modifications : leur nom, appartenance ou leurs frontières changent pour des raisons politiques ou administratives. De même, les Nomenclatures Statistiques Territoriales (acronyme TSN en anglais), qui regroupent différentes zones géographiques, artefacts construits par des instituts statistiques mais dérivant généralement de structures électorales ou administratives, changent dans le temps et à plusieurs niveaux du territoire (e.g., régions, départements, communes, etc.). Ces changements sont un obstacle à la comparabilité des données socio-économiques dans le temps, celle-ci n’étant possible qu’à la condition d’estimer les données dans un même découpage géographique, un processus compliqué qui finit par masquer les changements territoriaux. Ces changements territoriaux entraînent donc des ruptures dans les séries statistiques et sont à l’origine d’interprétations erronées ou de biais statistiques lorsqu’ils ne sont pas correctement documentés. Par conséquent, des solutions pour représenter différentes versions de TSNs et leurs évolutions dans le Web des Données Ouvertes doivent être proposées afin d’améliorer la compréhension des dynamiques territoriales.Dans cette thèse, nous présentons un cadriciel nommé Theseus Framework. Theseus adopte les technologies du Web sémantique et représente les découpages géographiques et leurs évolutions au cours du temps sous forme de données ouvertes et liées (Linked Open Data (LOD) en anglais). Theseus est composé d’un ensemble de modules permettant la gestion du cycle de vie des TSNs dans le LOD Web : de la modélisation des zones géographiques et de leurs changements au cours du temps, à la détection automatique des changements et à l’exploitation de ces descriptions dans le LOD Web. L’ensemble des modules logiciels reposent sur deux ontologies nommées TSN Ontology et TSN-Change Ontology, que nous avons conçues pour une description non ambiguë des zones géographiques dans le temps et dans l’espace, ainsi que pour la description de leurs modifications au cours du temps.Ce cadriciel s’adresse tout d’abord aux agences statistiques, car il facilite considérablement la mise en conformité de leurs données géographiques, support à l’information statistique avec les directives Open Data. De plus, les graphes de données liées créés améliorent la compréhension des dynamiques territoriales au cours du temps, en fournissant aux décideurs politiques, aux chercheurs et au grand public des descriptions sémantiques des changements territoriaux afin de réaliser diverses analyses de leur territoire. L’applicabilité et la généricité de notre approche sont illustrées par trois tests du cadriciel Theseus menés sur trois TSN officielles : La Nomenclature européenne des unités territoriales statistiques (versions 1999, 2003, 2006 et 2010) de Institut statistique Européen Eurostat; les unités administratives suisses de l’Office fédéral de la statistique Suisse, décrivant les cantons, districts et communes de la Suisse en 2017 et 2018 ; l’Australian Statistical Geography Standard, construit par le Bureau australien de la statistique, composé de sept divisions imbriquées du territoire australien, dans les versions 2011 et 2016.


  • Résumé

    Nowadays, the volume of data coming from the public sector is growing rapidly on the Open Data Web. Most of data come from governmental agencies such as Statistical and Mapping Agencies. Together, these public institutions publish geo-coded statistics that are of utmost importance for policy-makers to conduct various analyses upon their jurisdiction, in time and space. However, through times, all over the world, the subdivisions of such ju- risdictions (portions of space on Earth) delimited by or, under the control of human groups (e.g., administrative or electoral areas) are subject to change: their names, belonging or boundaries change for political or administrative reasons. Likewise, the Territorial Statistical Nomenclatures (TSNs) that are sets of artifact areas (although they usually correspond to political or administrative structures) built by Statistical Agencies to observe a territory at several levels (e.g., regions, districts, sub-districts) also change over time. Changes in TSNs are an obstacle to maintain the comparability of socio-economic data over time, unless past data are recalculated according to present geographic areas, a complicated process that, in the end, hide the territorial changes. Then, territorial changes lead to breaks in the statistical series, and are sources of misinterpretations of statistics, or statistical bias when not properly documented. Therefore, solutions for representing different versions of TSNs, and their evolution on the Open Data Web are to be proposed in order to enhance the understanding of territorial dynamics.In this thesis, we present the Theseus Framework with reference to philosophical issue raised by the Ship of Theseus that, according to legend, was rebuilt entirely over the years, every plank of the ship being replaced one by one. This software framework adopts Semantic Web technologies and Linked Open Data (LOD) representation for the description of the TSNs’ areas, and of their changes: this guaranties the syntactic and, moreover, semantic interoperability between systems exchanging TSN information. Theseus is composed of a set of modules to handle the whole TSN data life cycle on the LOD Web: from the modeling of geographic areas and of their changes, to the exploitation of these descriptions on the LOD Web. All the software modules rely on two ontologies, TSN Ontology and TSN-Change Ontology, we have designed for an unambiguous description of the areas in time and space, and for the description of their changes. In order to automate the detection of such changes in TSN geospatial files, Theseus embeds an implementation of the TSN Semantic Matching Algorithm that computes LOD semantic graphs describing all the TSN elements and their evolution, based on the vocabulary of the two ontologies.This framework is intended first for the Statistical Agencies, since it considerably helps in complying with Open Data directives, by automating the publication of Open Data representation of their geographic areas that change over time. Second, the created LOD graphs enhance the understanding of territorial dynamics over time, providing policy-makers, researchers, general public with semantic descriptions of territorial changes to conduct various analyses upon their jurisdiction, in time and space. The applicability and genericity of our approach is illustrated by three tests of Theseus, each of them being led on three official TSNs: The European Nomenclature of Territorial Units for Statistics (NUTS) (versions 1999, 2003, 2006, and 2010) from the European Eurostat Statistical Institute; The Switzerland Administrative Units (SAU), from The Swiss Federal Statistical Office, that describes the cantons, districts and municipalities of Switzerland in 2017 and 2018; The Australian Statistical Geography Standard (ASGS), built by the Australian Bureau of Statistics, composed of seven nested divisions of the Australian territory, in versions 2011 and 2016.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Université Grenoble Alpes. Bibliothèque et Appui à la Science Ouverte. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.