Thèse soutenue

Méthodes statistiques pour la modélisation de la distribution spatiale des espèces végétales à partir de grandes masses d’observations incertaines issues de programmes de sciences citoyennes
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Christophe Botella
Direction : Alexis JolyPascal MonestiezFrançois Julien Munoz
Type : Thèse de doctorat
Discipline(s) : Biostatistique
Date : Soutenance le 08/10/2019
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École Doctorale Information, Structures, Systèmes (Montpellier ; 2015)
Partenaire(s) de recherche : Laboratoire : Laboratoire AMAP - Laboratoire de modélisation mathématique et d'architecture des plantes (Montpellier)
Jury : Président / Présidente : Joseph Salmon
Examinateurs / Examinatrices : Alexis Joly, Pascal Monestiez, François Julien Munoz, Joseph Salmon, Janine Illian, Antoine Guisan, Joël Chadoeuf
Rapporteurs / Rapporteuses : Janine Illian, Antoine Guisan

Résumé

FR  |  
EN

L'expertise botanique humaine devient trop rare pour fournir les données de terrain nécessaires à la surveillance de la biodiversité végétale. L'utilisation d'observations botaniques géolocalisées des grands projets de sciences citoyennes, comme Pl@ntNet, ouvre des portes intéressantes pour le suivi temporel de la distribution des espèces de plantes. Pl@ntNet fourni des observations de flore identifiées automatiquement, un score de confiance, et peuvent être ainsi utilisées pour les modèles de distribution des espèces (SDM). Elles devraient permettre de surveiller les plantes envahissantes ou rares, ainsi que les effets des changements globaux sur les espèces, si nous parvenons à (i) prendre en compte de l'incertitude d'identification, (ii) correction les biais d'échantillonnage spatiaux, et (iii) prédire précisément les espèces à un grain spatial fin.Nous nous demandons d'abord si nous pouvons estimer des distributions réalistes d'espèces végétales envahissantes sur des occurrences automatiquement identifiées de Pl@ntNet, et quel est l'effet du filtrage avec un seuil de score de confiance. Le filtrage améliore les prédictions lorsque le niveau de confiance augmente jusqu'à ce que la taille de l'échantillon soit limitante. Les distributions prédites sont généralement cohérentes avec les données d'expertes, mais indiquent aussi des zones urbaines d'abondance dues à la culture ornementale et des nouvelles zones de présence.Ensuite, nous avons étudié la correction du biais d'échantillonnage spatial dans les SDM basés sur des présences seules. Nous avons d'abord analysé mathématiquement le biais lorsque les occurrences d'un groupe cible d'espèces (Target Group Background, TGB) sont utilisées comme points de fond, et comparé ce biais avec celui d'une sélection spatialement uniforme de points de base. Nous montrons alors que le biais de TGB est dû à la variation de l'abondance cumulée des espèces du groupe cible dans l'espace environnemental, qu'il est difficile de contrôler. Nous pouvons alternativement modéliser conjointement l'effort global d'observation avec les abondances de plusieurs espèces. Nous modélisons l'effort d'observation comme une fonction spatiale étagée définie sur un maillage de cellules géographiques. L'ajout d'espèces massivement observées au modèle réduit alors la variance d'estimation de l'effort d'observation et donc des modèles des autres espèces. Enfin, nous proposons un nouveau type de SDM basé sur des réseaux neuronaux convolutifs utilisant des images environnementales comme variables d'entrée. Ces modèles peuvent capturer des motifs spatiaux complexes de plusieurs variables environnementales. Nous proposons de partager l'architecture du réseau neuronal entre plusieurs espèces afin d'extraire des prédicteurs communs de haut niveau et de régulariser le modèle. Nos résultats montrent que ce modèle surpasse les SDM existants, et que la performance est améliorée en prédisant simultanément de nombreuses espèces, et sont confirmés par des campagnes d'évaluation coopérative de SDM menées sur des jeux de données indépendants. Cela supporte l'hypothèse selon laquelle il existe des modèles environnementaux communs décrivant la répartition de nombreuses espèces. Nos résultats supportent l'utilisation des occurrences Pl@ntnet pour la surveillance des invasions végétales. La modélisation conjointe de multiples espèces et de l'effort d'observation est une stratégie prometteuse qui transforme le problème des biais en un problème de variance d'estimation plus facile à contrôler. Cependant, l'effet de certains facteurs, comme le niveau d'anthropisation, sur l'abondance des espèces est difficile à séparer de celui sur l'effort d'observation avec les données d'occurrence. Ceci peut être résolu par une collecte complémentaire protocollée de données. Les méthodes d'apprentissage profond mises au point montrent de bonnes performances et pourraient être utilisées pour déployer des services de prédiction spatiale des espèces.