Méthodes statistiques pour la modélisation de la distribution spatiale des espèces végétales à partir de grandes masses d'observations incertaines issues de programmes de sciences citoyennes

par Christophe Botella

Projet de thèse en Biostatistique

Sous la direction de Alexis Joly et de Pascal Monestiez.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec AMAP - botAnique et Modélisation de l'Architecture des Plantes et des végétations (laboratoire) et de ORGANISATION ET DYNAMIQUE DES PEUPLEMENTS ET DES PAYSAGES VEGETAUX (EQ.3) (equipe de recherche) depuis le 01-10-2016 .


  • Résumé

    Les gestionnaires, les biologistes de la conservation, et les décideurs politiques, ont besoin de cartes fiables et récentes de la distribution des espèces, restituant à la fois les distributions actuelles connues, mais aussi les distributions potentielles futures selon différents scénarios. Les données disponibles pour la réalisation de ces modèles sont souvent limitées de par le petit nombre d'experts en capacité de contribuer à ces inventaires, et le coût de mise à jour des inventaires institutionnels. Grâce aux approches participatives et à l'exploitation de systèmes de reconnaissance visuelle pour l'identification automatisée des plantes sur smartphone, nous disposons dans le cadre de l'initiative Pl@ntNet d'un flux de données botaniques de plusieurs dizaines de milliers d'observations par jour. Le volume, la vélocité et l'incertitude des données alimentant ce flux posent de nouvelles questions de recherche difficiles à la frontière entre l'écologie, les statistiques et la fouille de données, pour leur exploitation pour la modélisation de la distribution des espèces. Pour mener à bien cette étude, nous proposons d'exploiter la base d'observations de Pl@ntNet, ainsi que d'autres bases de données nationales (issues des Conservatoires botaniques et de la base Sophy [Garbolino & al., 2012]) d'une part, et des informations issues de bases de données environnementales d'autre part. Les challenges à relever dans ce contexte sont : (i) développer des modèles statistiques aptes à gérer l'incertitude d'identification et corriger les différents biais affectant les données utilisées, (ii) la définition et l'utilisation de l'information environnementale pertinente pour caractériser les habitats écologiques de manière à prédire les distributions sous une évolution climatique, (iii) la caractérisation de l'influence des activités humaines dans la modélisation.

  • Titre traduit

    Statisctial methods for plant species spatial distribution using uncertain data from citizen science programms


  • Résumé

    Managers, conservation biologists and political deciders need reliable and recent species distribution maps displaying both current spatial distribution, and potential future distribution relatively to different scenarios. Scientific data adapted for such maps are limited because of the rarity of experts able to sample spatial identification information and institutional inventory updating cost. Thanks to citizen sciences approachs and visual recognition technology for automatized plant species identification on smartphones, in the Pl@ntNet project framework we have in hands a data flow of several thousands of botanical observations every day. Volume, velocity and uncertainty of these data bring new difficult research questions, at the border between statistics, ecology and data sciences, in order to exploit them for modelling spatial distribution of species. To achieve this study, we propose to exploit Pl@ntNet database, along with other national databases (from botanical conservatory and Sophy [Garbolino & al., 2012]), and environmental databases.Challenges to tackle in this context are : (i) development of statsticial models able to handle uncertainty and correct the different biais affecting our data (ii) definition and use of relevant environmental information for characterising ecological habitats in order to predict future distributions, (iii) characterization of human activity influence in the modelisation.