Apports de la fouille de données à la compréhension et la modélisation des interactions biologiques dans les sols

par Sara Si-Moussi

Projet de thèse en Ecologie fonctionnelle

Sous la direction de Mickael Hedde et de Esther Galbrun.

Thèses en préparation à Montpellier, SupAgro , dans le cadre de GAIA - Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau , en partenariat avec EcoSols - Ecologie fonctionnelle et biochimie des sols (laboratoire) depuis le 29-09-2017 .


  • Résumé

    Des décennies de recherche en écologie ont démontré que la biodiversité du fait des espèces qui la composent et leurs interactions est le vecteur support du fonctionnement des écosystèmes. Cela dit, avec l'avènement des changements globaux, nous assistons aujourd'hui à une énorme perte de biodiversité. Cet impact est d'autant plus amplifié par les effets de cascade à travers les interactions interspécifiques. Il est donc nécessaire d'anticiper cet impact. Pour ce faire, les scientifiques cherchent à comprendre et quantifier le lien entre biodiversité et environnement abiotique ainsi que les interactions interspécifiques. Cette problématique globale se décline dans diverses disciplines de l'écologie avec des focus différents souvent travaillant isolément les unes des autres. Ceci a conduit à une dissémination de la connaissance écologique et soulève la nécessité d'intégrer les résultats de ces divers champs de recherche. Dans les sols, la biodiversité est une des plus riches mais aussi l'une des plus complexes à observer et à quantifier. Néanmoins, avec l'avènement des méthodes d'identification basées sur l'ADN environnemental et la disponibilité de données expérimentales, certains verrous commencent à être levés. De plus, le développement des approches basées sur les traits fonctionnels des espèces fournit un cadre pour inférer les processus écologiques qui ne peuvent être observés directement dans le sol. L'analyse des données écologiques, l'organisation des connaissances et la modélisation de processus écologiques profite de l'émergence et la généralisation des outils de la science des données. Ceci crée un cadre d'échange interdisciplinaire entre sciences de l'information et écologie. Ma thèse s'inscrit dans ce contexte. Au cours de ma thèse, je me penche sur la question de l'impact des changements globaux sur la biodiversité à l'échelle des communautés et ses conséquences sur le fonctionnement des écosystèmes. En premier lieu, j'essaie de modéliser la distribution géographique des espèces en réponse à des contextes pédoclimatiques et anthropologiques variables par des méthodes d'apprentissage profond capables de capturer des motifs spatiaux complexes, appliqué aux Lombriciens de France (Bouché 1972). Ensuite, je m'intéresse à la prédiction des interactions entre taxons en utilisant des approches hybrides combinant du machine learning et de la connaissance d'expert (taxonomie, phylogénie et traits fonctionnels) acquise dans les bases de données scientifiques et par fouille de textes scientifiques. Ces méthodes hybrides seront utilisées pour reconstruire des réseaux d'interaction écologiques à partir d'ADN prélevé sur divers sites sur un gradient de conditions pédoclimatiques. L'objectif est d'évaluer la variabilité des propriétés de ces réseaux en réponse à des changements de facteurs externes (climat, pédologie, pratiques agricoles) et leur conséquence sur les fonctions portées par la communauté. On s'intéresse en particulier à la variabilité de la structure topologique en se basant sur des indices de diversité classique en écologie. Tandis que le lien réseau-fonction est assuré par la structure fonctionnelle de la communauté (groupes trophiques, groupes fonctionnels) inférée par des méthodes de détection de communauté issues de la théorie des graphes.

  • Titre traduit

    Contribution of data mining to the understanding and modeling of biological interactions in soils


  • Résumé

    Decades of ecological research proved that biodiversity through its component taxa and their interactions is the support of ecosystem functioning. However, global changes have induced huge losses of biodiversity, amplified by cascading effects through networks of ecological interactions. It is thus necessary to forecast this impact by looking into quantifying the link between biodiversity and the abiotic environment. This question is at the intersection of many ecological research fields which working on it in isolation, which led to disseminated knowledge that is necessary to integrate altogether in a systemic way. Soil biodiversity is one of the richest and the most complex to observe and quantify. However, recent molecular identification techniques based on environmental DNA allow to overpass this limit. Furthermore, functional traits approaches allow to infer ecological processes that cannot be observed directly in soil. The analysis of such data, the management of knowledge bases and the modeling of ecological processes would benefit greatly of data science tools. My thesis lies at the interface of these two domains. During my thesis, I address the question of global changes impact on biodiversity at the community scale as well as the consequences on ecosystem functioning. At first, I attempt to model geographic distribution of species in response to an anthropological and abiotic context through deep learning approaches that capture nonlinear patterns of complex spatial data. I apply this to the “Lombriciens de France” dataset (Bouché 1972). Besides, I develop hybrid approaches to predict interspecific interactions by combining machine learning techniques and expert knowledge (taxonomy, phylogeny and functional traits) acquired from scientific databases and through scientific text information extraction. These methods will serve to infer networks of ecological interactions from identified eDNA samples, extracted on a gradient of abiotic conditions: climate, altitude and soil usage. The objective is to evaluate the variability of ecological networks properties in response to changes in the environment and what it induces as changes on measured functions. We focus particularly on the variability of the topological structure of the network through classical diversity indices. Finally, the network-function link is ensured by the functional structure of the community (trophic groups, functional groups) as a property that emerges from the network, that we infer using community detection techniques from graph theory.