Apports de la fouille de données à la compréhension et la modélisation des interactions biologiques dans les sols

par Sara Si-Moussi

Projet de thèse en Ecologie fonctionnelle

Sous la direction de Mickael Hedde et de Esther Galbrun.

Thèses en préparation à Montpellier, SupAgro , dans le cadre de GAIA - Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau , en partenariat avec EcoSols - Ecologie fonctionnelle et biochimie des sols (laboratoire) depuis le 29-09-2017 .


  • Résumé

    La Terre subit de nombreux changements (climatiques, d'affectation des terres, de gestion agricole, perturbations chimiques, etc) à un rythme sans précédent. Un défi majeur pour les écologues est de comprendre et de prévoir les conséquences écologiques des modifications. Toutefois, les écologues font face à plusieurs limites dans l'analyse et la modélisation de la réponse des réseaux d'interactions biologiques dans les sols. D'une part, le sol est une matrice solide dans laquelle il est difficile d'observer et de caractériser la présence/l'activité des organismes. D'autre part, les interactions biologiques sont difficilement observables dans les sols. Il est donc nécessaire d'inférer la probabilité de relation entre deux organismes à partir d'autres proxys, tels les traits fonctionnels. Il est théoriquement possible d'inférer la probabilité d'interaction entre deux organismes sur la base de leur distribution et de règles d'interaction, avec un apport substantiel des approches basées sur les traits fonctionnels. Toutefois, la masse de connaissances sur la distribution et les traits des organismes du sol est disséminée, sous de multiples formats (texte, tableur), et est caractérisée par de fortes hétérogénéités sémantiques et conceptuelles. Une première étape consiste donc à collecter les données et les regrouper sous une forme centralisée, structurée et exploitable. Le traitement des quantités de textes disponibles sur la distribution et les traits fonctionnels des organismes des sols dans les sources bibliographiques se fera par des outils de fouille de texte automatique quand cela est possible. Ils faciliteront à minima le repérage des documents et des parties de documents susceptibles de contenir des informations d'intérêt. Une fois regroupées sous une forme structurée dans une base, la deuxième étape consiste à analyser ces données afin d'en extraire de nouvelles connaissances. Des techniques de fouille de données, telles que l'extraction de règles d'associations (Agrawal et al. 1993), la fouille de redescriptions (Ramakrishnan et al. 2004) ou la fouille de graphes et l'identification de communautés devront être adaptées dans le contexte de l'étude d'écosystèmes pour obtenir des représentations pertinentes pouvant servir de base à leur modélisation. La troisième étape vise donc à modéliser la distribution des espèces et des réseaux. Dans un premier temps, des analyses spatiales de réseaux seront réalisées pour comprendre comment l'environnement influence spatialement les réseaux d'interactions, leur diversité et leur variation dans l'espace. Cela sera fait en développant des approches prenant en compte les similitudes en termes de liens entre réseaux, mais aussi les structures fonctionnelles et phylogénétiques des assemblages multi-trophiques. Dans un second temps, l'étudiant tentera de modéliser la distribution des espèces ciblées conditionnellement aux autres via des approches de modèles hiérarchiques à structure cachées. Les objectifs de ce travail de thèse sont d'acquérir, de fouiller et de modéliser la connaissance sur la biodiversité du sol pour être à même de prévoir les effets des changements environnementaux. Ces objectifs mobilisent de facto des compétences multidisciplinaires pour faire converger fouille de texte/données, écologie des sols et modélisation.

  • Titre traduit

    Contribution of data mining to the understanding and modeling of biological interactions in soils


  • Résumé

    The Earth is undergoing many changes (climatic, land use, agricultural management, chemical disturbances, etc.) at an unprecedented pace. A major challenge for ecologists is understanding and predicting the ecological consequences of the changes. However, ecologists face several limitations in the analysis and modeling of the response of biological interactions networks in soils. On the one hand, soil is a solid matrix in which it is difficult to observe and characterize the presence / activity of organisms. On the other hand, biological interactions are difficult to observe in soils. It is therefore necessary to infer the probability of relationship between two organisms from other proxies, such as functional traits. It is theoretically possible to infer the probability of interaction between two organisms based on their distribution and rules of interaction, with a substantial contribution from the functional-based approaches. However, the mass of knowledge on the distribution and traits of soil organisms is disseminated in multiple formats (text, spreadsheet), and is characterized by strong semantic and conceptual heterogeneities. A first step is to collect the data and group it in a centralized, structured, and exploitable form. The processing of the quantities of texts available on the distribution and functional traits of soil organisms in bibliographic sources will be done by automatic text search tools whenever possible. They will at least facilitate the identification of documents and parts of documents likely to contain information of interest. Once grouped together in a structured form in a database, the second step consists in analyzing these data to extract new knowledge. Data mining techniques, such as the extraction of association rules (Agrawal et al., 1993), redescription mining (Ramakrishnan et al., 2004) or graph mining and the identification of communities must be adapted to the the context of the study of ecosystems to obtain relevant representations that can serve as a basis for their modeling. The third step is therefore to model the distribution of species and networks. Initially, spatial analyzes of networks will be carried out to understand how the environment spatially influences networks of interactions, their diversity, and their variation in space. This will be done by developing approaches that consider the similarities in terms of linkages between networks but also the functional and phylogenetic structures of multi-trophic assemblies. In a second step, the student will attempt to model the distribution of conditionally targeted species by means of hierarchical models with hidden structures. The objectives of this thesis are to acquire, extract and model knowledge on soil biodiversity to be able to predict the effects of environmental changes. These objectives mobilize multidisciplinary skills to converge text / data excavation, soil ecology and modeling.