Méthodes d'apprentissage statistique pour la classification automatique des cultures et la prévision de rendements à grande échelle.

par Walid Hammache

Projet de thèse en Mathématiques appliquées

Sous la direction de Paul-Henry CournÈde.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Approches interdisciplinaires : fondements, applications et innovation (Palaiseau, Essonne) , en partenariat avec Mathématiques et Informatique pour la Complexité et les Systèmes - EA 4037 (laboratoire) et de CentraleSupélec (2015-....) (établissement de préparation de la thèse) depuis le 01-02-2017 .


  • Résumé

    La connaissance anticipée des rendements agricoles est un enjeu majeur en agriculture: dans un bassin de production, pour prévoir la logistique de récole; à l'échelle d'un pays, pour anticiper des crises agricoles (telle celle de 2016 en France) ou même des crises alimentaires dans les pays les plus pauvres. Les applications d'une meilleure anticipation sont également essentielles pour les assureurs ou les acteurs des marchés de matières premières agricoles. Le but de la thèse est donc de développer des méthodes permettant de prévoir les rendements agricoles pour les principales cultures. L'approche est basée sur l'utilisation des données d'imagerie (en particulier issues des satellites), les données environnementales et les modèles mécanistes de cultures. La première étape concerne la segmentation des images et la classification des cultures. CybeleTech a développé un algorithme pour l'apprentissage des réseaux de neurones multi-couches, et ces réseaux seront utilisés dans un premier temps pour réaliser l'apprentissage de façon supervisée, grâce à une première base de données d'images de culture de maïs à maturité. Les performances du classifieur pourront être comparées avec d'autres méthodes de la littérature. Dans un deuxième temps il s'agira d'utiliser les séries temporelles d'images, l'idée étant d'utiliser la dynamique de croissance pour améliorer le classifieur. La classification sera ensuite généralisée au cas non supervisé, de façon à pouvoir gérer des bases de données très variées (pour lesquelles il n'y a pas toujours de classification de référence). De façon à généraliser en grande échelle, la portabilité des méthodes sur des architectures HPC sera étudiée. La deuxième étape concerne la prévision des rendements à grande échelle. Après la première étape de classification, il s'agira de prévoir les rendements à l'échelle d'un bassin de production ou même d'un pays en fonction des données environnementales. Deux approches seront comparées: approche par modèles mécanistes (différents modèles développés par CybeleTech ou Centrale) ou approches purement basées sur les données (par apprentissage statistique). La prévision utilisera à la fois l'approche par scénarios climatiques mais également la mise à jour par assimilation de données. Là aussi les aspects de passage à l'échelle par portabilité des méthodes sur architecture HPC seront étudiées. Finalement, il s'agira de démontrer comment les résultats obtenus peuvent être utilisés pour des applications, en particulier dans le domaine de l'assurance récolte mais également à la classification environnementale pour le choix d'une culture / variété optimale par exemple.

  • Titre traduit

    Machine learning methods for automatic crop classification and prediction of yields on a large scale


  • Résumé

    Foreknowledge of agricultural yields is a major challenge in agriculture: in a production basin, to predict Harvest logistics; in one country, to anticipate agricultural crises (such as that of 2016 in France) or even food crises in the poorest countries. The applications of better anticipation are also essential for insurers or players in agricultural raw materials markets. this thesis aims is to develop methods for predicting agricultural yields for the main crops. The approach is based on the use of imagery data (in particular produced by satellites), environmental data and mechanistic models of crops. The first step concerns images segmentation and crop classification. CybeleTech has developed an algorithm for learning multilayer neural networks, that will be used initially to perform supervised learning, using a first database of maize crop images at maturity. The performance of the classifier can be compared with other methods of the literature. In a second time, we will use the time series of images, the idea being to use the dynamics of growth to improve the classifier. The classification will then be generalized to the unsupervised case, so as to be able to manage very varied databases (for which there is not always a reference classification). In order to generalize on a large scale, the portability of the methods on HPC architectures will be studied. The second step concerns yields prediction on a large-scale. After the first step of classification, the purpose is to predict the yields in a production basin or even in a country according to the environmental data. Two approaches will be compared: a mechanistic model approach (different models developed by CybeleTech or Centrale) or data-based approaches (by machine learning). The prediction will use both the climate scenario approach and the data assimilation update. Here again, the aspects of scaling through portability of methods on HPC architecture will be studied. Finally, the purpose is to demonstrate how the results obtained can be used for applications, in particular in the crop insurance field but also to the environmental classification for the choice of an optimum crop/variety for example.