Thèse soutenue

Apprentissage par renforcement pour l'aide à la conduite des cultures des petits agriculteurs des pays du Sud ˸ vers la maîtrise des risques.

FR  |  
EN
Auteur / Autrice : Romain Gautron
Direction : Marc CorbeelsPhilippe PreuxOdalric-Ambrym Maillard
Type : Thèse de doctorat
Discipline(s) : Apprentissage automatique appliqué à l'agronomie
Date : Soutenance le 09/12/2022
Etablissement(s) : Montpellier, SupAgro
Ecole(s) doctorale(s) : Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau
Partenaire(s) de recherche : Laboratoire : Agroécologie et intensification durable des cultures annuelles (Montpellier)
Jury : Président / Présidente : David Makowski
Examinateurs / Examinatrices : Marc Corbeels, Philippe Preux, Odalric-Ambrym Maillard, David Makowski, Jean-Noël Aubertot, Ronan Trépos, Audrey Durand
Rapporteurs / Rapporteuses : David Makowski, Jean-Noël Aubertot

Résumé

FR  |  
EN

Un itinéraire technique est défini comme la suite logique et ordonnée d'opérations culturales appliquées à une parcelle dans le but d'atteindre des objectifs de production donnés. Ces séquences de décisions d'opérations culturales ne sont pas triviales, du fait qu'elles font face à des évènements incertains, comme les évènements météorologiques. Après plusieurs décennies de développement de logiciels informatiques dédiés à l'aide à la décision pour les itinéraires techniques, ces logiciels(décision support systems en anglais) sont toujours peu adoptés en pratique. Les utilisateurs ont jugé que l'information ne peut pas être directement traduite en actions, que les processus cognitifs des agriculteurs ne sont pas bien pris en compte, que le caractère séquentiel des prises de décision n'est pas bien modélisé ou encore que la gestion du risque dans les décisions manque.L'apprentissage par renforcement (AR) est un domaine de l'apprentissage automatique qui s'attache au contrôle des systèmes dynamiques, incertains et inconnus. L'AR traite de manière inhérente avecde séquences d'actions aux conséquences incertaines, et partage des similarités avec la manière dont les agriculteurs abordent la conduite des cultures, e.g. apprentissage par essai-erreur. Cependant,la littérature montre très peu d'applications de l'AR pour la conduite des cultures. L'AR requiert généralement des millions d'interactions pour résoudre des problèmes simples comparés à celui dela conduite des cultures. Nous étudions comment l'AR peut améliorer la prise de décision pour les itinéraires techniques, en particulier pour les petits agriculteurs des régions du Sud. Dans ce contexte,l'aide à la conduite des cultures est ardue, du fait de la faible disponibilité des données et de la grande variabilité des rendements dans les systèmes non irrigués.Nous proposons une méthode générique pour convertir des modèles de culture en environnements d'apprentissage par renforcement faciles à manipuler et standardisés. Ces environnements permettent d'entraîner des agents d'AR avec un coût de calcul négligeable. En conditions simulées, à l'aide d'un algorithme d'AR, nous apprenons avec succès des pratiques durables de conduite des cultures.Cependant, nous montrons que, pour la plupart des applications, la signification statistique de l'identification d'une meilleure pratique pour les conditions réelles au champ en se basant sur les simulations est peu probablement appuyée par des preuves statistiques suffisantes. Nous avons considéré à la fois un critère de décision neutre face au risque et un critère avec aversion au risque.Nous nous attachons enfin à l'identification collaborative des meilleures opérations culturales parun groupe d'agriculteurs conduisant des essais au champ. Dans un exercice simulé, nous reproduisons les conditions de culture de Sud du Mali. Nous concevons une méthode d'identification des meilleures opérations culturales à l'aide d'un algorithme de bandit à plusieurs bras, un cas particulier d'AR, avec un critère de décision avec aversion au risque. L'algorithme a la contrainte de minimiser les pertes accumulées par les agriculteurs durant le processus d'identification. En tirant parti des connaissances d'experts afin de réduire la complexité du problème de décision, nous montrons que la méthode d'identification avec l'algorithme de bandit pourrait être appliquée en conditions réelles. Par ailleurs,ladite méthode réduit davantage les pertes des agriculteurs dans la plupart des cas, comparé à la méthode classique qui consiste en des essais au champ équiproportionnels de chaque opération culturale durant un nombre fixe d'années.