Thèse soutenue

Modèles Causaux Structurels pour la Génération de Données Synthétiques

FR  |  
EN
Auteur / Autrice : Audrey Poinsot
Direction : Marc SchoenauerAlessandro Ferreira LeiteNicolas Chesneau
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/12/2025
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….)
Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Jury : Président / Présidente : Fatiha Saïs
Examinateurs / Examinatrices : Sami Zhioua, Arthur Charpentier, Johanne Cohen, Pierre-Henri Wuillemin
Rapporteurs / Rapporteuses : Sami Zhioua, Arthur Charpentier

Résumé

FR  |  
EN

L'apprentissage automatique causal, aussi appelé Causal ML, a le potentiel de révolutionner la prise de décision en combinant la puissance prédictive des algorithmes d'apprentissage automatique avec la théorie de l'inférence causale. Cependant, ces méthodes restent encore peu utilisées pour des applications réelles, car les évaluations empiriques actuelles ne permettent pas d'évaluer leur fiabilité et leur robustesse, questionnant donc leur utilité pratique. Ce travail de thèse, motivé par des applications de mesure de l'efficacité marketing, vise à contribuer à l'évaluation de l'utilité des méthodes de Causal ML à travers l'étude empirique de leur comportement à l'aide d'expériences synthétiques, sous la forme de quatre projets.Les deux premiers projets menés examinent l'utilité de certaines méthodes de Causal ML, sélectionnées en fonction des applications marketing mentionnées ci-dessus. Le premier projet analyse empiriquement la méthode d'augmentation de données ADMG, en tenant compte de différents scenarii synthétiques afin d'aider les chercheurs et les praticiens à comprendre dans quelles conditions des connaissances préalables concernant les structures causales d'un problème donné peuvent améliorer la robustesse des modèles prédictifs. Le deuxième projet examine les méthodes apprenant des modèles causaux structurels profonds sous l'angle de leur capacité à répondre à des questions contrefactuelles à partir de données observationnelles et de structures causales connues. L'analyse de ces méthodes révèle que la majorité des résultats théoriques dépendent des propriétés des architectures des modèles d'apprentissage profond. L'étude souligne aussi la nécessité de développer des benchmarks standardisés qui reflètent les complexités rencontrées dans diverses applications du monde réel.La première partie de la thèse a révélé de nombreuses limites dans les pratiques actuelles d'évaluation des méthodes de Causal ML. Nous avons donc orienté la deuxième partie sur l'amélioration de ces pratiques en vue d'approfondir l'évaluation de l'utilité de ces méthodes. En particulier, dans le troisième projet, nous soutenons que les expériences synthétiques sont nécessaires pour évaluer et comprendre avec précision les capacités des méthodes de Causal ML. Nous proposons un ensemble de principes pour mener des évaluations empiriques rigoureuses à l'aide de données synthétiques. Enfin, le dernier projet s'inscrit dans la continuité directe du précédent en proposant une méthode générant aléatoirement des jeux de données causaux synthétiques sur les trois niveaux du raisonnement causal. Sur la base d'un ensemble de choix de conception explicites, notre générateur, CausalProfiler, échantillonne des jeux de données, des hypothèses et des réalisations effectives constituant les benchmarks causaux synthétiques. De cette manière, les méthodes de Causal ML peuvent être évaluées à partir d'expériences synthétiques tenant compte des hypothèses choisies, avec un réalisme, une diversité et une comparabilité accrus. Nous démontrons l'utilité de CausalProfiler en évaluant plusieurs modèles causaux structurels profonds tant dans leur régime d'identification qu'en dehors de celui-ci. A travers les quatre projets menés, cette thèse contribue à une meilleure compréhension de l'utilité empirique des méthodes de Causal ML de deux façons : en caractérisant l'utilité de certaines méthodes de Causal ML et en donnant les moyens aux chercheurs et praticiens d'effectuer cette caractérisation sur un large champs de méthodes via l'élaboration de règles de bonnes pratiques et la conception d'un générateur de benchmarks causaux synthétiques. L'adoption de nos recommandations et de notre générateur permettra des évaluations plus rigoureuses et approfondies qui renforceront la confiance dans les méthodes Causal ML, favorisant ainsi leur adoption à plus grande échelle et leur utilisation pour des applications réelles comme la mesure de l'efficacité marketing.