Thèse soutenue

Apprentissage semi-supervisé en assurance : équité et apprentissage actif

FR  |  
EN
Auteur / Autrice : François Hu
Direction : Caroline HillairetRomuald Elie
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 15/06/2022
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de recherche en économie et statistique (France)
Entreprise : Société Générale Assurances - Datalab
établissement opérateur d'inscription : École nationale de la statistique et de l'administration économique (Palaiseau, Essonne)
Jury : Président / Présidente : Christian Yann Robert
Examinateurs / Examinatrices : Caroline Hillairet, Christian Yann Robert, Olivier Wintenberger, Christophe Dutang, Stéphane Loisel, Arthur Charpentier
Rapporteurs / Rapporteuses : Olivier Wintenberger, Christophe Dutang

Résumé

FR  |  
EN

Les organismes d'assurance stockent quotidiennement des sources de données textuelles volumineuses (zones de texte libre utilisées par les téléconseillers, courriers électroniques, avis des clients, etc.). Cependant, cette masse de données textuelles comporte des enjeux spécifiques en termes de réglementations comme par exemple le respect des contraintes de protection de la vie privée, imposées en Europe par le récent Règlement général sur la protection des données (RGPD) : ces données textuelles peuvent contenir des informations non-conformes aux normes RGPD, soulevant ainsi des questions éthiques et ne peuvent pas être conservées par l'assureur. Aujourd'hui, ces données textuelles sont étiquetées par des experts (oracles) et ce processus n'est pas adapté à la gestion de grands volumes ni à une gestion de l'information en temps quasi réel. Par conséquent, la mise en place d'un système d'apprentissage précis (en termes de prédiction), peu coûteux (en termes d'étiquetage) et éthique (en termes d'équité) est nécessaire en assurance et cette thèse aborde et résout certains de ces défis. Le premier défi est de réduire l'effort d'étiquetage (se concentrant ainsi sur la qualité des données) avec l'aide de l'apprentissage actif, une boucle de rétroaction entre l'inférence du modèle et un oracle : puisqu'en assurance les données non étiquetées sont généralement abondantes, l'apprentissage actif peut devenir un atout important pour réduire le coût de l'étiquetage. Un autre défi majeur est la question de l'équité dans les inférences de modèles ML. Puisque des inégalités et des discriminations peuvent être trouvées dans les données, les modèles d'apprentissage sont susceptibles de reproduire certaines injustices, ce qui les rend inutilisables en production. Cette thèse explore ces problèmes et propose des solutions, notamment pour les tâches de classification multi-classes. En particulier, nous proposons une méthode d'équité algorithmique qui garantit soit une équité exacte au détriment de la précision du modèle, soit un compromis entre équité et précision appelé epsilon-fairness. En outre, nous proposons une méthode d'apprentissage actif équitable qui requête les instances informatives tout en rendant le modèle équitable. Les méthodologies proposées ont l'avantage d'être agnostiques par rapport au modèle d'apprentissage statistique. Ces résultats sont étudiés et appliqués sur des jeux de données réels et synthétiques.