Apprentissage semi-supervisé pour des problèmes pratiques: précision, robustesse et équité

par François Hu

Projet de thèse en Mathématiques appliquées

Sous la direction de Caroline Hillairet et de Romuald Elie.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de mathématiques Hadamard , en partenariat avec CREST - Centre de recherche en économie et statistique (laboratoire) et de Laboratoire de Finance Assurance (equipe de recherche) depuis le 01-04-2019 .


  • Résumé

    Les organismes d'assurance stockent quotidiennement des sources de données textuelles volumineuses (zones de textes libres utilisées par les télé-conseillers, mails, avis clients, . . . ). Ces données textuelles sont porteuses de valeurs et peuvent alimenter de nombreux cas d'usage. Cependant, l'extraction et l'utilisation de la valeur de ces données textuelles est délicate et cette masse importante de données textuelles contient des enjeux spécifiques en terme de respect des contraintes de protection de la vie privée, imposées en Europe par le récent Règlement Général pour la Protection des Données (RGPD). Ces données textuelles contiennent des informations possiblement non conformes avec les normes du RGPD, et ne peuvent alors pas être conservées par l'assureur. Aujourd'hui ces données textuelles sont étiquetées par des experts (appelés « oracles »). Cependant ce processus n'est pas adapté à la gestion de grand volume ni à une gestion en quasi temps réel de l'information. Dans le cas du contrôle de la conformité RGPD au sein de la Société Générale Assurances, une intervention manuelle conduirait les juristes à analyser entre un à deux millions de verbatims par an et une intervention algorithmique "classique" (machine learning) nécessite l'étiquetage de plus d'une centaine de milliers de données. L'étape d'étiquetage est évidemment une partie importante du processus d'IA (et peut-être la plus importante). En effet, les données qualitatives étiquetées aident à calibrer le modèle d'apprentissage afin de faire correspondre correctement les instances et les étiquettes, et leur absence peut avoir un impact négatif sur les performances du modèle et peut parfois introduire des biais et des problèmes éthiques (par exemple, l'équité dans les solutions d'IA comme les problèmes raciaux dans le recrutement). Cette tâche longue (et coûteuse) doit être effectuée par des experts afin d'assurer la qualité des étiquettes. Les campagnes d'étiquetage sont donc souvent menées sous des contraintes de temps (et donc de volume). Disposer d'algorithmes permettant de hiérarchiser les données à étiqueter au lieu de sélectionner ces exemples au hasard est dans certains cas aussi important que l'algorithme d'apprentissage profond qui sera entraîné avec ces données. Ces algorithmes font référence au domaine de l'apprentissage actif. Ce domaine d'apprentissage semi-supervisé, qui est une sous-section de l'apprentissage automatique, permet à l'algorithme d'apprentissage d'interroger de manière interactive un expert humain (ou oracles) pour étiqueter les nouveaux points de données avec les résultats souhaités. L'objectif de cette thèse est de proposer des méthodes d'apprentissage semi-supervisé performantes, robustes et équitables pour des données actuarielles réelles. À cette fin, nous nous concentrerons sur deux domaines d'étude : (1) aborder la question de l'équité en intelligence artificielle et (2) améliorer la qualité des données dans l'étiquetage des ensembles de données avec l'apprentissage actif pour les compagnies d'assurance. En présupposant de disposer d'un volume suffisant de données étiquetées, les récents travaux scientifiques ont démontré la capacité du deep learning à traiter précisément l'information textuelle. Néanmoins, les données textuelles étiquetées sont rares et l'apprentissage supervisé seul n'est pas une solution suffisante pour répondre aux enjeux pratiques. Nous voulons pallier cette difficulté et adapter ce processus dans ce contexte bancassurance.

  • Titre traduit

    Semi-supervised learning for practical problems: accuracy, robustness and fairness


  • Résumé

    Insurance companies store voluminous textual data sources on a daily basis (free text zones used by telephone advisors, e-mails, customer reviews, ... ). This textual data is valuable and can be used for many purposes. However, extracting and using the value of this textual data is tricky and this large mass of textual data contains specific issues in terms of respecting the privacy constraints imposed in Europe by the recent General Data Protection Regulation (GDPR). This textual data contains information that may not be compliant with the RGPD standards, and therefore cannot be kept by the insurer. Today, this text data is tagged by experts (called "oracles"). However, this process is not adapted to high volume or near real-time information management. In the case of RGPD compliance monitoring at Société Générale Assurances, a manual intervention would lead the lawyers to analyze between one and two million verbatims per year, while a "classic" algorithmic intervention (machine learning) requires the labeling of more than a hundred thousand data. The labeling stage is obviously an important part of the AI process (and perhaps the most important). This is because labeled qualitative data helps calibrate the learning model to correctly match instances and labels, and its absence can negatively impact model performance and can sometimes introduce biases and ethical issues (e.g., fairness in AI solutions such as racial issues in recruitment). This time-consuming (and costly) task must be performed by experts to ensure label quality. As a result, labeling campaigns are often conducted under time (and therefore volume) constraints. Having algorithms to prioritize the data to be labeled instead of randomly selecting these examples is in some cases as important as the deep learning algorithm that will be trained with these data. These algorithms refer to the field of active learning. This semi-supervised learning domain, which is a subsection of machine learning, allows the learning algorithm to interactively query a human expert (or oracles) to label new data points with desired results. The goal of this thesis is to propose efficient, robust, and fair semi-supervised learning methods for real actuarial data. To this end, we will focus on two areas of study: (1) addressing the issue of fairness in artificial intelligence and (2) improving data quality in dataset labeling with active learning for insurance companies. Assuming sufficient volume of labeled data, recent scientific work has demonstrated the ability of deep learning to accurately process textual information. Nevertheless, labeled textual data are scarce and supervised learning alone is not a sufficient solution to meet practical challenges. We want to overcome this difficulty and adapt this process in this bancassurance context.