Thèse soutenue

Adresser l’interprétabilité, l’équité et la protection de la vie privée en apprentissage machine au travers des méthodes d’optimisation combinatoire

FR  |  
EN
Auteur / Autrice : Julien Ferry
Direction : Marie-José HuguetSébastien Gambs
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 09/10/2023
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Analyse et d'Architecture des Systèmes (Toulouse ; 1968-....)
Jury : Président / Présidente : Sylvie Thiébaux
Examinateurs / Examinatrices : Élisa Fromont, Mathieu Serrurier, Thibaut Vidal
Rapporteurs / Rapporteuses : Josep Domingo-Ferrer, Pierre Schaus

Résumé

FR  |  
EN

Les approches d'apprentissage automatique sont de plus en plus utilisées pour des problématiques de prise de décisions impactant nos vies, telles que l'admission à l'université, l'attribution de prêts ou la prédiction de récidive. Ainsi, il est crucial de s'assurer que les modèles entraînés peuvent être audités et compris par leurs utilisateurs, ne reproduisent pas ni ne créent de biais discriminatoires, et ne divulguent pas d'informations sensibles sur leurs ensembles d'entraînement. En effet, l'interprétabilité, l'équité et la protection de la vie privée sont des propriétés indispensables pour le développement de techniques d'apprentissage dignes de confiance. Toutes trois ont été largement étudiées durant la dernière décennie. Cependant, elles sont le plus souvent considérées séparément les unes des autres. L'objectif de cette thèse est précisément de caractériser les interactions entre ces trois domaines, en utilisant des outils d'optimisation combinatoire et de recherche opérationnelle. Considérant ces trois domaines deux à deux, nous passons en revue la littérature sur leurs compatibilités, tensions et synergies. Nous nous concentrons sur certaines de ces tensions et proposons soit un mécanisme de conciliation, soit des techniques permettant de mettre en exergue ou de quantifier ce conflit. Nous proposons d'abord une technique d'élagage basée sur la programmation linéaire en nombres entiers pour un algorithme d'apprentissage produisant des modèles équitables et intrinsèquement interprétables. En encodant conjointement précision, taille du modèle et équité, elle améliore l'exploration de l'espace de recherche de l'algorithme et aide à concilier équité et interprétabilité. Forts de la constatation expérimentale que l'équité généralise souvent mal une fois les modèles appliqués sur de nouvelles données, nous proposons une nouvelle approche visant à améliorer la robustesse de l'équité vis-à-vis de l'échantillonnage du jeu de données. Nous montrons par la suite comment l'information relative à l'équité d'un modèle peut être utilisée pour reconstruire les attributs sensibles de son ensemble d'entraînement. A cet effet, nous proposons des modèles de programmation linéaire en nombres entiers et de programmation par contraintes encodant directement l'information de l'équité afin d'améliorer une reconstruction effectuée en amont par un attaquant quelconque de la littérature. Ce travail illustre une tension intrinsèque entre le fait d'assurer l'équité par rapport à certains attributs sensibles et la nécessité de protéger l'information relative à ces attributs. Enfin, nous expliquons comment la structure d'un modèle interprétable peut être utilisée pour reconstruire une version probabiliste de son ensemble d'entraînement. En quantifiant précisément la quantité d'information qu'un modèle encode sur ses données d'entraînement, nous illustrons un conflit apparent entre l'interprétabilité et la protection de la vie privée.