Thèse soutenue

Vers un apprentissage automatique fiable : exploiter les représentations multimodales, le goulot d’étranglement de l’information et la théorie des valeurs extrêmes (EVT)

FR  |  
EN
Auteur / Autrice : Nicolas Atienza
Direction : Johanne CohenChristophe Labreuche
Type : Thèse de doctorat
Discipline(s) : Informatique mathématique
Date : Soutenance le 04/04/2025
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Jury : Président / Présidente : Nicolas Sabouret
Examinateurs / Examinatrices : Stéphane Girard, Jean-Michel Loubes, Charlotte Laclau, Benedikt Bollig
Rapporteurs / Rapporteuses : Stéphane Girard, Jean-Michel Loubes

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse de doctorat porte sur l'amélioration de la fiabilité de l'apprentissage automatique, en particulier pour les applications à forts enjeux. Les modèles d'apprentissage profond actuels, bien que très performants, restent difficiles à appréhender et à déployer de manière sûre en raison de leur opacité, de leur vulnérabilité aux attaques adverses, de leur sensibilité aux changements de distribution, et de leur inefficacité en contexte de données ou de ressources limitées. Pour surmonter ces limites, ce travail explore trois dimensions complémentaires : l'explicabilité, la robustesse et la frugalité.Sur le plan de l’explicabilité, il propose une méthode appelée CB2, qui introduit une forme d’interprétabilité par concepts pour les réseaux neuronaux profonds. CB2 s’appuie sur des embeddings multi-modaux et la théorie de la décision pour aligner les représentationsinternes du modèle sur des concepts compréhensibles par l’humain. Cette technique permet de mieux comprendre pourquoi un modèle produit une prédiction donnée et d’inspecter les biais potentiels dans le processus de décision. Par rapport aux méthodes post-hoc classiques, CB2 fournit des explications plus structurées et sémantiquement riches, validées sur plusieurs jeux de données en vision par ordinateur.Sur le plan de la robustesse, deux approches sont proposées pour renforcer la fiabilité des modèles. La première, nommée POSIB, est une méthode post-entraînement fondée sur le principe de l’Information Bottleneck, qui restructure l’espace latent du modèle afin de dissocier les caractéristiques informatives du bruit et des corrélations non pertinentes. Cela améliore la robustesse sans compromettre la précision prédictive. La seconde approche, appelée SPADE, traite de la détection des échantillons hors distribution (OOD) et des entrées adverses. SPADE exploite la théorie des valeurs extrêmes pour caractériser le comportement des queues de distribution latente, offrant ainsi une manière rigoureuse de détecter les entrées inconnues ou malveillantes et de s’abstenir de prédictions peu fiables. Les expériences menées sur différentes architectures et jeux de données montrent que SPADE atteint des performances de pointe en détection OOD et en défense contre les attaques adverses.Enfin, ce travail s’intéresse aussi à la frugalité, en reconnaissant que les modèles déployés dans des contextes industriels ou critiques fonctionnent souvent sous des contraintes sévères en données et en ressources de calcul. Pour relever ces défis, il développe des techniques d’apprentissage de représentations frugales qui optimisent le contenu informationnel des espaces latents, en ne conservant que les caractéristiques essentielles. Combiné avec le cadre de robustesse, il propose F-STUDENT, une version distillée des modèles robustes, qui compresse le réseau tout en préservant sa capacité à résister aux attaques adverses. Cette approche surpasse les méthodes classiques d’élagage en s’appuyant sur une distillation multi-étapes et une régularisation par goulot d’étranglement informationnel.Dans l’ensemble, cette thèse contribue à combler le fossé entre les avancées théoriques de l’apprentissage automatique moderne et les exigences pratiques du déploiement de l’IA dans des environnements critiques. En abordant conjointement l’explicabilité, la robustesse et la frugalité, elle propose un cadre complet pour le développement de systèmes d’apprentissage fiables, dignes de confiance dans des applications réelles à forts enjeux.