Thèse soutenue

Contributions à l'apprentissage automatique interprétable : applications aux données de systèmes industriels à grande échelle

FR  |  
EN
Auteur / Autrice : Graziano Mita
Direction : Pietro Michiardi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/04/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Maurizio Filippone
Examinateurs / Examinatrices : Zeynep Akata
Rapporteurs / Rapporteuses : Serena Villata, Giovanni Neglia

Résumé

FR  |  
EN

Les contributions présentées dans cette thèse sont doubles. Nous fournissons d'abord un aperçu général de l'apprentissage automatique interprétable, en établissant des liens avec différents domaines, en introduisant une taxonomie des approches d'explicabilité. Nous nous concentrons sur l'apprentissage des règles et proposons une nouvelle approche de classification, LIBRE, basée sur la synthèse de fonction booléenne monotone. LIBRE est une méthode ensembliste qui combine les règles candidates apprises par plusieurs apprenants faibles ascendants avec une simple union, afin d'obtenir un ensemble final de règles interprétables. LIBRE traite avec succès des données équilibrés et déséquilibrés, atteignant efficacement des performances supérieures et une meilleure interprétabilité par rapport aux plusieurs approches. L'interprétabilité des représentations des données constitue la deuxième grande contribution à ce travail. Nous limitons notre attention à l'apprentissage des représentations démêlées basées sur les autoencodeurs variationnels pour apprendre des représentations sémantiquement significatives. Des contributions récentes ont démontré que le démêlage est impossible dans des contextes purement non supervisés. Néanmoins, nous présentons une nouvelle méthode, IDVAE, avec des garanties théoriques sur le démêlage, dérivant de l'emploi d'une distribution a priori exponentiel optimal factorisé, conditionnellement dépendant de variables auxiliaires complétant les observations d'entrée. Nous proposons également une version semi-supervisée de notre méthode. Notre campagne expérimentale montre qu'IDVAE bat souvent ses concurrents selon plusieurs métriques de démêlage.