optimisation du risque de sécurité pour l'apprentissage sur données de qualité hétérogène

par Hassan Chaitou

Projet de thèse en Informatique, données, IA

Sous la direction de Laurent Pautet.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec Laboratoire de Traitement et Communication de l'Information (laboratoire) et de ACES – Autonomic and Critical Embedded Systems (ACES) (equipe de recherche) depuis le 10-03-2020 .


  • Résumé

    Un classificateur est un composant utilisé dans l'automatisation de "prise de décision" ou d'abstraction de données complexes: détection d'intrus, extraction de limitation de vitesse. Pour un classificateur efficace, l'entraînement doit se faire sur un grand volume de données et être renouvelé au cours du temps en intégrant ou révoquant certaines données d'apprentissage. D'un point de vue sécurité, ce processus représente un risque puisqu'il offre à l'attaquant diverses manières de dégrader les performances du classificateur (soit en forçant des classifications malicieuses, soit en dégradant de manière aléatoire ses performances). Ces deux types d'attaques exigent plus ou moins d'efforts de l'attaquant. Ce risque est exacerbé lorsque les données proviennent de sources (équipement réseaux, organisations) correspondant à des niveaux de confiance hétérogènes. Cette thèse vise à maîtriser le risque associé à cette mise à jour via la théorie des jeux dans le cas où la confiance dans les données d'apprentissage n'est pas homogène.

  • Titre traduit

    optimization of security risk for learning on heterogeneous quality data


  • Résumé

    A classifier is a component used in the automation of "decision-making" or complex data abstraction: intruder detection, speed limitation extraction. For an efficient classifier, the training must be on a large volume of data and be renewed over time by integrating or revoking certain learning data. From a security point of view, this process represents a risk since it offers the attacker various ways of degrading classifier performance (either by forcing classifications mischievous, either by randomly degrading its performance). These two types of attacks require more or less effort from the attacker. This risk is exacerbated when data comes from sources (network equipment, organizations) corresponding to heterogeneous trust levels. This thesis aims at controlling the risk associated with this update via game theory in the case where the confidence in the learning data is not homogeneous.