Thèse soutenue

Représentation de la preuve pour le respect de la vie privée : inférence bayésienne, preuve compositionnelle et calibration

FR  |  
EN
Auteur / Autrice : Paul-Gauthier Noé
Direction : Jean-François BonastreDriss Matrouf
Type : Thèse de doctorat
Discipline(s) : Agrosciences et sciences
Date : Soutenance le 26/04/2023
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale 536 « Sciences et agrosciences » (Avignon)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique d'Avignon
Jury : Président / Présidente : Corinne Fredouille
Examinateurs / Examinatrices : Pierre-Michel Bousquet, David Lovell, Isabel Trancoso, Junichi Yamagishi
Rapporteurs / Rapporteuses : Frédéric Bimbot, Daniel Ramos

Résumé

FR  |  
EN

Dans les technologies multimédia, le respect de la vie privée orienté attributs consiste à dissimuler l'information relative à un seul attribut de l'utilisateur comme par exemple son sexe, sa nationalité ou son état de santé. Quand l'attribut ne peut prendre qu'une valeur parmi un ensemble fini de valeurs possibles, la connaissance d'un attaquant sur l'attribut est représentée par une distribution de probabilité discrète sur l'ensemble des valeurs possibles. L'inférence bayésienne décrit comment une connaissance a priori, est transformée en une connaissance a posteriori par une fonction de vraisemblance. Dans le cas binaire, la fonction de vraisemblance peut être écrite comme le log-ratio des vraisemblances (LRV). Le LRV informe quelle hypothèse (ou valeur de l'attribut) une observation appuie et à quel point. La formule de Bayes peut être écrite comme la somme du LRV et du log-ratio des probabilités a priori. La contribution de l'observation et celle de la connaissance a priori sont ainsi séparées dans le calcul de l'a posteriori. Dans cette thèse, il est proposé de représenter l'information sensible, révélée par une donnée, par une fonction de vraisemblance. Cependant, la forme intuitive de la formule de Bayes dans le cas binaire n'est pas directement généralisable aux cas non-binaires. Il est donc proposé de traiter les distributions de probabilité et les fonctions de vraisemblance comme des données compositionnelles. Ces données vivent sur le simplexe où un espace vectoriel euclidien, connu sous le nom de géométrie d'Aitchison, peut être défini. Avec le système de coordonnées défini par l'approche isométrique-log-ratio, la forme additive de l'inférence bayésienne est retrouvée. Dans cet espace, la fonction de vraisemblance (ILRV), est considérée comme la généralisation multidimensionnelle et multi-hypothèses du LRV. Le secret parfait, appliqué ici au respect de la vie privée, est atteint lorsque l'a posteriori de l'attaquant est égale à son a priori. De cette manière, les données ne fournissent aucune information. Le secret parfait est atteint lorsque le LRV est zéro pour les cas binaires et, par extension, lorsque l'ILRV est égal au vecteur nul pour les cas non-binaires. Pour que les ILRVs représentent correctement l'information révélée par les données, ils doivent être calibrés. L'idempotence des LRVs calibrés et sa contrainte sur la distribution des LRVs normalement distribués sont des propriétés bien connues. Dans cette thèse, ces propriétés sont étendues aux ILRVs pour des applications multi-hypothèses. À partir de ces propriétés et de la nature compositionnelle des fonctions de vraisemblance, une nouvelle analyse discriminante est proposée. D'abord présentée pour des applications binaires, l'approche plonge les données dans un espace où la composante discriminante est un LRV calibré. La transformation est apprise avec un flot normalisant qui est une cascade de réseaux de neurones artificiels inversibles. Cela peut être utilisé pour le respect de la vie privée orienté attributs. La transformation étant inversible, le LRV peut être mis à zéro, avant de replonger les données dans l'espace d'origine. Cette approche est testée sur la dissimulation du sexe du locuteur sur des représentations locuteur issues de réseaux de neurones artificiels. Ces représentations protégées sont testées sur une tâche de vérification automatique du locuteur et sur une tâche de conversion de la voix. Les propriétés du LRV étant généralisables au ILRV, l'analyse discriminante se généralise aux cas non-binaires. Appelée Analyse Discriminante Compositionnelle, elle plonge les données dans un espace où les dimensions discriminantes forment une fonction de vraisemblance calibrée exprimée par l'ILRV. Présentés dans un contexte de sécurité des données personnelles, ces travaux ouvrent cependant de nombreuses directions de recherche dans les domaines de la calibration et de l'apprentissage automatique de représentations interprétables de l'information