Thèse soutenue

Mesuré d'Internet à large échelle, longitudinale et sans biais
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Flavia Salutari
Direction : Mauro SozioDario Rossi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 21/09/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Isabelle Chrisment
Examinateurs / Examinatrices : Mauro Sozio, Dario Rossi, Pedro Casas Hernandez, Marco Mellia, Tobias Hossfeld, Chadi Barakat, Philippe Owezarski
Rapporteurs / Rapporteuses : Isabelle Chrisment, Pedro Casas Hernandez

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Aujourd’hui, un monde sans Internet est inimaginable. En interconnectant des milliards de personnes dans le monde et en offrant un nombre incalculable de services, il est désormais pleinement intégré à la société moderne. Pourtant, malgré l’évolution et le développement de la technologie, son omniprésence et son hétérogénéité soulèvent encore de nouveaux défis, tels que les problèmes de sécurité, le contrôle de la qualité d’expérience des utilisateurs (QoE), le souci de transparence et celui d’équité .En conséquence, l’objectif de cette thèse est d’apporter un nouvel éclairage sur certains des défis qui ont émergé ces dernières années. En particulier, nous fournissons une analyse approfondie de certains des aspects les plus importants de l’Internet moderne. Un accent particulier est mis sur le World Wide Web, qui, parmi tous, est sans doute l’une des applications Internet les plus populaires, et un regard spécifique sur son interaction avec l’apprentissage automatique.La première partie de ce travail étudie la qualité de l’expérience de navigation des utilisateurs sur le Web, avec des mesures effectuées à la fois “in the wild" et dans des environnements contrôlés. Nos contributions continuent avec une analyse originale de l’avis subjectif des utilisateurs et des mesures objectives de la qualité d’expérience, montrant la difficulté de construire des modèles supervisés précis, basés sur des données, capables de prédire la satisfaction des utilisateurs, ainsi qu’une discussion approfondie de la nature multimodale des avis subjectifs des utilisateurs. Dans la deuxième partie de ce travail, nous analysons et discutons l’équité des modèles de langage basés sur des transformateurs de pointe, qui sont pré-entraînés sur des corpus basés sur le Web et qui sont généralement utilisés pour résoudre une grande variété de tâches de traitement du langage naturel (NLP). Nous nous demandons ici si la taille et l’hétérogénéité du Web garantissent la diversité des modèles. Le cœur de nos contributions repose sur la mesure du biais intégré dans les modèles, que nous discutons sous différents angles. Enfin, la dernière partie de cette thèse traite de la classification d’objets générés par des machines à l’aide de certains des plus simples algorithmes d’apprentissage automatique supervisés à l’état de l’art. Grâce à un framework solide mais peu intrusif, nous montrons que les différents comportements d’un champ du paquet IP, l’identification IP (IP-ID), peuvent être facilement classifiés avec peu de caractéristiques ayant un haut pouvoir discriminatoire. Nous appliquons enfin notre technique à un census à l’échelle de l’Internet et fournissons une vue actualisée de l’adoption de ses différentes implémentations dans l’Internet.