Auteur / Autrice : | Flavia Salutari |
Direction : | Mauro Sozio, Dario Rossi |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 21/09/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....) |
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) | |
Jury : | Président / Présidente : Isabelle Chrisment |
Examinateurs / Examinatrices : Mauro Sozio, Dario Rossi, Pedro Casas Hernandez, Marco Mellia, Tobias Hossfeld, Chadi Barakat, Philippe Owezarski | |
Rapporteurs / Rapporteuses : Isabelle Chrisment, Pedro Casas Hernandez |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Aujourd’hui, un monde sans Internet est inimaginable. En interconnectant des milliards de personnes dans le monde et en offrant un nombre incalculable de services, il est désormais pleinement intégré à la société moderne. Pourtant, malgré l’évolution et le développement de la technologie, son omniprésence et son hétérogénéité soulèvent encore de nouveaux défis, tels que les problèmes de sécurité, le contrôle de la qualité d’expérience des utilisateurs (QoE), le souci de transparence et celui d’équité .En conséquence, l’objectif de cette thèse est d’apporter un nouvel éclairage sur certains des défis qui ont émergé ces dernières années. En particulier, nous fournissons une analyse approfondie de certains des aspects les plus importants de l’Internet moderne. Un accent particulier est mis sur le World Wide Web, qui, parmi tous, est sans doute l’une des applications Internet les plus populaires, et un regard spécifique sur son interaction avec l’apprentissage automatique.La première partie de ce travail étudie la qualité de l’expérience de navigation des utilisateurs sur le Web, avec des mesures effectuées à la fois “in the wild" et dans des environnements contrôlés. Nos contributions continuent avec une analyse originale de l’avis subjectif des utilisateurs et des mesures objectives de la qualité d’expérience, montrant la difficulté de construire des modèles supervisés précis, basés sur des données, capables de prédire la satisfaction des utilisateurs, ainsi qu’une discussion approfondie de la nature multimodale des avis subjectifs des utilisateurs. Dans la deuxième partie de ce travail, nous analysons et discutons l’équité des modèles de langage basés sur des transformateurs de pointe, qui sont pré-entraînés sur des corpus basés sur le Web et qui sont généralement utilisés pour résoudre une grande variété de tâches de traitement du langage naturel (NLP). Nous nous demandons ici si la taille et l’hétérogénéité du Web garantissent la diversité des modèles. Le cœur de nos contributions repose sur la mesure du biais intégré dans les modèles, que nous discutons sous différents angles. Enfin, la dernière partie de cette thèse traite de la classification d’objets générés par des machines à l’aide de certains des plus simples algorithmes d’apprentissage automatique supervisés à l’état de l’art. Grâce à un framework solide mais peu intrusif, nous montrons que les différents comportements d’un champ du paquet IP, l’identification IP (IP-ID), peuvent être facilement classifiés avec peu de caractéristiques ayant un haut pouvoir discriminatoire. Nous appliquons enfin notre technique à un census à l’échelle de l’Internet et fournissons une vue actualisée de l’adoption de ses différentes implémentations dans l’Internet.