Thèse soutenue

Résumé généraliste de flux de données

FR  |  
EN
Auteur / Autrice : Baptiste Csernel
Direction : Georges Hébrail
Type : Thèse de doctorat
Discipline(s) : Informatique et réseaux
Date : Soutenance en 2008
Etablissement(s) : Paris, ENST

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse traite de la mise en place de résumés généralistes de flux de données. Elle est centrée autour du développement de deux algorithmes, l'un produisant des résumés généralistes d'un flux de données et l'autre de trois flux de données partageant des liens relationnels. Un flux de données est défini comme une séquence continue d'objets tels qu'il soit impossible de contrôler l'ordre d'arriver des objets ou de stocker le flux dans son intégralité. On retrouve ces flux de données dans des applications comme les télécommunications, les réseau de capteurs ou l'analyse financière. La première étape de ce travail a été de définir ce qu'est un résumé généraliste de flux de données. Sa première propriété est qu'il doit être utilisable pour une large gamme de tâches de fouille de données. La seconde est qu'il doit être possible de constituer à partir du résumé principal un résumé ne concernant qu'une portion du flux arrivé jusqu'alors. Le premier algorithme réalisé, StreamSamp, est un algorithme de résumé généraliste d'un seul flux de données et il est basé sur des techniques d'échantillonnage. Le second, CrossStream est destiné à résumer trois flux de données partageant des informations relationnelles entre eux, un flux de relation liant deux flux d'entités. Cet algorithme est basé sur des micro classes inspirées de l'algorithme CluStream d'Aggarwal combinés à l'utilisation de Filtres de Bloom. Les deux algorithmes ont été implémentés et testé sur plusieurs jeux de données pour déterminer leur performances face à divers situations.