Apprentissage incrémental en ligne sur flux de données

par Christophe Salperwyck

Thèse de doctorat en Informatique

Sous la direction de Philippe Preux.

Soutenue le 30-11-2012

à Lille 3 , dans le cadre de École doctorale Sciences pour l'Ingénieur (Lille) .


  • Résumé

    L'apprentissage statistique propose un vaste ensemble de techniques capables de construire des modèles prédictifs à partir d'observations passées. Ces techniques ont montré leurs capacités à traiter des volumétries importantes de données sur des problèmes réels. Cependant, de nouvelles applications génèrent de plus en plus de données qui sont seulement visibles sous la forme d'un flux et doivent être traitées séquentiellement. Parmi ces applications on citera : la gestion de réseaux de télécommunications, la modélisation des utilisateurs au sein d'un réseau social, le web mining. L'un des défis techniques est de concevoir des algorithmes permettant l'apprentissage avec les nouvelles contraintes imposées par les flux de données. Nous proposons d'abord ce problème en proposant de nouvelles techniques de résumé de flux de données dans le cadre de l'apprentissage supervisé. Notre méthode est constituée de deux niveaux. Le premier niveau utilise des techniques incrémentales de résumé en-ligne pour les flux qui prennent en compte les ressources mémoire et processeur et possèdent des garanties en termes d'erreur. Le second niveau utilise les résumés de faible taille, issus du premier niveau, pour construire le résumé final à l'aide d'une méthode supervisée performante hors-ligne. Ces résumés constituent un prétraitement qui nous permet de proposer de nouvelles versions du classifieur bayésien naïf et des arbres de décision fonctionnant en-ligne sur flux de données. Les flux de données peuvent ne pas être stationnaires mais comporter des changements de concept. Nous proposons aussi une nouvelle technique pour détecter ces changements et mettre à jour nos classifieurs.

  • Titre traduit

    Incremental online learning on data streams


  • Résumé

    Statistical learning provides numerous algorithms to build predictive models on past observations. These techniques proved their ability to deal with large scale realistic problems. However, new domains generate more and more data which are only visible once and need to be processes sequentially. These volatile data, known as data streams, come from telecommunication network management, social network, web mining. The challenge is to build new algorithms able to learn under these constraints. We proposed to build new summaries for supervised classification. Our summaries are based on two levels. The first level is an online incremental summary which uses low processing and address the precision/memory tradeoff. The second level uses the first layer summary to build the final sumamry with an effcient offline method. Building these sumamries is a pre-processing stage to develop new classifiers for data streams. We propose new versions for the naive-Bayes and decision trees classifiers using our summaries. As data streams might contain concept drifts, we also propose a new technique to detect these drifts and update classifiers accordingly.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Charles de Gaulle. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.