Automatic and Adaptive Learning for Relational Data Stream Clustering

par Parisa Rastin

Thèse de doctorat en Informatique

Sous la direction de Matei Basarab.

Soutenue le 26-06-2018

à Sorbonne Paris Cité , dans le cadre de École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) , en partenariat avec Université Paris 13 (Etablissement de préparation) et de Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis) (laboratoire) .

Le président du jury était Rosanna Verde.

Le jury était composé de Younès Bennani, Guénaël Cabanes, Thierry Couronne.

Les rapporteurs étaient Pierre Gançarski, Francisco de Carvalho, Guillaume Cleuziou.

  • Titre traduit

    Apprentissage automatique et adaptatif pour le clustering de flux de données relationnelles


  • Résumé

    Le travail de recherche exposé dans cette thèse concerne le développement d’approches d’apprentissage non-supervisé adaptés aux grands jeux de données relationnelles et dynamiques. La combinaison de ces trois caractéristiques (taille, complexité et évolution)constitue un défi majeur dans le domaine de l’exploration de données et peu de solutions satisfaisantes existent pour le moment, malgré les besoins de plus en plus manifestes des entreprises. C’est un véritable challenge, car les approches adaptées aux données relationnelle sont une complexité quadratique inadaptée à l’analyse de données dynamiques. Nous proposons ici deux approches complémentaires pour l’analyse de ce type de données. La première approche est capable de détecter des clusters bien séparés à partir d’un signal créé lors d’un réordonnancement incrémental de la matrice de dissimilarité, sans paramètre à choisir (par ex. le nombre de clusters). La seconde propose d’utiliser des points de support parmi les objets afin de construire un espace de représentation permettant de définir des prototypes représentatifs des clusters. Enfin, nous appliquons les approches proposées au profilage en temps réel d’utilisateurs connectés. Les tâches de profilage visent à reconnaître"l’état d’esprit" des utilisateurs à travers leurs navigations sur différents sites.


  • Résumé

    The research work presented in this thesis concerns the development of unsupervised learning approaches adapted to large relational and dynamic data-sets. The combination of these three characteristics (size, complexity and evolution) is a major challenge in the field of data mining and few satisfactory solutions exist at the moment, despite the obvious needs of companies. This is a real challenge, because the approaches adapted to relational data have a quadratic complexity, unsuited to the analysis of dynamic data. We propose here two complementary approaches for the analysis of this type of data. The first approach is able to detect well-separated clusters from a signal created during an incremental reordering of the dissimilarity matrix, with no parameter to choose (e.g., the number of clusters). The second proposes to use support points among the objects in order to build a representation space to define representative prototypes of the clusters. Finally, we apply the proposed approaches to real-time profiling of connected users. Profiling tasks are designed to recognize the "state of mind" of users through their navigations on different web-sites.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.