Extraction de motifs séquentiels dans les flux de données

par Alice-Maria Marascu

Thèse de doctorat en Informatique

Sous la direction de Yves Lechevallier.


  • Résumé

    In recent years, many applications dealing with data generated continuously and at high speeds have emerged. These data are now qualified as data streams. Dealing with potentially infinite quantities of data imposes constraints that raise many processing problems. As an example of such constraints we have the inability to block the data stream as well as the need to produce results in teal time. Nevertheless, many application areas (such as bank transactions, Web usage, network monitoring, etc. ) have attracted a lot of interest in both industry and academia. These potentially infinite quantities of data prohibit any hope of compete storage ; we need, however, to be able to examine the history of the data streams. This led to the compromise of “summaries” of the data stream and “approximate” results. Today, a huge number of different types of data stream summaries have been proposed. However, continuous developments in technology and in corresponding applications demand a similar progress of summary and analysis methods. Moreover, sequential pattern extraction is still little studied : when this thesis began, there where no methods for extracting sequential patterns from data streams. Motivated by this context, we are interested in a method that summarizes the data stream in an efficient and reliable way and that has a main purpose the extraction of sequential patterns. In this thesis, we propose the CLUSO (bf Clustering, Summarizing and Outlier detection) approach. CLUSO allows us to obtain clusters from a stream of sequences of itemsets, to compute and maintain histories of these clusters and to detect outliers. The contribution detailed in this report concern : i) clustering sequences of itemsets in data streams. To the best of our knowledge, it is the first work in this domain. Ii) Summarizing data streams by way of sequential pattern extraction. Summaries given by CLUSO consist of aligned sequential patterns representing clusters associated to their history in the stream. The set of such patterns is a reliable summary of the stream at time t. Managing the history of these patterns is a crucial point in stream analysis. With CLUSO we introduce a new way of managing time granularity in order to optimize this history. Iii) Outlier detection. This detection <hen related to data streams, must be fast and reliable. More precisely, stream constraints forbid requiring parameters or adjustments from the end-user (ignored outliers of their late detection can be detrimental). Outlier detection in CLUSO is automated and self-adjusting. We also present a case study on real date, written in collaboration with Orange labs.

  • Titre traduit

    Sequential pattern extraction from data streams


  • Résumé

    Ces dernières années ont vu apparaître de nombreuses applications traitant des données générées en continu et à de grandes vitesses ; Ces données sont désormais connues sous le nom de flux de données. Leurs quantités de données potentiellement infinies ainsi que les contraintes qui en dérivent posent de nombreux problèmes de traitement. Parmi ces contraintes, citons par exemple l’impossibilité de bloquer un flux de données, ou encore le besoin de produire des résultats en temps réel. Néanmoins, les multiples domaines d’application de ces traitements (comme les transactions bancaires, l��usage du Web, la surveillance des réseaux, etc. ) ont suscité beaucoup d’intérêt tant dans les milieux industriels qu’académiques. Ces quantités potentiellement infinies de données interdisent tout espoir de stockage complet ; toutefois, on a besoin de pouvoir interroger l’historique des flux. Cela conduit au compromis des « résumés » des flux de données et des résultats « approximatifs ». Aujourd’hui, un grand nombre de méthodes propose différents types de résumés des flux de données. Mais le développement incessant de la technologie et des applications afférentes demande un développement au moins équivalent des méthodes d’analyse et de résumé. De plus, l’extraction de motifs séquentiels y est encore peu étudiée : au commencement de cette thèse, il n’existait aucune méthode d’extraction de motifs séquentiels dans les flux de données. Motivés par ce contexte, nous nous sommes intéressés à une méthode qui résume les flux de données d’une manière efficace et fiable et qui permet principalement d’en extraire des motifs séquentiels. Dans cette thèse, nous proposons l’approche CLARA (Classification, Résumés et Anomalies). CLARA permet d’obtenir des clusters à partir d’un flux de séquences d’itemsets, de calculer et gérer des résumés de ces clusters et d’y détecter des anomalies. Les différentes contributions détaillées dans ce mémoire concernent : i) la classification non supervisée de séquences d’itemsets sous forme de flux. A notre connaissance, cette technique est la première à permettre une telle classification. Ii) les résumés de flux de données à l’aide de l’extraction de motifs. Les résumés de CLARA sont composés de motifs séquentiels alignés représentant les clusters associés à leur historique dans le flux. L’ensemble de ces motifs permet de résumé le flux de manière fiable à un instant t. La gestion de l’historique de ces motifs est un point essentiel dans l’analyse des flux. CLARA introduit une nouvelle gestion de la granularité temporelle afin d’optimiser cet historique. Iii) la détection d’anomalies. Cette détection, quand elle concerne les flux, doit être rapide et fiable. En particulier, les contraintes liées aux flux interdisent de consulter l’utilisateur final pour ajuster des paramètres (une anomalie détectée trop tard peu avoir de graves conséquences). Avec CLARA, cette détection est automatique et auto-adaptative. Nous proposons également un cas d’étude sur des données réelles, réalisé en collaboration avec Orange Labs.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xvii-209 p.)
  • Annexes : Bibliogr. p. 189-205. Résumés en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Section Sciences.
  • Non disponible pour le PEB
  • Cote : 09NICE4051
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.