Extraction de motifs séquentiels dans des données multidimensionnelles

par Marc Plantevit

Thèse de doctorat en Informatique

Sous la direction de Maguelonne Teisseire et de Anne Laurent.

Soutenue en 2008

à Montpellier 2 .


  • Résumé

    L'extraction de motifs séquentiels est devenue, depuis son introduction, une technique majeure du domaine de la fouille de données avec de nombreuses applications à la clé (analyse du comportement des consommateurs, bioinformatique, sécurité, musique, etc. ). Les motifs séquentiels permettent la découverte de corrélations entre événements en fonction de leurs chronologies d'apparition. Il existe de nombreux algorithmes permettant l'extraction de tels motifs. Toutefois, ces propositions ne prennent en compte qu'une seule dimension d'analyse (e. G le produit dans les applications de type étude des achats des consommateurs) alors que la plupart des données réelles sont multidimensionnelles par nature. Dans ce manuscrit, nous définissons les motifs séquentiels multidimensionnels afin de prendre en compte les spécificités inhérentes aux bases de données multidimensionnelles (plusieurs dimensions, hiérarchies, valeurs agrégées). Nous définissons des algorithmes permettant l'extraction de motifs séquentiels multidimensionnels en tenant compte des ces spécificités. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions. Nous nous intéressons également à l'extraction de comportements temporels atypiques dans des données multidimensionnelles. Nous montrons qu'il peut y avoir plusieurs interprétations d'un comportement atypique (fait ou connaissance). En fonction de chaque interprétation, nous proposons une méthode d'extraction de tels comportements. Ces méthodes sont également validées par des expérimentations sur des données réelles

  • Titre traduit

    Mining Sequential Patterns in Multidimensional Data


  • Résumé

    Sequential pattern mining is a key technique of data mining with broad applications (user behavior analysis, bioinformatic, security, music, etc. ). Sequential pattern mining aims at discovering correlations among events through time. There exists many algorithms to discover such patterns. However, these approaches only take one dimension into account (e. G. Product dimension in customer market basket problem analysis) whereas data are multidimensional in nature. In this thesis, we define multidimensional sequential patterns to take the specificity of multidimensional databases (several dimensions, hierarchies, aggregated value). We define algorithms that allow the discovery of such patterns by handling this specificity. Some experiments on both synthetic and real data are reported and show the interest of our proposals. We also focus on the discovery of atypical behavior. We show that there are several interpretations of an atypical behavior (fact or knowledge). According to each interpretation, we propose an approach to discover such behaviors. These approaches are also validated with experiments on real data

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (216 p.)
  • Annexes : Bibliogr. p. 205-216. Annexes

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque interuniversitaire. Section Sciences.
  • Disponible pour le PEB
  • Cote : TS 2008.MON-66
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.