Extraction de séquences inattendues : des motifs séquentiels aux règles d’implication

par Dong Haoyuan Li

Thèse de doctorat en Informatique

Sous la direction de Pascal Poncelet et de Anne Laurent.

Soutenue en 2009

à Montpellier 2 .


  • Résumé

    Les motifs séquentiels peuvent être vus comme une extension de la notion d'itemsets fréquents intégrant diverses contraintes temporelles. La recherche de tels motifs consiste ainsi à extraire des enchaînements d'ensembles d'items, couramment associés sur une période de temps bien spécifiée. La construction de règles à partir de ces motifs séquentiels permet d'étendre la notion de règles d'association pour la pris en compte de la temporalité. En fait, cette recherche met en évidence des associations inter-transactions, contrairement à celle des règles d'association qui extrait des combinaisons intra-transactions. Ce problème, posé à l'origine dans un contexte de marketing, intéresse à présent des domaines aussi variés que les télécommunications, la finance, ou encore la médecine et la bioinformatique. Même s'il existe aujourd'hui de très nombreuses approches efficaces pour extraire des motifs, ces derniers ne sont pas forcément adaptés aux besoins des applications réelles. En fait, les résultats obtenus sont basés sur une mesure statistique et ne tiennent pas compte de la connaissance du domaine. De plus, ces approches sont principalement axées sur la recherche de tendances et ne permettent pas d'extraire des connaissances sur les éléments atypiques ou inattendus. Dans le cadre de cette thèse, nous nous intéressons donc à la problématique de l'extraction de motifs séquentiels et règles inattendus en intégrant la connaissance du domaine. Le travail présenté dans cette thèse comporte la mise en œuvre d'un cadre MUSE pour l'extraction de séquences inattendues par rapport à un système de croyances, des extensions avec la théorie de logique floue, l'intégration des données hi

  • Titre traduit

    Discovery of Unexpected Sequences : from Sequential Patterns to Implication Rules


  • Résumé

    The sequential patterns can be viewed as an extension of the notion of association rules with integrating temporal constraints, which are effective for representing statistical frequency based behaviors between the elements contained in sequence data, that is, the discovered patterns are interesting because they are frequent. However, with considering prior domain knowledge of the data, another reason why the discovered patterns are interesting is because they are unexpected. In this thesis, we investigate the problems in the discovery of unexpected sequences in large databases with respect to prior domain expertise knowledge. We first methodically develop the framework Muse with integrating the approaches to discover the three forms of unexpected sequences. We then extend the framework Muse by adopting fuzzy set theory for describing sequence occurrence. We also propose a generalized framework SoftMuse with respect to the concept hierarchies on the taxonomy of data. We further propose the notions of unexpected sequential patterns and unexpected implication rules, in order to evaluate the discovered unexpected sequences by using a self-validation process. We finally propose the discovery and validation of unexpected sentences in free format text documents. The usefulness and effectiveness of our proposed approaches are shown with the experiments on synthetic data, real Web server access log data, and text document classification.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (172 p.)
  • Annexes : Bibliogr. p. 153-167. Annexes

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque interuniversitaire. Section Sciences.
  • Disponible pour le PEB
  • Cote : TS 2009.MON-253
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.