Intégration des connaissances ontologiques dans la fouille de motifs séquentiels avec application à la personnalisation web

par Mehdi Adda

Thèse de doctorat en Informatique

Sous la direction de Petko Valtchev,Chabane Djeraba et de Rokia Missaoui.

Soutenue le 21-11-2008

à Lille 1 en cotutelle avec l'Université de Montréal (Canada).


  • Résumé

    La fouille de données vise à extraire des connaissances à partir d'un grand volume de données. Lorsque les associations et l'ordre chronologique d'apparition des items sont recherchés, les connaissances extraites sont appelées motifs séquentiels. Les travaux de recherche existants ont porté principalement sur l'étude de motifs séquentiels composés d'objets et dans un certain nombre de cas, de catégories d'objets (concepts). Alors que les motifs d'objets sont trop spécifiques, et de ce fait peuvent être peu fréquents, les motifs de concepts ont divers niveaux d'abstraction et risquent d'être moins précis. La prise en compte d'une ontologie du domaine dans le processus de fouille de données permet de découvrir des motifs plus compacts et plus pertinents qu'en l'absence d'une telle source de connaissance. En outre, les objets peuvent non seulement être décrits par les concepts auxquels ils se rattachent mais aussi par les liens sémantiques qui existent entre concepts. Cependant, les approches de fouille existantes restent restrictives par rapport aux modes d'expression offerts par une ontologie. La contribution de ce travail est de définir la syntaxe et la sémantique d'un langage de motifs qui prennent en considération les connaissances incorporées dans une ontologie lors de la fouille de motifs séquentiels. Ce langage offre un ensemble de primitives pour la description et la manipulation de motifs. La méthode de fouille sous-jacente procède au parcours de l'espace de motifs par niveau en se basant sur un ensemble de primitives de navigation. Ces primitives tiennent compte de la relation de généralisation/spécialisation qui existe entre les concepts (et les relations) des motifs. Afin de valider notre approche et analyser la performance et la mise à l'échelle de l'algorithme proposé, nous avons développé la plateforme OntoMiner. Tout au long de la thèse, le potentiel de notre approche de fouille a été illustré à travers un cas de recommandation Web. Il ressort que l'inclusion des concepts et des relations dans le processus de fouille permet d'avoir des motifs plus pertinents et de meilleures recommandations que les approches classiques de fouille de motifs séquentiels ou de recommandation

  • Titre traduit

    Integrating ontological knowledge in sequential pattern mining process and their application to web personalization


  • Résumé

    Data mining aims at extracting knowledge patterns classes or exceptions from a large set of data. When both associations and temporal order between items are sought, the discovered knowledge are called sequential patterns. Existing studies were conducted mainly on sequential patterns involving objects and in·some cases object categories. While patterns based on objects are too specific, non frequent, patterns based on categories (concepts) may have different levels of abstraction and be possibly less precise. Taking into account a given domain ontology during a data mining process allows the discovery of more compact and relevant patterns than in case of the absence of such source of knowledge. Moreover, objects may be not only expressed by the concepts they are attached to, but also by the semantic links that hold between concepts. However, related studies that exploited domain knowledge are restrictive with regard to the expressive power offered by ontology. Our contribution consists to define the syntax and the semantics of a pattern language which exploits knowledge embedded in an ontology during the process of mining sequential patterns. The language offers a set of primitives for pattern description and manipulation. Our data mining technique explores the pattern space level by level using a set of navigation primitives which take into account the generalization/spécialization links that hold between concepts (and relationships) contained in patterns at different abstraction levels. ln order to validate our approach and analyze the performance and scalability of the proposed algorithm, we developed the OntoMiner plateform. Throughout this thesis, the potential of our mining approach was illustrated with an example of Web recommendation. We came to the conclusion that taking into account concepts relationships of an ontology during the process of data mining allows the generation of more relevant patterns and leads to better recommendations than conventional approaches for sequential pattern mining or recommendation making .

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (180-xlix p.)
  • Annexes : Bibliogr. p. [170]-180. 92 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université des sciences et technologies de Lille (Villeneuve d'Ascq, Nord). Service commun de la documentation.
  • Disponible pour le PEB
  • Cote : 50376-2008-327
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.