Extraction de données et apprentissage automatique pour les sites web adaptatifs

par Thierry Murgue

Thèse de doctorat en Informatique

Sous la direction de Jean-Jacques Girardot et de Colin de La Higuera.

Soutenue en 2006

à Saint-Etienne, EMSE , en partenariat avec Université Jean Monnet (Saint-Étienne) (autre partenaire) .


  • Résumé

    Les travaux pr´esent´es se situent dans le cadre d’extraction de connaissance `a partir de donn´ees. Un contexte d’´etude int´eressant et d’actualit´e a ´et´e choisi : les sites web adaptatifs. Pour mettre en oeuvre, de mani`ere la plus automatique possible, de tels sites adapt´es aux utilisateurs, nous d´ecidons d’apprendre des mod`eles d’utilisateurs ou, plus pr´ecis´ement, de leurs types de navigations sur un site web donn´e. Ces mod`eles sont appris par inf´erence grammaticale. Les donn´ees disponibles li´ees au contexte du Web sont particuli`erement difficiles `a r´ecup´erer proprement. Nous choisissons de nous focaliser sur les fichiers de logs serveur en supprimant le bruit inh´erent `a ces derniers. L’inf´erence grammaticale peut g´en´eraliser ses donn´ees d’entr´ee pour obtenir de bons mod`eles de langages. Nous travaillons sur les mesures de similarit´e entre langages pour l’´evaluation de la qualit´e des mod`eles appris. L’introduction d’une mesure euclidienne entre mod`eles de langages repr´esent´es sous forme d’automates permet de pallier les probl`emes des m´etriques existantes. Des r´esultats th´eoriques montrent que cette mesure a les propri´et´es d’une vraie distance. Enfin, nous pr´esentons divers r´esultats d’exp´erimentation sur des donn´ees du web que nous pr´e-traitons avant d’apprendre grˆace `a elles des mod`eles utilisateurs issus de l’inf´erence grammaticale stochastique. Les r´esultats obtenus sont sensiblement meilleurs que ceux pr´esents dans l’´etat de l’art, notamment sur les tˆaches de pr´ediction de nouvelle page dans une navigation utilisateur.

  • Titre traduit

    Data Extraction and Machine Learning for Adaptive Web Sites.


  • Résumé

    Our work is about Knowledge Discovery and Data Mining. We focus on web data including server log files. In order to know automatically how to adapt a web site, we decide to learn grammatical models about users behaviors. We show in this work how the web data are difficult to acquire in order to use them in a grammatical inference process. We try to eliminate the almost totality of the noise which is present in these data. We also show how grammatical inference can learn good models by generalizing enough its input data. We explain how difficult the evaluation of the quality of learned models is, and we introduce an euclidean measure between languages models represented by automata. We prove that this measure is a true distance in a mathematical sense. Finally, we propose our experimentation results: we show that our method (from the prepossessing of the data to the evaluation of learned models) gives better success rates for the new page prediction task which is very common in web usage mining.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol (XI-120 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Ecole nationale supérieure des mines. Centre de documentation et d'information.
  • Disponible pour le PEB
  • Cote : 006.31 MUR
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.