Extraction de données à partir de pages Web pour la mesure du comportement des internautes

par Nikolay Georgiev

Thèse de doctorat en Informatique

Sous la direction de Jean-Marc Labat et de Jean-Luc Minel.

Soutenue en 2006

à Paris 5 .


  • Résumé

    Si l’information disponible sur Internet augmente de manière exponentielle, elle reste aujourd’hui largement inexploitable par les moyens informatiques en raison de sa nature textuelle. La problématique « Comment accéder à l’information disponible sous forme de pages HTML/XHTML ? » garde donc toute sa pertinence. Dans ce travail nous nous intéressons au problème de l’identification des pages web et de l’extraction de données pertinentes, dans le but d’évaluer finement le comportement des internautes à partir de panels de centaines de milliers de personnes, ce qui représente des dizaines de millions de pages visitées à analyser. La nouveauté apportée par notre approche réside dans la méthodologie d’extraction qui est basée sur la reconnaissance progressive de sous-structures nommées « structures locales » et sur le concept de « couple d’information ». Notre recherche a pu être validée par le développement d’un outil robuste, fiable et facile d’utilisation.

  • Titre traduit

    Titre en anglais : Data extraction from web pages for the needs of the internet mesurement science


  • Résumé

    While the information available on the internet increases exponentially, it is still not completely accessible for the current technologies, because of its text nature. The question “How to access the information stored in HTML/XHTML format?” does not have a precise answer yet. In this work we are interested in the problem of web pages identification and data extraction for the need of the internet measurement science, where the data volumes are in the order of tenths of millions pages to analyse. The innovation introduced by our approach resides in the extraction methodology which is based on the recognition of sub structures called “local structures” and on the concept of “information couple”, which consists of the idea to associate the extracted data with relevant visual markers. Our research has also been validated throuqh the development of a robust and easy to use data extraction tool.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (209 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. [205]-209

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Descartes-Bibliothèque de psychologie Henri Piéron (Boulogne-Billancourt, Hauts-de-Seine). Service commun de documentation.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.