Extraction d'informations à partir du Web

par Benjamin Habegger

Thèse de doctorat en Informatique

Sous la direction de Mohamed Quafafou.

Soutenue en 2004

à Nantes .


  • Résumé

    Avec l'essor du Web, de nombreuses sources de données en ligne, telles que des annuaires en ligne, des sites immobiliers, des sites de commerce électronique, des moteurs de recherches, etc. Sont apparues. Cependant ces sources de données ont été conçues pour être parcourues et visualisées par des utilisateurs humains utilisant un navigateur. Bien que riche en contenu, les formats que prennent ces sources sont des formats de présentation et il est alors difficile pour une machine d'utiliser les informations directement. Pourtant, donner à des programmes informatiques un accès à de telles sources ouvre la porte à de nombreuses applications telles que la création d'agents intelligents accédant aux données du Web, à l'intégration de données du Web dans des systèmes de médiation de données, etc. Deux problèmes majeurs se posent pour permettre cet accès. Premièrement, il est nécessaire d'extraire les informations que contiennent les pages résultats d'une sources et de les mettre dans un format compréhensible par la machine. Deuxièmement, la machine doit savoir comment accéder à la source. En effet, on doit savoir où poster une requête, comment parcourir l'ensemble de pages résultats, etc. Pour résoudre le premier problème nous proposons d'utiliser une méthode dans laquelle l'utilisateur décrit les informations qu'il souhaite extraire en donnant quelques instances exemples de celles-ci. Les contextes d'occurrence de ces exemples sont alors recherchés dans les pages résultats de la source et généralisés afin d'extraire de nouvelles instances. Par rapport aux méthodes existantes dans la littérature celle que nous proposons permet d'extraire précisément les données souhaitées sans toutefois avoir à étiqueter manuellement des pages exemples entières. D'autre part, nous proposons une solution au second problème : permettre à la machine d'accéder à une source. Par l'étude de plusieurs sources, nous avons mis en avant un ensemble d'opérateurs récurrents dont le paramétrage et la combinaison permet l'accès aux sources. Nous proposons le langage WETDL afin de décrire les opérateurs et leurs combinaisons. Nous proposons aussi plusieurs algorithmes permettant "d'exécuter" ces descriptions et ainsi réaliser une tâche d'extraction.


  • Résumé

    With the growth of the Web, many on line sources such as on-line address books,es in line, real estate sites, e-commerces sites, etc. Have appeared. However these data sources are destined to be accessed and viewed by human users. While being content rich, these pages are in presentational format thus making it difficult for an automated machine access. However, giving such machine access opens the door to many applications such as allowing intelligent agents to make us of Web sources, allowing to include Web sources in data mediations systems, etc. In order to give such an access two major problems need to be resolved. First, it is necessary to be able to extract the information contained in the result documents and put this information into the machine understandable format. Second, the machine must know how to access the source, i. E. How to build queries the source will understand, where to post the queries, how to navigate through the result pages, etc. To resolve the first problem we propose a method in which the user specifies the information he wishes to extract by giving example instances of this information. The contexts of the occurrences of these instances are searched for in the result pages and generalized allowing to extract unseen instances. Compared the methods of the literature this method allows to precisely extract the desired information without having to fully manually label example pages. We also propose a solution to the second problem: allowing the machine to access a source. By the study of multiple on-line sources we put front a set of recurrent operators whose parameter settings and combination allows to access a source. We propose a language WETDL in order to describe the operators and their combination. We also give different algorithms allowing "to execute" such a description thus allowing to realize an extraction task.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : XII-208 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 163-169

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.