Syfweb : un système de filtrage d'informations sur le Web

par Tahar Amrane

Thèse de doctorat en Informatique documentaire

Sous la direction de Richard Bouché.

Soutenue en 2003

à Lyon 1 .


  • Abstract

    Syfweb est un méta moteur de recherche ; il permet d'interroger les moteurs de recherche sur le Web et de récupérer, analyser et trier les résultats selon une formule de pertinence prenant en compte dans son calcul le contenu intégral des documents. Les documents sont partagés en zones classées par ordre d'importance et leur pertinence se trouve augmentée ou diminuée suivant la présence ou l'absence des termes de la requête dans ces documents. A chaque document est attribuée une matrice d'occurrences faisant apparaître les zones clés du document, avec pour chaque zone les occurrences des termes de la requête. Syfweb va au-delà de la recherche sur le Web : il permet, en outre, d'interroger en local les documents à contenu textuel ; ceci permet à son utilisateur d'effectuer des recherches dans un espace à deux dimensions (Internet, Intranet). Dans son traitement ; Syfweb se base sur :1. Le développeur de requête : à partir de la requête posée par l'utilisateur, Syfweb utilise une base terminologique (WordNet ou la Base terminologique du Québec BTQ) pour construire un ensemble de requêtes. L'utilisateur intervient de façon active tant au niveau de la terminologie que dans le choix des requêtes qui seront envoyées au système. 2. L'extracteur des documents : interroge les moteurs de recherches avec l'union des requêtes validées et récupère les documents-réponses, il élimine les doublons, les documents avec des liens vides et ceux ne respectant pas le profil de l'utilisateur (taille minimale des documents, type des documents, domaine des sites). 3. Le classificateur : classe les documents retenus après une analyse statistique de leur contenus. L'affichage de la valeur de pertinence dans Syfweb alerte l'utilisateur sur la mauvaise qualité de la réponse des moteurs et méta moteurs à la question posée. Pour continuer sa recherche, l'utilisateur doit : soit reformuler sa requête avec d'autres termes équivalents, soit interroger d'autres moteurs ou méta moteurs de recherche.


  • Pas de résumé disponible.

Consult en bibliothèque

Version is available sous forme papier

Informations

  • Détails : 252 f.
  • Notes : Publication autorisée par le jury
  • Annexes : 76 réf. bibliogr.

Where is this thesis?

  • Bibliothèque : Université Claude Bernard (Villeurbanne, Rhône). Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
  • Cote : T50/210/2003/8bis
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.