Génération d'adaptateurs web intelligents à l'aide de techniques de fouilles de texte

by Huaizhong Kou

Doctoral thesis in Informatique

Under the supervision of Georges Gardarin.

defended on 2003

in Versailles-St Quentin en Yvelines .

  • Alternative Title

    Intelligent web wrapper generation using text mining techniques


  • Abstract

    This thesis defines a system framework of semantically integrating Web information, called SEWISE. It can integrate text information from various Web sources belonging to an application domain into common domain-specific concept ontology. In SEWISE, Web wrappers are built around different Web sites to automatically extract interesting information from. Text mining technologies are then used to discover the semantics Web documents talk about. SEWISE can ease topic-oriented information researches over the Web. Three problems related to the document categorization are studied. Firstly, we investigate the approaches to feature selection and proposed two approaches CBA and IBA to select features. To estimate statistic term associations and integrate them within document similarity model, a mathematical model is proposed. Finally, the category score calculation algorithms used by k-NN classifiers are studied. Two weighted algorithms CBW and IBW to calculate category score are proposed


  • Abstract

    Cette thèse définit un système d'informations Web d'intégration sémantique, appelé SEWISE qui peut intégrer des informations textuelles provenant de différentes sources Web. Dans SEWISE les adaptateurs Web sont construits autour de différents sites Web pour extraire automatiquement des informations intéressantes. Des technologies de fouille de texte sont alors employées pour découvrir des sémantiques abordées dans les documents. SEWISE peut assister à la recherche des informations sur le Web. Trois problèmes liés à la catégorisation de document sont étudiés. Premièrement, nous étudions les approches de sélection de termes et nous proposons deux approches CBA et IBA pour choisir ces termes. Puis, pour estimer des associations statistiques entre termes, un modèle mathématique est proposé. Finalement, les algorithmes de calculs de scores de catégories employées par des classificateurs k-NN sont étudiés. Deux algorithmes pondérés CBW et IBW pour calculer des scores de catégories sont proposés.

Consult library

Version is available as a paper

Informations

  • Details : X-180 p.
  • Notes : Publication autorisée par le jury
  • Annexes : 193 REF. Bibliogr. p. 164-176

Where is this thesis?

  • Library : Université de Versailles Saint-Quentin-en-Yvelines. Direction des Bibliothèques et de l'Information Scientifique et Technique-DBIST. Bibliothèque universitaire Sciences et techniques.
  • Unvailable for PEB
  • Odds : T030011
  • Library : Université de Versailles Saint-Quentin-en-Yvelines. Direction des Bibliothèques et de l'Information Scientifique et Technique-DBIST. Bibliothèque universitaire Sciences et techniques.
  • Available for PEB
  • Odds : 006.3 KOU
See the Sudoc catalog libraries of higher education and research.