Analyse probabiliste du contenu de pages web : représentation des sémantiques de contenu dans le paradigme bayésien

par Alexander A. Spengler

Thèse de doctorat en Informatique

Sous la direction de Patrick Gallinari.

Soutenue en 2011

à Paris 6 .

  • Titre traduit

    Probabilistic web content analysis : representation of content semantics in the bayesian diagnostic paradigm


  • Résumé

    Une identification automatique des contenus pertinents de pages Web facilite une large variété d'applications réelles. Finalement, elle nécessite une segmentation du contenu ainsi qu'une classification des segments résultants. Nous proposons donc d'aborder l'analyse du contenu de pages Web dans un cadre de classification interdépendante, établissant la cohérence sémantique à travers des fonctions caractéristiques d'interaction qui décrivent la configuration de plusieurs régions de contenu sémantiquement indivisible. Dans cette thèse, nous proposons de traiter les incertitudes avec un cadre probabiliste cohérent : le paradigme Bayésien. Nous tentons d'éclairer les conditions pour lesquelles un modèle probabiliste peut être justifié en déduisant sa forme de représentation à partir d'hypothèses sur des quantités observables. En particulier, nous examinons différentes dépendances Markoviennes entre des catégories de contenu d'une même page Web. Nous présentons également une analyse informelle des caractéristiques, élucidant l'information disponible dans le contenu, la structure et le style d'une page Web. Une telle analyse est essentielle à la fois pour une modélisation probabiliste formelle et pour une bonne performance prédictive. En outre, nous introduisons une nouvelle base de données publique, appelée News600. Elle contient 604 pages Web réelles de 206 sites, avec plus de 30 catégories sémantiques annotées de manière précise. Enfin, nous menons une série d'expériences sur ce corpus qui démontre que même des modèles relativement simples atteignent des résultats significativement meilleurs que l'état de l'art actuel.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XVIII-156 p.)
  • Annexes : Bibliogr. p. 143-156. [223] réf. bibliogr.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque Mathématiques-Informatique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2011 590
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.