Thèse soutenue

Contextualisation des contenus Web par l'enrichissement sémantique à partir de données

FR  |  
EN
Auteur / Autrice : Amit Kumar
Direction : Marc Spaniol
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 03/12/2021
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....)
établissement de préparation : Université de Caen Normandie (1971-....)
Jury : Président / Présidente : Pierre Senellart
Examinateurs / Examinatrices : Marc Spaniol, Patrice Bellot, Adam Jatowt, Cecilia Zanni-Merk
Rapporteurs / Rapporteuses : Patrice Bellot, Adam Jatowt

Résumé

FR  |  
EN

Les trente années d'existence du Web ont donné lieu à une quantité phénoménale de contenus et cette croissance énorme se poursuit, voire s'accélère. Les utilisateurs du Web sont donc confrontés à une abondance d'informations. Bien que cela soit clairement bénéfique, il existe un risque de “surcharge d'informations” et il est très difficile pour un utilisateur du Web d'accéder, de contextualiser et de digérer les contenus du Web. Il est donc de plus en plus nécessaire pour catégoriser, de résumer et/ou d'interpréter les contenus du Web afin d'obtenir une contextualisation adéquate. Alors que les contenus des premières années étaient principalement de “simples” documents HTML, les plus récents sont devenus de plus en plus "interprétables par les machines" et contribuent au nuage de données ouvertes liées (LOD) en constante expansion. LeLOD nous offre une multitude de possibilités de recherche pour étudier et récolter des informations sur les contenus du Web.Dans cette thèse, nous étudions une variété de tâches liées à la contextualisation sémantique des contenus Web. Plus précisément, nous abordons trois facettes dans le contexte de la distillation des contenus Web, à savoir, l'analyse de contenu axée sur les entités, l'annotation et la recherche sémantiques, et le traçage sémantique des utilisateurs. Nous supposons que les entités nommées et leurs types présents dans un document Web véhiculent des informations sémantiques substantielles. Nous avons démontré, à l'aide de multiples études, que la projection des contenus Web au niveau des entités permet de capturer leur sémantique fondamentale. Ainsi, elle fournit des connaissances significatives sur le contenu du Web et, par conséquent, une meilleure compréhension. Nous présentons de nouveaux résultats sur diverses tâches dans le but d'atteindre notre objectif global d'une meilleure contextualisation des contenus Web.