Articuler les classifications sémantiques induites d'un domaine

par Helka Folch

Thèse de doctorat en Informatique

Sous la direction de Daniel Kayser.

Soutenue en 2002

à Paris 13 .


  • Résumé

    Nous montrons la nécessité d'une analyse sémantique endogène pour faciliter l'accès au volume croissant de documents disponibles suite au développement exponentiel d'Internet. Cet afflux de texte on line génère la constitution de corpus hétérogènes qui rendent complexe la conception de modèles d'accés sémantique aux documents. Dans de tels cas, la projection de structures sémantiques a priori n'est pas une démarche adaptée pour un accès efficace aux documents. De même la recherche plein texte par mots clés n'est pas appropriée lorsque ceux-ci sont polysémiques. Le sens des mots est souvent contextuel et leur ambigui͏̈té est plus problématique dans les corpus hétérogènes. Nous avons montré ensuite que cette approche requiert une modélisation particulière du corpus de documents permettant de classer les contextes en fonction de la répartition de leurs traits ou les traits en fonction des contextes partagés et qu'il est nécessaire d'apporter des raffinements à cette modélisation, notamment par le biais de modules d'inférence en amont. Comme exemple d'affinage de traits, nous avons montré que l'inférence de traits syntaxiques dans le cadre d'un langage de description logique (les quasi-arbres) permet de construire des classes basées sur des proximités de comportement fin entre les mots. Nous avons montré aussi que les contraintes imposées par cette approche induisent des besoins en terme d'architecture de corpus. L'architecture que nous avons bâtie permet : l'extraction, à partir des corpus hétérogènes, d'unités textuelles pertinentes, la représentation des corpus extraits permettant le retour au document d'origine et le suivi de leur historique de traitements et la projection sur la base de documents des classes sémantiques obtenues afin de permettre une navigation hypertextuelle dans la base. Nous avons montré les limites des langages hypertextuels comme dans HTML et la nécessité d'utiliser un langage (Topic Maps) qui permet d'associer une sémantique aux liens.

  • Titre traduit

    Articulation of multiple acquired semantic classifications


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 221 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 143-150

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Sciences.
  • Disponible pour le PEB
  • Cote : TH 2002 010
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.