Hypertextualisation automatique multilingue à partir des fréquences de N-grammes

par Mohamed Hallab

Thèse de doctorat en Hypermédias

Sous la direction de Alain Lelu.

Soutenue en 2001

à Paris 8 .


  • Résumé

    Nous présentons une méthode multi-langues et multi-écritures pour l'analyse de textes et la génération automatique de liens hypertextuels. Cette méthode caractérise les textes par des vecteurs de fréquences de h-codes de N-grammes. Les données initiales sont filtrées et pondérées avant leur analyse par la méthode de classification non supervisée K-means axiales. Les liens hypertextuels sont la conséquence de cette classification : ils s'établissent d'une part entre les différents éléments d'une même classe, et d'autre part entre les noeuds-thèmes et les noeuds de base (noeuds-documents et noeuds-mots). A l'issue de la classification, une carte globale des thèmes peut être proposée à l'utilisateur comme interface de navigation dans le corpus. Ce travail principel est prolongé par un système d'interrogation bilingue français-anglais. Nous présentons également d'autres prolongements de notre méthode de N-grammes : i) l'approximation lexicale de chaînes de caractères basée sur un indice d'inclusion calculé à partir de fréquences de N-grammes, puis sur un indice de séquence, ii) l'aide à l'indexation par surlignage automatique des termes candidats

  • Titre traduit

    Automatic and multilingual hypertext generation using n-grams frequencies


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 159 f.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 123-131

Où se trouve cette thèse ?