Thèse de doctorat en Hypermédias
Sous la direction de Alain Lelu.
Soutenue en 2001
à Paris 8 .
Nous présentons une méthode multi-langues et multi-écritures pour l'analyse de textes et la génération automatique de liens hypertextuels. Cette méthode caractérise les textes par des vecteurs de fréquences de h-codes de N-grammes. Les données initiales sont filtrées et pondérées avant leur analyse par la méthode de classification non supervisée K-means axiales. Les liens hypertextuels sont la conséquence de cette classification : ils s'établissent d'une part entre les différents éléments d'une même classe, et d'autre part entre les noeuds-thèmes et les noeuds de base (noeuds-documents et noeuds-mots). A l'issue de la classification, une carte globale des thèmes peut être proposée à l'utilisateur comme interface de navigation dans le corpus. Ce travail principel est prolongé par un système d'interrogation bilingue français-anglais. Nous présentons également d'autres prolongements de notre méthode de N-grammes : i) l'approximation lexicale de chaînes de caractères basée sur un indice d'inclusion calculé à partir de fréquences de N-grammes, puis sur un indice de séquence, ii) l'aide à l'indexation par surlignage automatique des termes candidats
Automatic and multilingual hypertext generation using n-grams frequencies
Pas de résumé disponible.