Interpretation automatique des sequences binominales en anglais et en francais. Application a la recherche d'informations

par Cécile Fabre

Thèse de doctorat en Informatique

Sous la direction de M.-O. CORDIER.

Soutenue en 1996

à Rennes 1 .

    mots clés mots clés


  • Résumé

    Dans les textes techniques, ou l'unite lexicale et conceptuelle est le groupe de mots plutot que le mot simple, les sequences nominales complexes (noms formes de plusieurs mots) forment l'essentiel des connaissances terminologiques extractibles. Notre objectif est de rendre accessible l'information conceptuelle contenue dans ces termes en calculant automatiquement leur representation semantique a partir des elements simples qui les constituent. Nous etudions une categorie particuliere de sequences, les sequences binominales en anglais et en francais (window manager, diagramme de rayonnement). Nous proposons un modele unifie pour les deux langues qui etend l'ensemble des sequences semantiquement caracterisables et permet en particulier de realiser une analyse compositionnelle des sequences a relation implicite, dont le sens est repute impredictible (ex: milk disease designe une maladie causee par le lait alors que plant disease designe une maladie qui affecte une plante), par opposition aux sequences qui fournissent des indices morpho-syntaxiques pour calculer la relation (ex: wave detector est un instrument pour detecter des ondes). Grace a une definition elargie des proprietes predicatives du nom, nous integrons au calcul semantique les informations linguistiques et pragmatiques necessaires pour traiter ces deux categories de sequences. Nous montrons comment ce modele hors domaine peut etre utilise et enrichi lorsque des connaissances supplementaires relatives a un domaine ou un corpus specifiques sont disponibles. Nous avons menage des points d'entree pour cette phase de specialisation et nous definissons en particulier des techniques pour limiter les interpretations multiples generees par l'analyse compositionnelle hors domaine. Nous presentons une experimentation realisee dans le cadre d'un systeme de recherche d'informations. Nous montrons que le calcul semantique des sequences binominales permet d'ameliorer les performances du systeme sur deux points importants: la desambiguisation des mots et le reperage de paraphrases semantiques


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 196 P.
  • Annexes : 103 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 1996/172
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.