Extraction dans les textes de connaissances structurées : une méthode fondée sur la sémantique lexicale linguistique

par Florence Pugeault

Thèse de doctorat en Informatique

Sous la direction de Patrick Saint-Dizier.

Soutenue en 1995

à Toulouse 3 .


  • Résumé

    Cette these presente des travaux qui s'inscrivent dans le cadre de l'informatique linguistique et plus precisement dans le domaine de l'extraction de connaissances a partir de textes. Notre but est d'aller au-dela de l'indexation classique par mots-cles en representant l'information retenue comme pertinente sous une forme structuree. Ce projet a fait l'objet d'une collaboration avec la direction des etudes et des recherches d'edf. Pour representer le contenu semantique de textes rediges sans contrainte d'expression, nous avons distingue trois niveaux d'analyse: le niveau pragmatique, le niveau linguistique et le niveau conceptuel. Le niveau pragmatique permet le decoupage d'un texte selon ses parties rhetoriques qui correspondent a des articulations. Le niveau linguistique consiste a structurer les fragments de phrases pertinents pour chaque articulation sous la forme de structures predicatives etiquetees par des roles thematiques precis. Enfin, le niveau conceptuel vise a ameliorer la qualite d'exploitation des resultats du niveau linguistique, notamment en vue de l'interrogation de bases documentaires. Apres analyse de differentes approches, nous avons retenu la lcs (structure lexicale conceptuelle), theorie de jackendoff, pour representer conceptuellement les predicats consideres. Notre contribution sur le plan linguistique a consiste en un travail en profondeur sur la definition de l'ensemble des ressources linguistiques necessaires aux differentes etapes d'analyse que nous avons identifiees. Nous avons notamment defini un ensemble de roles thematiques qio ont une dimension cognitive et un certain nombre de donnees supplementaires en relation avec la lcs (primitives, etc. ). Nous avons aussi caracterise des elements de methode pour la definition de ressources lcs specifiques a un corpus donne. Nos analyses ont ete validees par la mise en uvre du prototype papins (prototype d'analyse pour la production d'index semantiques) que nous avons developpe en prolog

  • Titre traduit

    Structured knowledge extraction from texts: a method based on linguistic lexical semantics


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (v-375 p.)

Où se trouve cette thèse ?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 1995TOU30164

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : MF-1995-PUG
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.