Extraction automatique de connaissances à partir de corpus de textes

par Karine Gurtner

Thèse de doctorat en Sciences

Sous la direction de Christian Fluhr et de Alain Vuillemin.

Soutenue en 2000

à Paris 7 .


  • Résumé

    L'extraction automatique de connaissances réalisée dans cette thèse consiste à repérer certains événements présents dans un texte. Ces événements sont constitués par un verbe ou un substantif représentant l'action et des entités factuelles représentant les circonstances de cette action (acteur et date de l'action par exemple). Indépendamment de la conception proprement dite du système d'extraction, plusieurs réflexions préalables ont été menées sur les applications de la recherche documentaire et de l'extraction automatique de connaissances, notamment sur les applications à la recherche littéraire. L'étude menée a entraîné la recherche des procédures d'analyse existantes et fait ressortir les difficultés propres à chaque langue pour le Traitement Automatique du Langage Naturel. La méthode d'extraction des connaissances utilisée est fondée sur une analyse syntaxique du texte puis sur un repérage des mots ou des catégories grammaticales introduisant systématiquement le même type d'entités factuelles. Le système comporte quatre étages. Après avoir repéré et étiqueté les entités factuelles selon leur type (noms de personnes, noms de lieux, noms de sociétés, dates ou mesures), puis les avoir comparées entre elles, une réflexion a été menée sur la manière dont les liaisons entre ces entités factuelles et leur liaison à l'action pourraient être repérées. Nous avons alors abouti, au quatrième étage du système, à la transformation de toutes les informations obtenues précédemment en une base de données. Les problèmes relatifs à la réalisation des deux derniers étages du système qui permettraient de réaliser les liaisons et donc de structurer les connaissances sous forme de base de données ont été mis en évidence. Cette recherche et les difficultés rencontrées ont révélé que le travail effectué débouchait sur d'autres applications.

  • Titre traduit

    Automatic knowledge extraction from textuel data


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol.(206 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 193-199

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Consultable sur place dans l'établissement demandeur
  • Cote : TS (2000) 104
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.