Antelope, une plate forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique

par François-Régis Chaumartin

Thèse de doctorat en Linguistique Théorique, Descriptive et Automatique

Sous la direction de Sylvain Kahane.

Soutenue en 2012

à Paris 7 .


  • Résumé

    Créer rapidement un analyseur sémantique dédié à une tâche particulière n'est pas une tâche aisée. En effet, composants d'analyse et ressources linguistiques sont souvent définis avec des formats incompatibles entre eux, ce qui en rend l'assemblage complexe. Nous souhaitons apporter une réponse opérationnelle à ce problème avec la plate-forme de traitement linguistique Antelope, dont cette thèse décrit les principes de conception et de réalisation. En partie basée sur la Théorie Sens-Texte (TST), Antelope permet une analyse syntaxique et sémantique de corpus de volume important ; son objectif est de « rendre calculable » du texte tout-venant : avis de consommateurs, textes encyclopédiques, document RH, articles de presse. . . Pour cela, Antelope intègre (i) plusieurs composants prêts à l'emploi, couvrant les principales tâches de TAL, qui interagissent au sein d'un modèle de données linguistiques unifié ; (ii) un lexique sémantique multilingue à large couverture constitué à partir de différentes sources. Un effort d'intégration permet d'offrir une plate¬forme robuste et homogène ; l'ensemble constitue une interface syntaxe-sémantique opérationnelle. La thèse présente la plate-forme et la compare à d'autres projets de référence ; elle souligne les bonnes pratiques à prendre en termes d'architecture logicielle pour qu'un tel ensemble complexe reste maintenable ; elle introduit aussi une démarche semi-supervisée d'acquisition de connaissances à large échelle.

  • Titre traduit

    Antelope, a NLP platform to extract meaning from text : theory and applications of the syntax-semantics interface


  • Résumé

    This is not an easy task to quickly design a semantic parser dedicated to a particular task. Indeed, analysis components and linguistic resources are often defined with mutually incompatible formats, which make their assembly complex. We wish to bring an operational response to this problem with the Antelope linguistic platform, whose design and implementation principles are described in this thesis. Inspired by the Meaning-Text Theory (MTT), Antelope targets a robust syntactic and semantic parsing of texts, and can handle large corpora; its goal is to enable deep understanding of various kinds of text: consumer reviews, articles from encyclopedia, HR documents, newspaper articles. . . To achieve the goal, Antelope integrates (i) several ready-to-use components, addressing the most common NLP tasks, which interact within a unified text analysis model; (ii) a broad-coverage multilingual semantic lexicon compiled from various sources. An integration effort of all these components provides a robust and homogeneous platform, with a syntax-semantics interface. The thesis presents the platform and compares it with other state-of-the-art projects; it highlights the best practices that should be taken to ensure that such complex software remains maintainable; it also introduces a semi-supervised approach for large-scale knowledge acquisition.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (214 p.)
  • Annexes : 177 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • PEB soumis à condition
  • Cote : TL (2012) 025

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne (Paris).
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.