Thèse soutenue

Antelope, une plate forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique

FR  |  
EN
Auteur / Autrice : François-Régis Chaumartin
Direction : Sylvain Kahane
Type : Thèse de doctorat
Discipline(s) : Linguistique Théorique, Descriptive et Automatique
Date : Soutenance en 2012
Etablissement(s) : Paris 7

Résumé

FR  |  
EN

Créer rapidement un analyseur sémantique dédié à une tâche particulière n'est pas une tâche aisée. En effet, composants d'analyse et ressources linguistiques sont souvent définis avec des formats incompatibles entre eux, ce qui en rend l'assemblage complexe. Nous souhaitons apporter une réponse opérationnelle à ce problème avec la plate-forme de traitement linguistique Antelope, dont cette thèse décrit les principes de conception et de réalisation. En partie basée sur la Théorie Sens-Texte (TST), Antelope permet une analyse syntaxique et sémantique de corpus de volume important ; son objectif est de « rendre calculable » du texte tout-venant : avis de consommateurs, textes encyclopédiques, document RH, articles de presse. . . Pour cela, Antelope intègre (i) plusieurs composants prêts à l'emploi, couvrant les principales tâches de TAL, qui interagissent au sein d'un modèle de données linguistiques unifié ; (ii) un lexique sémantique multilingue à large couverture constitué à partir de différentes sources. Un effort d'intégration permet d'offrir une plate¬forme robuste et homogène ; l'ensemble constitue une interface syntaxe-sémantique opérationnelle. La thèse présente la plate-forme et la compare à d'autres projets de référence ; elle souligne les bonnes pratiques à prendre en termes d'architecture logicielle pour qu'un tel ensemble complexe reste maintenable ; elle introduit aussi une démarche semi-supervisée d'acquisition de connaissances à large échelle.