Un modèle d'analyseur synthaxique robuste fondé sur la modularité et la lexicalisation de ses grammaires
| Auteur / Autrice : | Nùria Gala |
| Direction : | Christian Jacquemin |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique |
| Date : | Soutenance en 2003 |
| Etablissement(s) : | Paris 11 |
Mots clés
Résumé
Les analyseurs syntaxiques robustes associent automatiquement à la chaîne découpée en unités une représentation des groupements structurels et des relations fonctionnelles existant entre ces unités. L'enjeu auquel ces analyseurs se heurtent est souvent le maintien d'un équilibre entre la finesse de la description linguistique et l'efficacité de l'analyseur, ainsi qu'entre cette finesse descriptive et son adéquation empirique. Il existe un bon nombre de phénomènes mal modélisés ou pas modélisés du tout par les analyseurs existants, parce qu'il s'agit soit de phénomènes peu fréquents dans les corpus généralement utilisés pour le développement des analyseurs (modalités de l'oral, des instructions), soit de phénomènes ayant trait à la structure et à la visualisation des documents (marques typo-dispositionnelles), soit des structures requerant des techniques de traitement au delà de la syntaxe stricte (rattachement de groupes prépositionnels). Tous ces aspects nous amené à proposer et à implémenter une architecture pour un analyseur robuste capable de traiter du texte libre de différents domaines avec une couverture et une précision élévées et homogènes. Notre modèle d'analyseur s'articule ainsi autour de deux notions fondamentales: d'une part une spécialisation et une stratégie d'application modulaire des grammaires pour le traitement précis des corpus hétérogènes et, d'autre part, une lexicalisation des grammaires de dépendance (combinaison de la grammaire symbolique avec un mécanisme d'apprentissage non-supervisé) pour une meilleure résolution des ambigui͏̈tés structurelles liées au rattachement prépositionnel.