Un modèle d'analyseur synthaxique robuste fondé sur la modularité et la lexicalisation de ses grammaires

par Nùria Gala Pavia

Thèse de doctorat en Informatique

Sous la direction de Christian Jacquemin.

Soutenue en 2003

à Paris 11 .


  • Résumé

    Les analyseurs syntaxiques robustes associent automatiquement à la chaîne découpée en unités une représentation des groupements structurels et des relations fonctionnelles existant entre ces unités. L'enjeu auquel ces analyseurs se heurtent est souvent le maintien d'un équilibre entre la finesse de la description linguistique et l'efficacité de l'analyseur, ainsi qu'entre cette finesse descriptive et son adéquation empirique. Il existe un bon nombre de phénomènes mal modélisés ou pas modélisés du tout par les analyseurs existants, parce qu'il s'agit soit de phénomènes peu fréquents dans les corpus ge��néralement utilisés pour le développement des analyseurs (modalités de l'oral, des instructions), soit de phénomènes ayant trait à la structure et à la visualisation des documents (marques typo-dispositionnelles), soit des structures requerant des techniques de traitement au delà de la syntaxe stricte (rattachement de groupes prépositionnels). Tous ces aspects nous amené à proposer et à implémenter une architecture pour un analyseur robuste capable de traiter du texte libre de différents domaines avec une couverture et une précision élévées et homogènes. Notre modèle d'analyseur s'articule ainsi autour de deux notions fondamentales: d'une part une spécialisation et une stratégie d'application modulaire des grammaires pour le traitement précis des corpus hétérogènes et, d'autre part, une lexicalisation des grammaires de dépendance (combinaison de la grammaire symbolique avec un mécanisme d'apprentissage non-supervisé) pour une meilleure résolution des ambigui͏̈tés structurelles liées au rattachement prépositionnel.

  • Titre traduit

    A robust parser model based on the modularity and on the lexicalisation of its grammars


  • Résumé

    Robust parsers automatically assign to strings already chunked in units a representation of structural groups and functionnal relations existing within these units. The challenge for these systems is to keep a balance between the linguistic description and their performances, as well as between a fine-grained description and an empirical adequacy. There are a number of phenomena that existing parsers wrongly process or not process at all, i. E. Structures not frequent in corpora used to develop the parsers, phenomena dealing with the structure and the visualisation of the documents, or phenomena requiring specific techniques going beyond syntax. All these points have lead us to propose and to implement an architecture for a robust parser able to process rough text from different domains with high and homogeneous coverage and precision rates. Our robust parser model is thus based on: first, a specialisation and a modular strategy of application of the different grammars in order to accurately process heterogeneous corpora and, second, dependency grammars lexicalisation (rule-based grammars combined with an unsupervised learning method) for a better resolution of prepositionnal attachment ambiguities.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 249 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.201-210.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : M/Wg ORSA(2003)40
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.