Analyse et desambiguisation : une approche a base de corpus (data-oriented parsing) pour les representations lexicales fonctionnelles

par BORIS CORMONS

Thèse de doctorat en Informatique

Sous la direction de Laurent Miclet.

Soutenue en 1999

à Rennes 1 .

    mots clés mots clés


  • Résumé

    Les versions stochastiques des grammaires regulieres et hors-contexte sont bien connues en informatique linguistique et ont fait l'objet de nombreuses recherches. Cette these porte sur la probabilisation de grammaires attributs-valeurs qui est un domaine nettement moins etudie. Brew et eisele ont propose une generalisation simple des methodes utilisees pour les grammaires hors-contexte. Abney a quant a lui propose un modele a base de champs aleatoires, une methode mathematiquement beaucoup plus justifiee mais d'une complexite bien trop elevee pour etre utilisee en pratique. Bod & kaplan ont propose une solution intermediaire : l'utilisation de la methode data-oriented parsing pour les representations lexicales fonctionnelles. Bien que n'etant mathematiquement pas plus justifiee que les approches de brew et d'eisele, cette approche a toutefois le merite de prendre en compte un plus grand nombre de dependances statistiques. De plus, la complexite est moindre que pour l'approche d'abney. Notre contribution personnelle est de repondre a quelques questions theoriques laissees en suspens par bod & kaplan et de tester le modele sur un corpus. Plus precisement, les experiences ont ete effectuees sur le corpus verbmobil constitue de 483 phrases, le corpus d'entrainement etant compose de 440 phrases et le corpus de test de 43 phrases. Brew, eisele et abney ne s'interessent qu'a la desambiguisation proprement dite (et non pas a l'analyse) puisque l'ensemble des analyses possibles est determine a l'aide d'une grammaire. L'approche que nous decrivons nous semble novatrice en ceci qu'elle n'utilise ni grammaire ni lexique. De plus, notre approche peut etre qualifiee de robuste puisqu'il existe des phrases habituellement considerees comme non grammaticales auxquelles on peut tout de meme associer une analyse.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 117 p.
  • Annexes : 43 ref.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 1999/66
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.