Extraction automatique d'une grammaire d'arbres adjoints à partir d'un corpus arboré pour le coréen

par Jungyeul Park

Thèse de doctorat en Sciences du langage

Sous la direction de Anne Abeillé.

Soutenue en 2006

à Paris 7 .


  • Pas de résumé disponible.


  • Résumé

    La grammaire électronique est une des ressources les plus importantes pour le traitement automatique des langues naturelles. Parce que le développement manuel d'une grammaire est une tâche coûteuse, beaucoup d'efforts pour le développement automatique de grammaires ont été fournis pendant la décennie dernière. Le développement automatique d'une grammaire signifie qu'un système extrait une grammaire à partir d'un corpus arboré. A partir du corpus arboré Sejong Korean Treebank, nous réalisons un système qui extrait une grammaire d'arbres adjoints lexicalisée et avec traits. Les étiquettes syntaxiques et morphologiques du corpus nous permettent d'extraire les traits syntaxiques automatiquement. Pendant les expériences d'extraction, nous modifions le corpus pour améliorer les grammaires extraites et extrayons cinq types de grammaires, donc quatre grammaires lexicalisées et une grammaire lexicalisée avec traits. Les grammaires extraites sont évaluées par la taille, la couverture et l'ambiguïté moyenne. La croissance du nombre de schémas d'arbres n'est pas stabilisée à l'issue de l'extraction, ce qui semble indiquer que la taille du corpus n'es pas suffisante pour atteindre la convergence des grammaires. Cependant le nombre de schémas apparaissant au moins deux fois dans le corpus est quasiment stabilisé à l'issue de l'extraction et le nombre de schémas des grammaires supérieures (celles qui sont extraites après la modification du corpus) est aussi plus stabilisé que les grammaires inférieurs. Nous évaluons notre programme d'extraction en l'appliquant à un autre corpus arboré. Enfin, nous comparons nos grammaires avec celle de Han et al. (2001) écrite à la main.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (1606 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 78 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Disponible pour le PEB
  • Cote : TL (2006) 007
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.