Extraction automatique d'une grammaire d'arbres adjoints à partir d'un corpus arboré pour le coréen

par Jungyeul Park

Thèse de doctorat en Sciences du langage

Sous la direction de Anne Abeillé.

Soutenue en 2006

à Paris 7 .


  • Résumé

    La grammaire électronique est une des ressources les plus importantes pour le traitement automatique des langues naturelles. Parce que le développement manuel d'une grammaire est une tâche coûteuse, beaucoup d'efforts pour le développement automatique de grammaires ont été fournis pendant la décennie dernière. Le développement automatique d'une grammaire signifie qu'un système extrait une grammaire à partir d'un corpus arboré. A partir du corpus arboré Sejong Korean Treebank, nous réalisons un système qui extrait une grammaire d'arbres adjoints lexicalisée et avec traits. Les étiquettes syntaxiques et morphologiques du corpus nous permettent d'extraire les traits syntaxiques automatiquement. Pendant les expériences d'extraction, nous modifions le corpus pour améliorer les grammaires extraites et extrayons cinq types de grammaires, donc quatre grammaires lexicalisées et une grammaire lexicalisée avec traits. Les grammaires extraites sont évaluées par la taille, la couverture et l'ambiguïté moyenne. La croissance du nombre de schémas d'arbres n'est pas stabilisée à l'issue de l'extraction, ce qui semble indiquer que la taille du corpus n'es pas suffisante pour atteindre la convergence des grammaires. Cependant le nombre de schémas apparaissant au moins deux fois dans le corpus est quasiment stabilisé à l'issue de l'extraction et le nombre de schémas des grammaires supérieures (celles qui sont extraites après la modification du corpus) est aussi plus stabilisé que les grammaires inférieurs. Nous évaluons notre programme d'extraction en l'appliquant à un autre corpus arboré. Enfin, nous comparons nos grammaires avec celle de Han et al. (2001) écrite à la main.


  • Résumé

    An electronic grammar is one of the most important elements in the natural language processing. Since traditional manual grammar development is a time-consuming and labor-intensive task, many efforts for automatic grammar development have been taken during last décades. Automatic grammar development means that a System extracts a grammar from a Treebank. Since we might extract the grammar automatically without many efforts if a reliable Treebank is provided, we implement a System which extracts not only a LTAG but also a FB-LTAG from Sejong Korean Treebank. Full-scale syntactic tags and morphological analysis in Sejong Korean Treebank allow us to extract syntactic features automatically and to develop FB-LTAG. During extraction experiments, we modify thé Treebank to improve extracted grammars and extract five différent types of grammars; four lexicalized grammars and one feature-based lexicalized grammar. Extracted grammars are evaluated by ils size, ils coverage and ils average ambiguity. The number of tree schemata is not stabilized at thé end of the extraction process, which seems to indicate that thé size of a Treebank is not enough to reach thé convergence of extracted grammars. However, the number of tree schemata appeared at least twice in the Treebank is nearly stabilized at the end of the extraction process, and the number of superior grammars (the ones which are extracted after thé modification of Treebank) is also much stabilized than inferior grammars. We also evaluate extracted grammars using LLP2 and our extracting System using other Treebank. Finally, we compare extracted grammars with the one of Han et al. (2001) whicis manual ly constructed.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (1606 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 78 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Disponible pour le PEB
  • Cote : TL (2006) 007
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.