Efficient production of linguistic resources : the Victoria project

par Lionel Nicolas

Thèse de doctorat en Informatique

Sous la direction de Jacques Farré.

Soutenue en 2010

à Nice .


  • Résumé

    L’efficacité de la grande majorité des outils utilisés pour le Traitement Automatique des Langues Naturelles (TALN) dépend directement ou indirectement des ressources linguistiques informatisées sur lesquels ils reposent. Pour des langues internationalement employées telles que le français ou l’espagnol, bien des ressources de référence sont encore dans un état précaire de développement. Pour d’autres langues ayant une communauté moins importante, ces ressources sont souvent inexistantes. Cette situation est la conséquence directe des ambigüités et des irrégularités des langues naturelles. Ces dernières rendent leur formalisation complexe, leur description manuelle fastidieuse et leur acquisition automatisée difficile. De nos jours, pour les aspects linguistiques ayant des formalismes de description consensuels, la principale limitation à la création des ressources linguistiques est le coût humain prohibitif induit par leur création et amélioration manuelle. Comme le formalise la loi de Zipf, améliorer la qualité et la couverture d’une ressource linguistique devient toujours plus laborieux lorsque l’on compara les efforts investis aux améliorations obtenues. La difficulté est donc moins de savoir comment décrire l’aspect linguistique d’une langue que d’en réaliser une description dont la couverture et la qualité répondent aux besoins d’applications performantes. Construire de telles ressources requiert donc des années d’efforts constants débouchant trop souvent sur des résultats d’une qualité relative et d’une visibilité limitée. L’acquisition et la correction rapides et efficaces de ressources linguistiques sont donc des problèmes peu résolus et d’une importante capitale pour les développement dans le domaine du TALN. Dans ce contexte, mes recherches ont pour but premier de faciliter la production de ressources linguistiques symboliques ayant trait à l’analyse syntaxique. Elles s’inscrivent dans un projet, appelé Victoria, dont l’objectif est de développer un ensemble de techniques, d’outils et de stratégies pour l’acquisition et la correction de règles morphologiques, de lexiques morphosyntaxiques et de grammaires lexicalisées. L’application pratique de ces développements nous a permis de créer et/ou d’améliorer des ressources linguistiques pour le français, l’espagnol et le galicien. Plus particulièrement, mes efforts se sont concentrés sur : des stratégies pratiques pour minimiser les efforts nécessaires à la création et l’amélioration de ressources linguistiques ; l’acquisition automatique des règles morphologiques d’une langue à morphologie concaténative ; la correction semi-automatique de lexiques morpho-syntaxiques à large couverture.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (185 p.)
  • Annexes : Bibliogr. p. 159-168. Résumés en français et en anglais

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Bibliothèque Sciences.
  • Non disponible pour le PEB
  • Cote : 10NICE4114
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.