Thèse soutenue

Projection d'annotations syntaxiques à travers des corpus parallèles

FR  |  
EN
Auteur / Autrice : Bruno Cavestro
Direction : Jean Véronis
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2010
Etablissement(s) : Aix-Marseille 1
Partenaire(s) de recherche : autre partenaire : Université de Provence. Section sciences

Résumé

FR  |  
EN

La construction d'un corpus de texte annoté demande beaucoup de travail. Et ceci est valable que l'annotation concerne la structure du texte ou la morphologie des mots ou encore la grammaire. Dans cette thèse, nous investiguons sur la projection d'annotations, une méthode qui sert à réduire l'effort nécessaire à l'annotation d'un corpus. La projection d'annotation utilise un corpus parallèle pour construire de manière automatique des ressources pour une langue du corpus en partant de ressources linguistiques déjà existantes pour l'autre langue du corpus. Mais la projection d'annotation est une tâche qui présente de nombreuses difficultés ; les difficultés peuvent venir du couple de langues choisies qui forment le corpus, d'autres difficultés peuvent venir du type d'annotation à projeter. Dans cette thèse, nous allons donc analyser les limites de cette technique. Une fois identifiées les limites de faisabilité de la projection, en partant du travail de Hwa, autour de la "Direct Correspondence Assumption", nous allons introduire dans cette thèse le concept de littéralité de la traduction : nous allons montrer que la littéralité a un impact sur le DCA. Une fois mis en lumière cette relation entre littéralité et DCA, nous allons présenter un algorithme d'apprentissage capable de prendre en compte cette information. Nous allons utiliser cet algorithme pour projeter des arbres de constituants. Le corpus annoté obtenu sera utilisé pour entrainer un analyseur Syntaxique de Collins. Enfin de nombreux tests quantitatifs et qualitatifs nous permettront de mettre en lumière quels sont les points forts et les points faibles du corpus annoté par projection et de l'analyseur syntaxique qui y a été entrainé.