Thèse soutenue

Le développement de corpus annotés pour la langue arabe

FR  |  
EN
Auteur / Autrice : Wajdi Zaghouani
Direction : Sylvain Kahane
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 06/01/2015
Etablissement(s) : Paris 10
Ecole(s) doctorale(s) : École doctorale Connaissance, langage, modélisation (Nanterre)
Jury : Président / Présidente : Jean-Luc Minel
Examinateurs / Examinatrices : Sylvain Kahane, Jean-Luc Minel, Alexis Nasr, Thierry Poibeau, Khalid Choukri, Jean-Luc Muller, Benoît Sagot
Rapporteurs / Rapporteuses : Alexis Nasr, Thierry Poibeau

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L’objectif de cette thèse est de montrer les différentes facettes de l’annotation de corpus dans la langue arabe. Nous présentons nos travaux scientifiques sur l’annotation de corpus et sur la création de ressources lexicales dans la langue arabe. D’abord, nous discutons des méthodes, des difficultés linguistiques, des guides d’annotation, de l’optimisation de l’effort d’annotation, ainsi que de l’adaptation à la langue arabe de procédures d’annotation existantes. Ensuite, nous montrons la complémentarité entre les différentes couches d’annotation. Enfin, nous illustrons l’importance de ces travaux pour le traitement automatique des langues en illustrant quelques exemples de ressources et d’applications.