Auteur / Autrice : | Pierre Marchal |
Direction : | Thierry Poibeau |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance le 15/10/2015 |
Etablissement(s) : | Sorbonne Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Langues, littératures et sociétés du monde (Paris) |
Partenaire(s) de recherche : | Laboratoire : Équipe de Recherche en Textes- Informatique- Multilinguisme / ERTIM |
établissement de préparation : Institut national des langues et civilisations orientales (Paris ; 1971-....) | |
Jury : | Examinateurs / Examinatrices : Kyō Kageura, Cécile Fabre, Raoul Blin, Yves Lepage, Frédérique Segond |
Rapporteurs / Rapporteuses : Kyō Kageura, Cécile Fabre |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L'acquisition de connaissances relatives aux constructions verbales est une question importante pour le traitement automatique des langues, mais aussi pour la lexicographie qui vise à documenter les nouveaux usages linguistiques. Cette tâche pose de nombreux enjeux, techniques et théoriques. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à deux aspects fondamentaux de la description du verbe : la notion d'entrée lexicale et la distinction entre arguments et circonstants. A la suite de précédentes études en traitement automatique des langues et en linguistique nous faisons l'hypothèse qu’il n’y a pas de distinction marquée entre homonymes et quasi-synonymes ; de même, nous posons qu’il existe un continuum entre arguments et circonstants. Nous proposons une chaîne de traitement complète pour l'acquisition de schémas prédicatifs verbaux en japonais à partir d'un corpus non étiqueté de textes journalistiques. Cette chaîne de traitement intègre la notion d'argumentalité au processus de création des entrées lexicales et met en œuvre une modélisation de ces deux continuums. La ressource produite a fait l'objet d'une évaluation comparative qualitative, qui a permis de mettre en évidence la difficulté des ressources linguistiques à décrire de nouvelles données, plaidant par là même pour une lexicologie s'inscrivant dans le cadre épistémologique de la linguistique de corpus.