Etude de la fonction argumentale dans la perspective de l'acquisition automatique du vocabulaire

par Xiaoqin Hu

Thèse de doctorat en Sciences du langage

Sous la direction de Pierre-André Buvet.

Soutenue le 10-06-2016

à Sorbonne Paris Cité , dans le cadre de École doctorale Érasme (Villetaneuse, Seine-Saint-Denis) , en partenariat avec Université Paris 13 (établissement de préparation) .

Le président du jury était Pierre Patrick Haillet.

Le jury était composé de Xavier Blanco Escoda, Juan-Manuel Torres Moreno.


  • Résumé

    L’objectif de cette thèse est d’étudier la fonction argumentale afin d’élaborer une méthode pour l’acquisition automatique des termes d’une manière pertinente et efficace. Nous avons d’abord discuté du profilage du corpus et de la constitution du corpus web pour le traitement automatique des langues. Ensuite, trois méthodes ont été développées en nous fondant sur les caractéristiques morphologiques des unités lexicales et la relation d’appropriation entre les prédicats appropriés et leurs arguments. La méthode distributionnelle a pour objet d’exploiter les structures prédicat-argument pour repérer les arguments de la classe sémantique donnée. La méthode morphosémantique est développée en se fondant sur les structures internes des unités lexicales en vue d’étendre la liste de termes. La méthode combinatoire qui associe les deux premières approches permet d’améliorer la pertinence du résultat. Finalement, nous avons développé une réflexion sur la particularité de la langue, la classe sémantique, la langue de spécialité et la récursivité de la langue dans la perspective du traitement automatique des langues.

  • Titre traduit

    Study of the argument function in the perspective of the automatic acquisition of the vocabulary


  • Résumé

    This thesis aims to study the argumental function for finding an efficient method to automatically acquire the terms. We start with a discussion on the problematic of the corpus which is: what kind of corpus should we choose and how should we construct the web corpus. Then, three methods are developed which are based on the morphological characteristics of lexical units and the relation between the appropriate predicates and their arguments. The distributional method tries to exploit the predicate-argument structures for identifying the arguments of the given semantic class. The morph-semantic method is developed on the basis of the morphological characteristics of the lexical units in order to extend the list of terms. The mixed method which combines the two precedent approaches permit to improve the result. Finally, we try to develop a statement on the natural language character, on the semantic class, on the specialized language and on the recursive nature of language in the perspective of natural language processing.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.