Méthodes informatiques pour l'identification des locutions verbales.

par Angeles belem priego sanchez

Projet de thèse en Sciences du langage

Sous la direction de Salah Mejri.

Thèses en préparation à Sorbonne Paris Cité , dans le cadre de École doctorale Érasme (Villetaneuse, Seine-Saint-Denis) , en partenariat avec Language & Knowledge Engineering, BUAP (laboratoire) depuis le 20-01-2014 .


  • Résumé

    Etudiées par la phraséologie, les locutions verbales sont des composantes de la structure du langage naturel qui expriment une idée ou un concept. Ces structures linguistiques sont des unités lexicales composées par plusieurs mots. Elles sont formées par un verbe et une ou plusieurs variables, dont le signifié global n'est pas nécessairement déduit du signifié de chacun de ses composants. Dans ce travail de recherche, nous proposons une méthodologie informatique permettant l’identification semi-automatique des locutions verbales de l’espagnol mexicain. Cette méthodologie contribue tant au domaine de la linguistique qu’à celui de l’informatique. Nous introduisons des méthodes informatiques supervisées et non supervisées pour l’identification et la validation des “locutions verbales candidates” en corpus des différents domaines. Les contributions de cette thèse sont principalement de quatre ordres : a) des corpus manuellement annotés pour les locutions verbales, en incluant leurs contextes, b) un lexique qui estime la probabilité d’occurrence de ces structures linguistiques dans le corpus du genre journalistique, c) diverses hypothèses pour la validation et/ou identification des locutions verbales en textes bruts, et d) l’analyse de la polarité de celles-ci. Les résultats obtenus, en incluant les hypothèses envisagées dans cette thèse, auront un impact futur sur des différentes tâches, tels que la traduction automatique, la construction des dictionnaires et l’apprentissage d’une langue étrangère, pour ne citer que quelques exemples.

  • Titre traduit

    Computer methods for the identification of verbal locutions.


  • Résumé

    Verbal phraseological units are components of the natural language structure, studied by phraseology, which express a concept or an idea. These linguistic structures are multi-word lexical units, made up of one verb and one or more variables, having a meaning which cannot be predicted from the sum of the expression component meanings. In this PhD thesis we proposed a computational methodology for the semi-automatic identification of verbal phraseological units written in Mexican Spanish that aims to contribute in both, the linguistic and computational fields. We introduce unsupervised and supervised computational methods in order to identify and validate “candidate verbal phraseological units” in corpora of different genre. The contributions of this research work are mainly four: a) corpora manually annotated for verbal phraseological units and contexts associated, b) a lexicon in which it is estimated the probability of occurrence of such linguistic structures in a corpus of news genre, c) a number of hypotheses for the automatic validation and/or identification of verbal phraseological units in raw texts, and d) analysis of their polarity. The obtained results, including the hypotheses proposed in the PhD document, will have a future impact in different tasks such as machine translation, dictionaries construction, foreign language learning, among others.