Identification de opiniónes de differentes fuentes en textos en español

par Aiala Rosá

Thèse de doctorat en Traitement Automatique du Langage Naturel

Sous la direction de Jean-Luc Minel et de Dina Wonsever.

  • Titre traduit

    Identification d'opinions issues de diverses sources dans des textes en espagnol


  • Résumé

    Ce travail présente une étude linguistique des expressions d'opinions issues de différentes sources dans des textes en espagnol. Le travail comprend la définition d'un modèle pour les prédicats d'opinion et leurs arguments (la source, le sujet et le message), la création d'un lexique de prédicats d'opinions auxquels sont associées des informations provenant du modèle et la réalisation de trois systèmes informatiques.Le premier système, basé sur des règles contextuelles, obtient de bons résultats pour le score de F-mesure partielle: prédicat, 92%; source, 81%; sujet, 75%; message, 89%, opinion, 85%. En outre, l'identification de la source donne une valeur de 79% de F-mesure exacte. Le deuxième système, basé sur le modèle Conditional Random Fields (CRF), a été développé uniquement pour l'identification des sources, donnant une valeur de 76% de F-mesure exacte. Le troisième système, qui combine les deux techniques (règles et CRF), donne une valeur de 83% de F-mesure exacte, montrant ainsi que la combinaison permet d'obtenir des résultats intéressants.En ce qui concerne l'identification des sources, notre système, comparé à des travaux réalisés sur des corpus d'autres langues que l'espagnol, donne des résultats très satisfaisants. En effet ces différents travaux obtiennent des scores qui se situent entre 63% et 89,5%.Par ailleurs, en sus des systèmes réalisés pour l'identification de l'opinion, notre travail a débouché sur la construction de plusieurs ressources pour l'espagnol : un lexique de prédicats d'opinions, un corpus de 13000 mots avec des annotations sur les opinions et un corpus de 40000 mots avec des annotations sur les prédicats d'opinion et les sources.

  • Titre traduit

    Identification of opinions from different sources in Spanish texts


  • Résumé

    This work presents a study of linguistic expressions of opinion from different sources in Spanish texts. The work includes the definition of a model for opinion predicates and their arguments (source, topic and message), the creation of a lexicon of opinion predicates which have information from the model associated, and the implementation of three systems.The first system, based on contextual rules, gets good results for the F-measure score (partial match): predicate, 92%; source, 81%; topic, 75%; message, 89%; full opinion, 85%. In addition, for source identification the F-measure for exact match is 79%. The second system, based on Conditional Random Fields (CRF), was developed only for the identification of sources, giving 76% of F-measure (exact match). The third system, which combines the two techniques (rules and CRF), gives a value of 83% of F-measure (exact match), showing that the combination yields interesting results.As regards the identification of sources, our system compared to other work developed for languages ​other than Spanish, gives very satisfactory results. Indeed these works had scores that fall between 63% and 89.5%.Moreover, in addition to the systems made for the identification of opinions, our work has led to the construction of several resources for Spanish: a lexicon of opinion predicates, a 13,000 words corpus with opinions annotated and a 40,000 words corpus with opinion predicates end sources annotated.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Ouest Nanterre La Défense. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.