Analyse automatisée de processus de nomination en corpus : apports de la reconnaissance d'entités et de la coréférence pour l'analyse discursive.

par Manon Cassier

Projet de thèse en Sciences du langage

Sous la direction de Julien Longhi et de Damien Nouvel.

Thèses en préparation à CY Cergy Paris Université , dans le cadre de Arts, Humanité, Sciences Sociales , en partenariat avec AGORA - Laboratoire de recherche civilisation, identités culturelles, textes et francophonies (laboratoire) depuis le 01-10-2018 .


  • Résumé

    Le contexte de la thèse se situe dans la perspective de travaux sur l'interprétation automatisée de manifestations complexes de faits de discours non saisissables par les méthodes actuelles de l'analyse de discours (AD) dans des données issues de transcription d'interviews politiques. Il se focalise sur le mécanisme linguistique de la « nomination », en lien avec les concepts de dénomination, désignation, référenciation. Il s'agit notamment, à partir d'un travail théorique et descriptif de faits de discours, de procéder à des prototypages, implémentations, expérimentations et validations d'approches pour la détection et caractérisation des nominations en lien avec les traitements développés par les équipes TAL du projet TALAD. En particulier, les sorties des reconnaissances d'entités et de coréférences pourront être exploitées, afin de déterminer leur apport pour un système expérimental de focalisé sur les nominations. Un retour sera fait à chaque traitement TAL afin d'évaluer son apport dans la reconnaissance des nominations, dans une optique d'intégration aux outils traditionnels de l'AD. Un des enjeux de cette thèse est aussi de proposer un système de classification pour l'entreprise Reticular afin de qualifier différents acteurs de la vie politique. En effet, Reticular s'intéresse à la qualification des acteurs comme des « concepteurs de doctrine », des « vulgarisateurs », des « relais d'opinion » (parfois « influenceurs ») et des « nouveaux convertis », « fans », ou encore « supporters ». Il s'agira ainsi de s'appuyer sur les marques identifiées formellement par les techniques TAL pour contribuer à caractériser les acteurs, non pas par leur « dit », mais par leur « (manière de) dire ».

  • Titre traduit

    Automated Analysis of the Nomination Concept : Entity Recognition and Co-Reference Contributions for Discourse Analysis.


  • Résumé

    The thesis takes part within works on the automated interpretation of complex manifestations of discourse facts that are not graspable by the usual methods of discourse analysis. Based on political interviews transcripts, the study focuses on the linguistic mechanism of "nomination". As part of the ANR TALAD project, the aim is to do theoretical and descriptive works on discourse facts to carry out prototyping, implementation, experimentation and validation of approaches for the detection and the characterization of nominations. In particular, the purpose is to study the outputs of entity and co-reference recognition systems to determine their contribution to the nomination detection. One of the challenges of the thesis is to propose a classification system for the Reticular company - which is interested in the qualification of political actors as "doctrine designers" or "influencers". It is therefore not simply a matter of looking at what is "said" by the actors, but also at their "way of saying".