Thèse soutenue

Discours de presse et veille stratégique d'évènements. Approche textométrique et extraction d'informations pour la fouille de textes

FR  |  
EN
Auteur / Autrice : Erin MacMurray
Direction : André Salem
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 02/07/2012
Etablissement(s) : Paris 3
Ecole(s) doctorale(s) : École doctorale Langage et langues (Paris)
Partenaire(s) de recherche : Laboratoire : CLESTHIA (Paris)
Jury : Président / Présidente : Claire Doquet-Lacoste
Examinateurs / Examinatrices : André Salem, Claire Doquet-Lacoste, Mathieu Valette, Marie-Paule Péry-Woodley, Mathieu Plantefol

Résumé

FR  |  
EN

Ce travail a pour objet l’étude de deux méthodes de fouille automatique de textes, l’extraction d’informations et la textométrie, toutes deux mises au service de la veille stratégique des événements économiques. Pour l’extraction d’informations, il s’agit d’identifier et d’étiqueter des unités de connaissances, entités nommées — sociétés, lieux, personnes, qui servent de points d’entrée pour les analyses d’activités ou d’événements économiques — fusions, faillites, partenariats, impliquant ces différents acteurs. La méthode textométrique, en revanche, met en œuvre un ensemble de modèles statistiques permettant l’analyse des distributions de mots dans de vastes corpus, afin faire émerger les caractéristiques significatives des données textuelles. Dans cette recherche, la textométrie, traditionnellement considérée comme étant incompatible avec la fouille par l’extraction, est substituée à cette dernière pour obtenir des informations sur des événements économiques dans le discours. Plusieurs analyses textométriques (spécificités et cooccurrences) sont donc menées sur un corpus de flux de presse numérisé. On étudie ensuite les résultats obtenus grâce à la textométrie en vue de les comparer aux connaissances mises en évidence au moyen d’une procédure d’extraction d’informations. On constate que chacune des approches contribuent différemment au traitement des données textuelles, produisant toutes deux des analyses complémentaires. À l’issue de la comparaison est exposé l’apport des deux méthodes de fouille pour la veille d’événements.