Analyses linguistiques et modélisations des connaissances en vue d’un traitement automatique des e-mails entrants : vers un système de veille dans le domaine du tourisme aérien

par Marion Barbé

Thèse de doctorat en Sciences du langage. Traitement automatique des langues

Sous la direction de Henri Madec.


  • Résumé

    Le présent travail étudie une situation de communication nouvelle : la communication via l’e-mail. Notre étude s’est centrée plus précisément sur les mails envoyés par des clients vers l’entreprise et ce dans le domaine du tourisme aérien (notion de e-crm). Pour mener nos analyses linguistiques, nous avons constitué un important corpus de messages récoltés sur des forums Internet et traitant de voyages. Notre but est d’automatiser la gestion, la catégorisation et la thématisation des mails. Nous avons donc rassemblé un ensemble de traits lexicaux, syntaxiques, morpho-syntaxiques et sémantiques spécifiques à la notion de déplacement, de toponymie et propres au sous-langage du tourisme aérien. Nous montrons également comment une analyse linguistique des informations spatiales et indissociable d’un traitement des éléments temporels de la phrase. En outre, nous choisissons d’analyser les informations de type émotionnel contenues dans les messages. Dans la dernière partie de notre travail, nous replaçons notre étude dans un système de veille appliqué aux mails. Nous montrons comment les techniques à base de statistiques sont limitées dès qu’il s’agit de traiter des énoncés linguistiquement complexes tels que les nôtres. Notre approche est hybride : à base de mots clés, dictionnaires de synonymes, scripts sur le modèle de SCHANK et ABELSON, mais surtout à base de modélisation des connaissances. Finalement, nous proposons un traitement de haute qualité des connaissances et donnons quelques exemples d’informatisation de notre système grâce à XML, PROLOG et PERL

  • Titre traduit

    Linguistic analysis and knowledge modeling applied to natural language processing of inbox emails : towards a mining system in the field of air tourism


  • Résumé

    This work studies a new situation of communication: communication via e-mail. Our study is more precisely focussed on e-mails sent by customers to firms and this, in the field of air tourism (concept of e-crm). To carry out our linguistic analyses, we constituted an important corpus of messages collected on Internet forums and dealing with travel. Our goal is to manage the categorization and thematisation of e-mails. We thus gathered lexical, syntactic, morpho-syntactic and semantic features which are specific to the concept of spatiality, toponymy and characteristic of air tourism sub-language. We also underline how a linguistic analysis of spatiality is linked to a temporal analysis of the sentence. Moreover, we choose to analyze emotional informations contained in our messages. In the last part of our work, we show how our work deals with mining systems. We show how statistical techniques are limited as soon as it is a question of treating linguistically complex statements such as ours. Our approach is hybrid: it is made of key words, synonyms dictionaries, scripts on the model of SCHANK and ABELSON, but especially knowledge modeling. We give some examples of computerization of our system thanks to XML, PROLOG and Perl

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 3 vol. (762 f., pagination multiple)
  • Annexes : Bibliogr. f. [425-433]. Index

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque universitaire. Section Lettres.
  • Disponible pour le PEB
  • Cote : 219445.1
  • Bibliothèque : Bibliothèque universitaire. Section Lettres.
  • Disponible pour le PEB
  • Cote : 219446.2
  • Bibliothèque : Bibliothèque universitaire. Section Lettres.
  • Disponible pour le PEB
  • Cote : 219447.3
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.