Etude de l'impact du registre de langue sur des modèles textuels pour diminuer des erreurs de classement.

par Alexandra Benamar

Projet de thèse en Informatique

Sous la direction de Anne Vilnat.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) (laboratoire) , ILES - Information, Langue Ecrite et Signée (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-03-2020 .


  • Résumé

    L'analyse de ces données structurées ou non-structurées devient une réelle nécessité stratégique pour l'entreprise. Les données non-structurées sont des données principalement issues du texte, de l'oral mais aussi des logs de navigation par exemple. Ainsi, il est essentiel de mettre à disposition des outils et des méthodes pour exploiter au mieux la richesse de ces données numériques qui sont collectées. L'objectif de cette thèse est de détecter les registres de langue dans des documents rédigés par différentes personnes puis de proposer une méthode pour traiter ces différents registres lors d'une classification supervisée. Electricité de France utilisera ces travaux pour détecter différents niveaux de langue dans des mails clients afin de lever une alerte pour le classement spécifique de certains mails.

  • Titre traduit

    Automatic detection of logical sequences and paraphrases for information retrieval in the service of consultants


  • Résumé

    EDF Group's digital transformation produces ever-increasing volumes of data. The analysis of this structured or unstructured data is becoming a real strategic necessity for the company. Through the use of linguistic methods coupled with deep learning tools, it will be necessary to work on different representations of the language in order to obtain the best possible semantic understanding of it. The objective of this thesis is to begin by detecting language registers in documents written by different people. Then, we would like to propose a method to process these registers during classification. Electricité de France will use this work to detect different language levels in customer emails in order to raise an alert when the level of language is particularly high or low.