Thèse soutenue

Rédaction automatique de résumés à partir de textes en utilisant des schémas lexico-grammaticaux et l'apprentissage profond

FR  |  
EN
Auteur / Autrice : Abdelghani Laifa
Direction : Laurent GautierChristophe Cruz
Type : Thèse de doctorat
Discipline(s) : Informatique, algorithmique des langues
Date : Soutenance le 13/12/2022
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....)
Partenaire(s) de recherche : Laboratoire : Centre Interlangues : texte, image, langage (TIL) (Dijon)
établissement de préparation : Université de Bourgogne (1970-....)
Jury : Président / Présidente : Thierry Grass
Examinateurs / Examinatrices : Laurent Gautier, Christophe Cruz, Mathieu Roche, Christopher John Gledhill, Ladjel Bellatreche
Rapporteurs / Rapporteuses : Mathieu Roche, Christopher John Gledhill

Résumé

FR  |  
EN

Avec l'explosion actuelle des données qui circulent dans l'espace numérique, et qui sont pour la plupart des données non structurées, répétitives, non pertinentes et peuvent ne pas transmettre l'information prévue, un outil permettant d'élaborer un résumé efficace, offrant les informations pertinentes dans une langue idiomatique est nécessaire. Dans la littérature, la plupart des modèles pré-entraînés offrant des résumés sont formés en anglais, entrainés sur beaucoup de données d’actualité et négligent une contrainte linguistique d’idiomaticité qui est le caractère exprimant la spécificité d’un domaine ou d’une langue. Ayant pour objectif d’élaborer un modèle français de résumé automatique dédié au domaine de la finance, nous répondons aux normes de haute qualité des résumés (idiomaticité) en proposant une approche complète dans laquelle, linguistiquement, nous filtrons les données de la Banque de France et sélectionnons les schémas lexico-grammaticaux et le lexique support qui sont les garant d’un haut degré d’idiomaticité. Informatiquement, nous définissons deux méthodes de pré-entraînement et d'ajustement. Ces méthodes aboutissent à deux systèmes de résumé extractifs et abstractifs dédiés au domaine de la finance en français et qui prennent en considération l’analyse et le filtrage linguistique. Ces deux méthodes adressent les limites de langue, de domaine et de contrainte linguistique. Pour répondre à la dernière limite du manque d'ensemble de données spécifiques au domaine, nous définissions une nouvelle technique d’augmentation de données adaptée à notre jeu de départ, permettant finalement d’améliorer davantage l’idiomaticité des résumés obtenus. Notre solution offre une base de recherche motivante pour des nouvelles améliorations dans le domaine du résumé.