Thèse soutenue

Search-based and supervised text generation
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Betty Fabre
Direction : Damien LoliveTanguy UrvoyJonathan Chevelu
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/09/2022
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : MATHSTIC
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - EXPRESSION
Jury : Président / Présidente : Pascale Sébillot
Examinateurs / Examinatrices : Christophe Cerisara
Rapporteurs / Rapporteuses : John D. Kelleher, Stefan Riezler

Résumé

FR  |  
EN

Les modèles supervisés encodeurs-décodeurs nécessitent de grands datasets alignés pour être entraînés. Les données nécessaires ne sont pas encore disponibles pour plusieurs tâches telles que la verbalisation de triplets RDF ou la génération de paraphrases. D'abord, nous avons exploré la tâche de verbalisation de triplets RDF. Nous avons entraîné des modèles Transformers sur une nouvelle version des données WebNLG et avons étudié plusieurs stratégies de pré-entraînement pour surmonter la petite taille du corpus. Ensuite, nous avons étudié la tâche de génération de paraphrases. Nous avons entraîné des modèles Transformers sur des corpus alignés afin de les comparer directement avec les modèles de la littérature. Une contribution importante de la thèse a été de proposer un cadre expérimental uniforme pour comparer les modèles encodeurs-décodeurs pour la génération de paraphrases. Nous avons également suivi la voie des méthodes alternatives basées recherche pour générer des paraphrases. Pour ce faire, nous avons transformé la tâche de génération de paraphrases en un problème de recherche dans un arbre. Nous avons ensuite développé deux stratégies de recherche: MCPG et PTS et un module de score des paraphrases qui exploite le BERT score, GPT2 et la distance de Levenshtein. Enfin, nous avons mené des expériences de distillation avec le modèle Transformer.