Few-Shot Intent Classification in User-Generated Short Texts : Application to Conversational Agents | Theses.fr

Thomas Dopierre

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Classification d’intentions de requêtes générées par utilisateurs en régime «few-shot» : Application aux agents conversationnels

FR |

EN

Auteur / Autrice :	Thomas Dopierre
Direction :	Christophe Gravier
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 26/11/2021
Etablissement(s) :	Lyon
Ecole(s) doctorale(s) :	École doctorale Sciences Ingénierie Santé (Saint-Etienne)
Partenaire(s) de recherche :	établissement opérateur d'inscription : Université Jean Monnet (Saint-Étienne ; 1969-....)
	Laboratoire : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....)
Jury :	Président / Présidente : Frédérique Laforest
	Examinateurs / Examinatrices : Laure Soulier
	Rapporteurs / Rapporteuses : Jian-Yun Nie, Sophie Rosset

Mots clés

FR |

EN

Mots clés contrôlés

Intelligence artificielle

Systèmes experts (informatique)

Traitement automatique du langage naturel

Mots clés libres

Classification few-shot

Détection d'intention

Traitement automatique des langues

Classification d’intentions

Résumé

FR |

EN

Pour classifier des intentions utilisateurs, une annotation rigoureuse doit être menée. Afin de palier au problème du manque de données annotées, nous avons recours au méthodes de classification "few-shot".Dans un premier temps, cette thèse se concentre sur une nouvelle comparaison des méthodes de classification "few-shot". Les méthodes étaient comparées avec des encodeurs de textes différents, ce qui amenait à une comparaison biaisée. Lorsqu'on équipe chaque méthode du même encodeur de phrase basé sur un transformer (BERT), des méthodes de classification few-shot plus anciennent reprennent le dessus.Ensuite, nous étudions le pseudo-labeling, c'est à dire l'attribution automatique des pseudo-labels à des données non annontées. Dans ce cadre, nous introduisons une nouvelle méthode de pseudo-labeling inspirée du clustering hiérarchique. Notre méthode, dépourvue de tout hyper-paramètre, sait ignorer les exemples non labelisés qui se trouveraient trop éloignés de la distribution connue. Nous démontrerons également qu'elle est complémentaire aux autres méthodes existantes.En guise de dernière contribution, nous introduisons ProtAugment, une architecture de méta-apprentissage pour le problème de détection d’intention. Cette nouvelle extension entraîne le modèle à retrouver la phrase originale sur la base des prototypes calculés à partir de paraphrases. Nous introduirons également notre propre méthode pour générer des paraphrases, et verrons que la façon dont sont générées ces paraphrases joue un rôle important.Tout le code utilisé pour exécuter les expériences présentées dans cette thèse est disponible sur mon compte github (https://github.com/tdopierre/).

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Classification d’intentions de requêtes générées par utilisateurs en régime «few-shot» : Application aux agents conversationnels

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Classification d’intentions de requêtes générées par utilisateurs en régime «few-shot» : Application aux agents conversationnels

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses