Thèse soutenue

Modèles non linéaires pour l'analyse des dépendances
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Xudong Zhang
Direction : Thierry CharnoisJoseph Le Roux
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/05/2022
Etablissement(s) : Paris 13
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Paris Nord (Paris)
Jury : Président / Présidente : Élisa Fromont
Examinateurs / Examinatrices : Alexandre Allauzen, Roberto Wolfer Calvo
Rapporteurs / Rapporteuses : Alexandre Allauzen, Alexis Nasr

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Dans cette thèse, nous étudions les modèles non linéaires basés sur les graphes pour l'analyse syntaxique en dépendance des phrases. Dans une première partie, nous étudions un modèle combinant plusieurs experts (modèle MoE). Ce modèle permet d'approximer en théorie tout modèle non linéaire avec un mélange d'experts simples (modèle linéaire ou de second ordre). Nous atteignons les performances de l'état de l'art avec des MoE moyennés et nous développons une méthode d'entraînement stabilisée basée sur l'algorithme EM pour entraîner le MoE.Dans la deuxième partie, nous étudions un modèle polynomial généralisé. Les fonctions de score des modèles basés sur des graphes peuvent être considérées comme des fonctions polynomiales. Les travaux précédents restreignent la forme de la fonction pour garantir l'existence d'algorithmes d'inférence efficaces. Nous développons des méthodes d'apprentissage et d'inférence efficaces basées sur un algorithme d'optimisation (Coordinate Ascent). Nos méthodes peuvent ainsi être utilisées avec une fonction de score sans restrictions que nous appelons modèle polynomial généralisé. Notre modèle permet d'atteindre l'état de l'art sur la tâche d'analyse syntaxique. Dans la troisième partie, nous considérons un modèle non linéaire général, qui peut être non polynomial. Nous étudions d'un point de vue théorique  l'utilisation de l'algorithme de Frank-Wolfe pour l'apprentissage et l'inférence avec des modèles non linéaires pour l'analyse syntaxique. Nous proposons également le réseau d'inférence probabiliste, qui peut être utilisé pour approximer la distribution de modèles non linéaires. Concernant la partie multitâche, on propose d'utiliser le SPEN (Structured Prediction Energy Networks). Le SPEN se base sur l'idée de miniser l'énergie de neurone et il peut faire les pronostics des labels en minimisant l'énergie de neurone avec backpropagation. L'avantage de SPEN est qu'il ne assume pas à priori une structure de modèle graphique et il peut apprendre l'interaction entre les labels qu'on veut prédire. Nous espérons que le SPEN peut hausser la performance sur le problème multitâche en apprenant la relation entre les labels. Finalement, le projet doctoral est bien sûr un projet exploratoire. Nous voulons explorer la possibilité d'utiliser des méthodes comme le modèles d'attention structurée ou le GAN (Generative adversarial network) sur l'analyse sémantique.