Thèse soutenue

Nouvelles Représentations, la Régularisation et les Distances pour la Classification de Texte

FR  |  
EN
Auteur / Autrice : Konstantinos Skianis
Direction : Michalis Vazirgiannis
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/03/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau, Essonne)
Jury : Président / Présidente : Maks Ovsjanikov
Examinateurs / Examinatrices : Michalis Vazirgiannis, Ion Androutsopoulos, Sameer Singh, Themis Palpanas, Yannis Manolopoulos
Rapporteurs / Rapporteuses : Ion Androutsopoulos, Sameer Singh

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Le texte a été le moyen dominant de stocker des données dans des systèmes infor- matiques et d’envoyer des informations sur le Web. L’extraction de représentations significatives hors du texte a été un élément clé de la modélisation de langage afin de traiter des tâches de la NLP telles que la classification de texte. Ces représentations peuvent ensuite former des groupes que l’on peut utiliser pour des problèmes d’apprentissage supervisé. Plus spécifiquement, on peut utiliser ces groupes linguistiques à des fins de régularisation. Enfin, ces structures peuvent être utiles dans un autre domaine important, le calcul de distance entre documents texte.L’objectif principal de cette thèse est d’étudier les problèmes susmentionnés; Tout d’abord, en examinant de nouvelles représentations de texte basées sur des graphes. Ensuite, nous avons étudié comment des groupes de ces représentations peuvent aider à la régularisation dans des modèles d’apprentissage automatique pour la classification de texte. Enfin, nous avons traité des ensembles et de la mesure des distances entre les documents, en utilisant les groupes linguistiques que nous avons proposés, ainsi que des approches basées sur des graphes.Dans la première partie de la thèse, nous avons étudié les représentations de texte basées sur des graphes. Transformer le texte en graphiques n’est pas anodin et existait avant même que les mots incorporés ne soient introduits dans la communauté NLP. Dans notre travail, nous montrons que les représentations graphiques de texte peuvent capturer efficacement des relations telles que l’ordre, la sémantique ou la structure syntaxique. De plus, ils peuvent être créés rapidement tout en offrant une grande polyvalence pour de multiples tâches.Dans la deuxième partie, nous nous sommes concentrés sur la régularisation structurée du texte. Les données textuelles souffrent du problème de dimensionnalité, créant de grands espaces de fonctionnalités. La régularisation est essentielle pour tout modèle d’apprentissage automatique, car elle permet de remédier au surajustement. Dans notre travail, nous présentons de nouvelles approches pour la régularisation de texte, en introduisant de nouveaux groupes de structures linguistiques et en concevant de nouveaux algorithmes.Dans la dernière partie de la thèse, nous étudions de nouvelles méthodes pour mesurer la distance dans le mot englobant l’espace. Premièrement, nous présentons diverses méthodes pour améliorer la comparaison entre des documents constitués de vecteurs de mots. Ensuite, en présentant la comparaison des documents comme une correspondance bipartite pondérée, nous montrons comment nous pouvons apprendre des représentations cachées et améliorer les résultats pour la tâche de classification de texte.Enfin, nous conclurons en résumant les principaux points de la contribution totale et en discutant des orientations futures..