Thèse soutenue

Modèles d'embedding pour l'analyse de données relationnelles

FR  |  
EN
Auteur / Autrice : Alexis Cvetkov-Iliev
Direction : Gaël Varoquaux
Type : Thèse de doctorat
Discipline(s) : Informatique mathématique
Date : Soutenance le 25/01/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Anne Vilnat
Examinateurs / Examinatrices : Adrien Coulet, Felix Biessmann, José Hernández-Orallo
Rapporteurs / Rapporteuses : Adrien Coulet, Felix Biessmann

Résumé

FR  |  
EN

L'analyse de données, par exemple via des modèles d'apprentissage automatique, requiert généralement qu'elles soient regroupées en une table unique décrivant les entités analysées par un nombre fixe d'attributs ou features. En pratique cependant, la plupart des jeux de données sont relationnels (cf. bases de données relationnelles et graphes de connaissance), où l'information sur les entités d'intérêt est irrégulière et dispersée à travers plusieurs sources. Pour analyser de telles données, il est alors nécessaire de les assembler dans une structure unique (généralement une table), ce qui demande du temps et de l'expertise. À la place, nous étudions dans cette thèse le potentiel des modèles d'embedding pour faciliter l'assemblage et l'intégration de données relationnelles. Nous nous intéressons particulièrement aux deux problèmes suivants : 1) l'appariement d'entités (par exemple "Paris" et "Paris, FR"), qui est souvent nécessaire lorsque les données proviennent de sources ayant des manières différentes de représenter la même information ; et 2) le feature engineering sur des données relationnelles pour enrichir l'analyse de données avec de l'information externe. Enfin, nous montrons que les modèles d'embedding sont des outils prometteurs pour l'analyse de données relationnelles : 1) utiliser de "bonnes" représentations vectorielles (i.e. embeddings) d'entités peut remplacer l'appariement manuel d'entités, sans compromettre la qualité des analyses en aval ; et 2) apprendre des embeddings d'entités directement sur des données relationnelles est un moyen efficace et applicable à de grands jeu de données d'automatiser le feature engineering. Ceci ouvre la voie vers l'apprentissage de représentations généralistes d'entités, facilement utilisables dans de nombreuses applications.