Thèse soutenue

Contributions à base de graphes à l'apprentissage automatique
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Quentin Lutz
Direction : Thomas Bonald
Type : Thèse de doctorat
Discipline(s) : Informatique, Données et Intelligence artificielle: Mathématiques et Informatique
Date : Soutenance le 09/02/2022
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
: Télécom Paris (Palaiseau ; 1977-....)
Jury : Président / Présidente : Jean-Loup Guillaume
Examinateurs / Examinatrices : Thomas Bonald, Jean-Loup Guillaume, Matthieu Latapy, Conrado Martínez, Élie De panafieu, Cécile Mailler
Rapporteurs / Rapporteuses : Matthieu Latapy, Conrado Martínez

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Un graphe est un objet mathématique permettant de représenter des relations entre des entités (appelées nœuds) sous forme d’arêtes. Les graphes sont depuis longtemps un objet d’étude pour différents problèmes allant d’Euler au PageRank en passant par les problèmes de plus courts chemins. Les graphes ont plus récemment trouvé des usages pour l’apprentissage automatique.Avec l’avènement des réseaux sociaux et du web, de plus en plus de données sont représentées sous forme de graphes. Ces graphes sont toujours plus gros, pouvant contenir des milliards de nœuds et arêtes. La conception d’algorithmes efficaces s’avère nécessaire pour permettre l’analyse de ces données. Cette thèse étudie l’état de l’art et propose de nouveaux algorithmes pour la recherche de communautés et le plongement de nœuds dans des données massives. Par ailleurs, pour faciliter la manipulation de grands graphes et leur appliquer les techniques étudiées, nous proposons Scikit-network, une librairie libre développée en Python dans le cadre de la thèse. De nombreuses tâches, telles que le calcul de centralités et la classification de nœuds, peuvent être accomplies à l’aide de Scikit-network.Nous nous intéressons également au problème d’annotation de données. Les techniques supervisées d’apprentissage automatique nécessitent des données annotées pour leur entrainement. La qualité de ces données influence directement la qualité des prédictions de ces techniques une fois entrainées. Cependant, obtenir ces données ne peut pas se faire uniquement à l’aide de machines et requiert une intervention humaine. Nous étudions le problème d’annotation, sous un formalisme utilisant des graphes, avec pour but de décrire les solutions qui limitent cette intervention de façon optimale. Nous caractérisons ces solutions et illustrons comment elles peuvent être appliquées.