Thèse soutenue

Une approche stochastique à base d’arbres aléatoires pour le calcul de dissimilarités : application au clustering pour diverses structures de données
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Kevin Dalleau
Direction : Malika Smail-TabboneMiguel Couceiro
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/11/2021
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Isabelle Chrisment
Examinateurs / Examinatrices : Malika Smail-Tabbone, Miguel Couceiro, Pascale Kuntz-Cosperec, Jean-Michel Poggi, Antoine Cornuéjols
Rapporteurs / Rapporteuses : Pascale Kuntz-Cosperec, Jean-Michel Poggi

Résumé

FR  |  
EN

La notion de distance, et plus généralement de dissimilarité, est une notion importante en fouille de données, tout particulièrement dans les approches non supervisées. Les algorithmes de cette classe de méthodes visant à regrouper de manière homogène des objets, nombre d’entre eux s’appuient sur une notion de dissimilarité, afin de quantifier la proximité entre objets. Le choix des algorithmes ainsi que celui des dissimilarités n’est cependant pas trivial. Plusieurs éléments peuvent motiver ces choix, tels que le type de données – données homogènes ou non –, leur représentation – vecteurs d’attributs, graphes –, ou encore certaines de leurs caractéristiques – fortement corrélées, bruitées, etc. –. Bien que de nombreuses mesures existent, leur choix peut devenir complexe dans certains cadres spécifiques. Ceci entraîne une complexité supplémentaire dans les tâches d’exploration et de fouille des données. Nous présentons dans cette thèse une nouvelle approche permettant le calcul de dissimilarités, basée sur des arbres aléatoires. Il s’agit d’une approche originale dont nous montrons plusieurs avantages, parmi lesquels l’on retrouve une grande versatilité. En effet, par le biais de différents modules de calcul de dissimilarités que nous accolons à la méthode, il devient possible de l’appliquer dans divers cadres. Nous présentons notamment dans ce document deux modules, permettant le calcul de dissimilarités — et, in fine, le clustering — sur des données structurées sous forme de vecteur d’attributs, et sur des données sous forme de graphes. Nous discutons des résultats très prometteurs obtenus par cette approche, ainsi que des nombreuses perspectives ouvertes par cette dernière, telle que le calcul de dissimilarité dans le cadre des graphes attribués, par le biais d’une approche unifiée.