Clustering de tenseurs pour les données textuelles

Karima Boutalbi

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Clustering de tenseurs pour les données textuelles

FR |

EN

Auteur / Autrice :	Karima Boutalbi
Direction :	Kavé Salamatian, David Télisson
Type :	Thèse de doctorat
Discipline(s) :	STIC Informatique
Date :	Soutenance le 29/08/2025
Etablissement(s) :	Chambéry
Ecole(s) doctorale(s) :	École doctorale sciences, ingénierie, environnement (Chambéry ; 2021-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique, systèmes, traitement de l'information et de la connaissance (Annecy)
Jury :	Président / Présidente : Mohamed Quafafou
	Examinateurs / Examinatrices : Nadia Ghazzali
	Rapporteurs / Rapporteuses : Mohamed Quafafou, Nadir Farah

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage non supervisé (intelligence artificielle)

Modèles tensoriels

Structures de données (informatique)

Clustering (intelligence artificielle)

Mots clés libres

Clustering

Apprentissage non supervisé

Résumé

FR |

EN

Le clustering hiérarchique est l’une des approches les plus largement utilisées dans l’apprentissage non supervisé, où l’organisation des données devient un art et les relations internes aux ensembles de données occupent une place centrale. L’algorithme révèle la structure intrinsèque des données en les regroupant sous forme d’un arbre de clusters imbriqués. Cette technique est particulièrement utile pour comprendre la structure et les relations au sein des données, en formant des regroupements hiérarchiques basés sur des mesures de similarité. L’objectif du clustering hiérarchique est de construire une hiérarchie de clusters de manière itérative. Cependant, lorsqu’il est appliqué à de grands ensembles de données, il devient sensible au bruit et aux valeurs aberrantes, ce qui peut dégrader la qualité des résultats. De plus, le clustering hiérarchique peut être coûteux en termes de calcul. Il existe deux approches principales : l’approche agglomérative et l’approche divisive. Dans le clustering divisif, contrairement à l’agglomératif, l’algorithme commence par considérer l’ensemble des données comme un seul cluster, puis divise ce cluster en deux à chaque itération, selon des critères comme la maximisation de la dissimilarité inter-cluster ou la minimisation de la dissimilarité intra-cluster.Dans le contexte du clustering hiérarchique de données textuelles, il est essentiel de représenter les textes sous forme numérique. Aujourd’hui, de nombreuses méthodes de représentation textuelle existent, allant du simple modèle Bag-of-Words (BOW) aux approches avancées basées sur les transformeurs, capables de capturer des informations sémantiques et contextuelles. Cependant, il n’existe pas une unique représentation textuelle optimale pour les tâches de clustering. Ainsi, certaines études combinent plusieurs représentations de texte à l’aide de techniques de clustering par consensus. Dans cette thèse, nous proposons une nouvelle approche qui combine plusieurs représentations textuelles en calculant les similarités entre paires de textes, ce qui permet de générer des matrices de similarité. La combinaison de ces matrices de similarité aboutit à une représentation tensorielle, permettant un clustering simultané des ensembles de données textuelles.Ces données hétérogènes se prêtent naturellement à une représentation tensorielle, qui permet d’intégrer différentes sources d’information. En exploitant un tenseur d’ordre 3, on améliore la qualité du clustering en capturant les interactions entre les différents types de données. Par exemple, les produits ayant des notes similaires, des titres proches et des mots-clés communs dans les avis utilisateurs sont plus susceptibles d’être achetés ensemble.Afin de réaliser un clustering hiérarchique efficace tout en prenant en compte différentes représentations de données, cette thèse introduit deux nouvelles approches. La première, HTGM (Hierarchical Graph Modularity), permet de réaliser un clustering hiérarchique de données tensorielle en optimisant la modularité, ce qui permet d’identifier des clusters et sous-clusters dans les données. La seconde, IEcons (Implicit Explicit Consensus), combine les données tensorielle et tabulaire dans une approche par consensus. Nous avons également étendu cette méthode vers une version hiérarchique, HIEcons, qui obtient de meilleurs résultats de clustering comparés à HTGM.Ces contributions ont été validées sur des données synthétiques puis appliquées à des cas concrets, notamment le clustering hiérarchique de documents textuels, le clustering hiérarchique de produits et d’utilisateurs dans des systèmes de recommandation, et le clustering hiérarchique d’employés au sein d’entreprises. En outre, ces travaux ouvrent des perspectives intéressantes, notamment l’extension des modèles proposés au tri-clustering et à l’analyse de données temporelles multivariées.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Clustering de tenseurs pour les données textuelles

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Clustering de tenseurs pour les données textuelles

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses