Clustering de tenseurs pour les données textuelles
| Auteur / Autrice : | Karima Boutalbi |
| Direction : | Kavé Salamatian, David Télisson |
| Type : | Thèse de doctorat |
| Discipline(s) : | STIC Informatique |
| Date : | Soutenance le 29/08/2025 |
| Etablissement(s) : | Chambéry |
| Ecole(s) doctorale(s) : | École doctorale sciences, ingénierie, environnement (Chambéry ; 2021-....) |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, systèmes, traitement de l'information et de la connaissance (Annecy) |
| Jury : | Président / Présidente : Mohamed Quafafou |
| Examinateurs / Examinatrices : Nadia Ghazzali | |
| Rapporteurs / Rapporteuses : Mohamed Quafafou, Nadir Farah |
Résumé
Le clustering hiérarchique est l’une des approches les plus largement utilisées dans l’apprentissage non supervisé, où l’organisation des données devient un art et les relations internes aux ensembles de données occupent une place centrale. L’algorithme révèle la structure intrinsèque des données en les regroupant sous forme d’un arbre de clusters imbriqués. Cette technique est particulièrement utile pour comprendre la structure et les relations au sein des données, en formant des regroupements hiérarchiques basés sur des mesures de similarité. L’objectif du clustering hiérarchique est de construire une hiérarchie de clusters de manière itérative. Cependant, lorsqu’il est appliqué à de grands ensembles de données, il devient sensible au bruit et aux valeurs aberrantes, ce qui peut dégrader la qualité des résultats. De plus, le clustering hiérarchique peut être coûteux en termes de calcul. Il existe deux approches principales : l’approche agglomérative et l’approche divisive. Dans le clustering divisif, contrairement à l’agglomératif, l’algorithme commence par considérer l’ensemble des données comme un seul cluster, puis divise ce cluster en deux à chaque itération, selon des critères comme la maximisation de la dissimilarité inter-cluster ou la minimisation de la dissimilarité intra-cluster.Dans le contexte du clustering hiérarchique de données textuelles, il est essentiel de représenter les textes sous forme numérique. Aujourd’hui, de nombreuses méthodes de représentation textuelle existent, allant du simple modèle Bag-of-Words (BOW) aux approches avancées basées sur les transformeurs, capables de capturer des informations sémantiques et contextuelles. Cependant, il n’existe pas une unique représentation textuelle optimale pour les tâches de clustering. Ainsi, certaines études combinent plusieurs représentations de texte à l’aide de techniques de clustering par consensus. Dans cette thèse, nous proposons une nouvelle approche qui combine plusieurs représentations textuelles en calculant les similarités entre paires de textes, ce qui permet de générer des matrices de similarité. La combinaison de ces matrices de similarité aboutit à une représentation tensorielle, permettant un clustering simultané des ensembles de données textuelles.Ces données hétérogènes se prêtent naturellement à une représentation tensorielle, qui permet d’intégrer différentes sources d’information. En exploitant un tenseur d’ordre 3, on améliore la qualité du clustering en capturant les interactions entre les différents types de données. Par exemple, les produits ayant des notes similaires, des titres proches et des mots-clés communs dans les avis utilisateurs sont plus susceptibles d’être achetés ensemble.Afin de réaliser un clustering hiérarchique efficace tout en prenant en compte différentes représentations de données, cette thèse introduit deux nouvelles approches. La première, HTGM (Hierarchical Graph Modularity), permet de réaliser un clustering hiérarchique de données tensorielle en optimisant la modularité, ce qui permet d’identifier des clusters et sous-clusters dans les données. La seconde, IEcons (Implicit Explicit Consensus), combine les données tensorielle et tabulaire dans une approche par consensus. Nous avons également étendu cette méthode vers une version hiérarchique, HIEcons, qui obtient de meilleurs résultats de clustering comparés à HTGM.Ces contributions ont été validées sur des données synthétiques puis appliquées à des cas concrets, notamment le clustering hiérarchique de documents textuels, le clustering hiérarchique de produits et d’utilisateurs dans des systèmes de recommandation, et le clustering hiérarchique d’employés au sein d’entreprises. En outre, ces travaux ouvrent des perspectives intéressantes, notamment l’extension des modèles proposés au tri-clustering et à l’analyse de données temporelles multivariées.