Thèse soutenue

Apprentissage de représentation non supervisé de flux de données textuelles

FR  |  
EN
Auteur / Autrice : Maha Ben-Fares
Direction : Nistor Grozavu
Type : Thèse de doctorat
Discipline(s) : STIC (Sciences et Technologies de l'Information et de la Communication) - ED EM2PSI
Date : Soutenance le 06/12/2024
Etablissement(s) : CY Cergy Paris Université
Ecole(s) doctorale(s) : École doctorale Économie, Management, Mathématiques, Physique et Sciences Informatiques (Cergy-Pontoise, Val d'Oise)
Partenaire(s) de recherche : Laboratoire : Equipes Traitement de l'Information et Systèmes (Cergy-Pontoise, Val d'Oise ; 2002-....)
Jury : Président / Présidente : Ali Yahyaouy
Examinateurs / Examinatrices : Nistor Grozavu, Ouahmi Ould-Braham, Parisa Rastin, Maria Malek, Rakia Jaziri
Rapporteurs / Rapporteuses : Ali Yahyaouy, Ouahmi Ould-Braham

Résumé

FR  |  
EN

Cette thèse présente des méthodes innovantes pour le regroupement de flux de données textuelles et introduit également un système d'identification des textes générés par l'IA. Cette méthode de détection de l'IA peut être utilisée indépendamment ou comme étape de prétraitement pour filtrer les documents entrants, en supprimant le contenu généré par l'IA et en préservant l'authenticité et la validité de l'information.Plus précisément, nous développons un système de classification qui distingue entre le texte écrit par des humains et celui généré par l'IA. Pour ce faire, cette méthode utilise une stratégie de fusion hiérarchique qui intègre des représentations provenant de diverses couches du modèle BERT. En se concentrant sur les caractéristiques syntaxiques, notre modèle classifie chaque token comme étant soit Humain, soit IA, capturant efficacement des structures textuelles détaillées et assurant une performance robuste dans plusieurs langues grâce au modèle XLM-RoBERTa-Large.Dans le domaine du regroupement de flux de données, en particulier pour les données textuelles, nous introduisons d'abord une méthode appelée OTTC (Regroupement Textuel Topologique en Ligne). Cette approche exploite l'apprentissage de représentations topologiques en combinaison avec des techniques de regroupement en ligne. Elle aborde efficacement les défis du clustering de flux de données textuelles, tels que la dynamique des données, la sparsité et la malédiction de la dimensionnalité, qui sont des problèmes que les méthodes de regroupement traditionnelles peinent souvent à gérer.Pour améliorer davantage les résultats du regroupement et répondre aux limites de l'OTTC, nous proposons l'algorithme MVTStream, spécialement conçu pour les flux de données textuelles à vues multiples. Cet algorithme fonctionne en trois étapes: d'abord, il génère des représentations textuelles diverses à partir des données entrantes, traitant chaque représentation comme une vue distincte. Ensuite, il utilise des structures de micro-clusters pour un traitement en temps réel. Enfin, il utilise des méthodes d'ensemble pour agréger les clusters provenant des différentes vues et obtenir les clusters finaux.