Thèse soutenue

Le clustering semi-supervisé appliqué à la comptabilité des revenus
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Tianshu Yang
Direction : Frédéric Precioso
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/12/2021
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Charles Bouveyron
Examinateurs / Examinatrices : Frédéric Precioso, Charles Bouveyron, Karell Bertet, Anne Laurent, Bruno Crémilleux
Rapporteurs / Rapporteuses : Karell Bertet, Anne Laurent

Résumé

FR  |  
EN

Le flux de travail du système de comptabilisation des recettes (Revenue Accounting Workflow) de Amadeus traite automatiquement les tickets comptables jusqu'à ce qu'une erreur se produise. Le flux de travail est alors interrompu et une action de l'utilisateur est requise pour corriger l'erreur. Le principal problème ici est que chaque erreur est traitée comme indépendante, même si des erreurs similaires ont déjà été corrigées, ce qui entraîne une importante perte de temps. Le travail de cette thèse vise à améliorer l'automatisation du processus de traitement des erreurs, par le regroupement des tickets d'erreur pour former des clusters de tickets correspondant à des anomalies similaires et nécessitant des processus de correction similaires.Nous proposons une nouvelle approche de clustering semi-supervisé par consensus, nommée Semi-MultiCons, pour atteindre cet objectif. Semi-MultiCons utilise des informations supervisées à la fois dans l'étape de génération des membres de l'ensemble de clusterings initiaux et dans le processus de consensus. Cette approche parvient à générer une solution de clustering par consensus recommandée avec un nombre de clusters inféré K pertinent, à partir de clusterings initiaux avec différents nombres de clusters K. Les résultats expérimentaux démontrent que Semi-MultiCons est capable d'atténuer l'"effet négatif", largement rapporté dans la littérature, lié à l'intégration de contraintes dans le clustering et est remarquablement robuste en présence de bruit dans les contraintes. Semi-MultiCons s'avère également capable de traiter de très larges ensembles de données industrielles et parvient à obtenir de bonnes performances. Avec le mode "mini-batch" proposé, Semi-MultiCons peut donner une réponse rapide, voire en temps réel.Une preuve de concept de Semi-MultiCons avec l'écosystème Big Data et la plate-forme Cloud est développée et déployée dans un environnement industriel opérationnel. Grâce à cette preuve de concept, l'utilisateur est en mesure d'explorer les clusters de tickets d'erreur similaires, de valider ces clusters et d'effectuer des corrections par lot pour chaque cluster. L'action de l'utilisateur sera ensuite utilisée comme information supervisée afin d'améliorer la qualité du résultat du clustering de Semi-MultiCons.