Auteur / Autrice : | Tianshu Yang |
Direction : | Frédéric Precioso |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 14/12/2021 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes) |
Jury : | Président / Présidente : Charles Bouveyron |
Examinateurs / Examinatrices : Frédéric Precioso, Charles Bouveyron, Karell Bertet, Anne Laurent, Bruno Crémilleux | |
Rapporteurs / Rapporteuses : Karell Bertet, Anne Laurent |
Mots clés
Résumé
Le flux de travail du système de comptabilisation des recettes (Revenue Accounting Workflow) de Amadeus traite automatiquement les tickets comptables jusqu'à ce qu'une erreur se produise. Le flux de travail est alors interrompu et une action de l'utilisateur est requise pour corriger l'erreur. Le principal problème ici est que chaque erreur est traitée comme indépendante, même si des erreurs similaires ont déjà été corrigées, ce qui entraîne une importante perte de temps. Le travail de cette thèse vise à améliorer l'automatisation du processus de traitement des erreurs, par le regroupement des tickets d'erreur pour former des clusters de tickets correspondant à des anomalies similaires et nécessitant des processus de correction similaires.Nous proposons une nouvelle approche de clustering semi-supervisé par consensus, nommée Semi-MultiCons, pour atteindre cet objectif. Semi-MultiCons utilise des informations supervisées à la fois dans l'étape de génération des membres de l'ensemble de clusterings initiaux et dans le processus de consensus. Cette approche parvient à générer une solution de clustering par consensus recommandée avec un nombre de clusters inféré K pertinent, à partir de clusterings initiaux avec différents nombres de clusters K. Les résultats expérimentaux démontrent que Semi-MultiCons est capable d'atténuer l'"effet négatif", largement rapporté dans la littérature, lié à l'intégration de contraintes dans le clustering et est remarquablement robuste en présence de bruit dans les contraintes. Semi-MultiCons s'avère également capable de traiter de très larges ensembles de données industrielles et parvient à obtenir de bonnes performances. Avec le mode "mini-batch" proposé, Semi-MultiCons peut donner une réponse rapide, voire en temps réel.Une preuve de concept de Semi-MultiCons avec l'écosystème Big Data et la plate-forme Cloud est développée et déployée dans un environnement industriel opérationnel. Grâce à cette preuve de concept, l'utilisateur est en mesure d'explorer les clusters de tickets d'erreur similaires, de valider ces clusters et d'effectuer des corrections par lot pour chaque cluster. L'action de l'utilisateur sera ensuite utilisée comme information supervisée afin d'améliorer la qualité du résultat du clustering de Semi-MultiCons.