Thèse soutenue

Nouvelles méthodes statistiques pour la fouille de données, contributions à la détection d'anomalies et au test d'unimodalité

FR  |  
EN
Auteur / Autrice : Alban Siffer
Direction : Pierre-Alain FouqueAlexandre Termier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 19/12/2019
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : ComuE : Université Bretagne Loire (2016-2019)
Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes)

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse propose de nouveaux algorithmes statistiques dans deux domaines différents de la fouille de données: la détection d'anomalies et le test d'unimodalité.Premièrement, une nouvelle méthode non-supervisée permettant de détecter des anomalies dans des flux de données est développée. Celle-ci se base sur le calcul de seuils probabilistes, eux-mêmes utilisés pour discriminer les observations anormales.La force de cette méthode est sa capacité à s'exécuter automatiquement sans connaissance préalable ni hypothèse sur le flux de données d'intérêt.De même, l'aspect générique de l'algorithme lui permet d'opérer dans des domaines d'application variés. En particulier, nous développons un cas d'usage en cyber-sécurité.Cette thèse développe également un nouveau test d'unimodalité qui permet de déterminer si une distribution de données comporte un ou plusieurs modes. Ce test est nouveau par deux aspects: sa capacité à traiter des distributions multivariées mais également sa faible complexité, lui permettant alors d'être appliqué en temps réel sur des flux de données.Cette composante plus fondamentale a principalement des applications dans d'autres domaines du data mining tels que le clustering. Un nouvel algorithme cherchant incrémentalement le paramétrage de k-means est notamment détaillé à la fin de ce manuscrit.