Thèse soutenue

Apprentissage automatique et extrêmes pour la détection d'anomalies

FR  |  
EN
Auteur / Autrice : Nicolas Goix
Direction : Stephan ClémençonAnne Sabourin
Type : Thèse de doctorat
Discipline(s) : Signal et images
Date : Soutenance le 28/11/2016
Etablissement(s) : Paris, ENST
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Gérard Biau
Examinateurs / Examinatrices : Anne Sabourin, Jean-Philippe Vert, Alexandre Gramfort
Rapporteurs / Rapporteuses : Stéphane Boucheron, Stéphane Girard

Résumé

FR  |  
EN

La détection d'anomalies est tout d'abord une étape utile de pré-traitement des données pour entraîner un algorithme d'apprentissage statistique. C'est aussi une composante importante d'une grande variété d'applications concrètes, allant de la finance, de l'assurance à la biologie computationnelle en passant par la santé, les télécommunications ou les sciences environnementales. La détection d'anomalies est aussi de plus en plus utile au monde contemporain, où il est nécessaire de surveiller et de diagnostiquer un nombre croissant de systèmes autonomes. La recherche en détection d'anomalies inclut la création d'algorithmes efficaces accompagnée d'une étude théorique, mais pose aussi la question de l'évaluation de tels algorithmes, particulièrement lorsque l'on ne dispose pas de données labellisées -- comme dans une multitude de contextes industriels. En d'autres termes, l'élaboration du modèle et son étude théorique, mais aussi la sélection du modèle. Dans cette thèse, nous abordons ces deux aspects. Tout d'abord, nous introduisons un critère alternatif au critère masse-volume existant, pour mesurer les performances d'une fonction de score. Puis nous nous intéressons aux régions extrêmes, qui sont d'un intérêt particulier en détection d'anomalies, pour diminuer le taux de fausse alarme. Enfin, nous proposons deux méthodes heuristiques, l'une pour évaluer les performances d'algorithmes de détection d'anomalies en grande dimension, l'autre pour étendre l'usage des forets aléatoires à la classification à une classe.