Thèse soutenue

Algorithmes de segmentation flexibles pour données hétérogènes

FR  |  
EN
Auteur / Autrice : Violeta Roizman
Direction : Frédéric PascalMatthieu Jonckheere
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Informatique
Date : Soutenance le 08/01/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire des signaux et systèmes (Gif-sur-Yvette, Essonne ; 1974-....)
référent : CentraleSupélec (2015-....)
Jury : Président / Présidente : Michèle Sebag
Examinateurs / Examinatrices : Jean-Yves Tourneret, Cédric Richard, Esa Ollila
Rapporteurs / Rapporteuses : Jean-Yves Tourneret, Cédric Richard

Résumé

FR  |  
EN

L'objectif de la segmentation de données ou clustering est de trouver des groupes homogènes en fonction d'une distance prédeterminée. Étant donnée sa nature non supervisée, le clustering peut être appliqué à tout type de données et peut s'affranchir de processus d'étiquetage (labels) qui peuvent s'avérer très coûteux. Parmi les algorithmes de clustering les plus populaires, celui basé sur le modèle de mélange gaussien (MMG) est particulièrement intéressant. En effet, cet algorithme est très intuitif et fonctionne très bien lorsque les groupes ont une forme elliptique.Cependant, le modèle MMG est peu performant lorsque les données ont une loi qui s'éloigne d'un mélange de lois gaussiennes.En effet, les performances de l'algorithme peuvent être fortement détériorées par la non-robustesse des estimateurs classiques impliqués dans l'ajustement du modèle lorsque les données contiennent des aberrations ou du bruit. De plus, le MMG de base utilisé dans des applications de clustering n'est pas bien adapté aux contextes de données de grande dimension.Dans cette thèse, nous proposons une approche alternative à la robustesse de la méthode MMG. Nous utilisons un modèle basé sur des distributions symétriques elliptiques, permettant de décrire une famille plus générale de distributions. En outre, nous introduisons des paramètres supplémentaires qui augmentent la flexibilité de notre modèle et conduisent à des généralisations des estimateurs robustes classiques. Afin d'étayer les premières conclusions quant à la robustesse de l'algorithme proposé, des analyses théoriques et pratiques sont faites. Elles permettent notamment de mettre en valeur le caractère général de ces travaux.Ensuite, nous nous intéressons au problème de rejet de valeurs aberrantes. Nous considérons une version robuste de la distance de Mahalanobis et nous étudions sa distribution. Une bonne connaissance de cette distribution est essentielle car elle permet de fixer un seuil de rejet pour la classification de nouvelles données.Enfin, nous abordons deux applications liées au traitement d'images radar avec une perspective de clustering. Tout d'abord, nous considérons un problème de segmentation d'images. En dernier lieu, nous adaptons l'algorithme développé dans cette thèse afin de résoudre le problème de détection de changements dans des séries temporelles d'images.