Classification en grande dimension de données hétérogènes multi-échelles

par Violeta Roizman

Projet de thèse en Mathématiques et Informatique

Sous la direction de Frédéric Pascal.

Thèses en préparation à Paris Saclay en cotutelle avec l'University of Buenos Aires , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne) , en partenariat avec L2S - Laboratoire des signaux et systèmes (laboratoire) , Signaux (equipe de recherche) et de CentraleSupélec (2015-....) (établissement de préparation de la thèse) depuis le 01-11-2018 .


  • Résumé

    Les travaux de thèse se focaliseront sur le développement de nouvelles techniques de classification non-supervisée sous contraintes adaptées aux données de grande dimension et multi-échelle. Les principaux challenges soulevés dans cette thèse seront : - développement de méthodes de clustering produisant des clusters avec un fort degré de confiance, i.e. des clusters qui font sens par rapport aux données clasifiées - adaptation à l'échelle particulière étudiée - développement de techniques de réduction de dimension en adéquation avec le clustering - prise en compte des aspects de coût calculatoire inhérents à la volumétrie des données

  • Titre traduit

    High-dimensional clustering for multi-scale data


  • Résumé

    The topic of the PhD will be focused on developing new clustering approaches in order to fulfill several constraints and overcome specific challenges such as the high dimensionality of the data and/or its multi-scale aspects. Clustering in high dimensional settings brings a variety of new challenges: • Usual clustering algorithms with L-p distances are typically not adapted as they produce either tiny or giant clusters with low level of significance; • Simple clustering algorithms might not detect correctly the different scales of data; • Dimension reductions techniques might have a huge impact on the obtained clusters (lack of robustness); • Finally, computational aspects of too sophisticated tools might become prohibitive. In this PhD, the candidate will develop various axes of research along this problematic by first trying to analyze the influence of the choice of distances in clustering algorithms like dbscan and see how it can be combined with multi-scale analysis to produce efficient clustering techniques. A robustness analysis and the notion of distance between clustering results shall also be considered. Finally practical algorithms allowing multi-scale analysis and involving robustness criteria will be developed and implemented on synthetic data.