Thèse soutenue

Modélisation des données de cytométrie et classification non supervisée en dimension modérée sous l'hypothèse de structure d'indépendance

FR  |  
EN
Auteur / Autrice : Louis Pujol
Direction : Pascal MassartMarc Glisse
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 01/12/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....) - Datashape - Understanding the shape of data
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....)
Jury : Président / Présidente : Frédéric Chazal
Examinateurs / Examinatrices : Charles Bouveyron, Clémentine Prieur, Aurélie Fischer
Rapporteurs / Rapporteuses : Charles Bouveyron, Clémentine Prieur

Résumé

FR  |  
EN

La cytométrie est une technique permettant de mesurer la présence de certaines protéines dans un échantillon cellulaire à l'échelle de la cellule individuelle. L'objectif est d'identifier des populations. Des approches manuelles reposant sur une expertise métier sont aujourd'hui majoritairement utilisées. Un enjeu du domaine est l'automatisation de cette tâche. Dans cette thèse, nous présentons une approche originale de classification non supervisée adaptée aux données de cytométrie. Elle repose sur l'enchaînement de deux étapes : une étape d'estimation de densité et une étape de classification non supervisée déterministe via l'algorithme ToMATo (Chazal, Guibas, Oudot, Skraba). L'étape d'estimation de densité est réalisée en prenant en compte une éventuelle hypothèse de structure d'indépendance dans les variables d'entrée. Ce modèle, introduit par Lepski et Rebelles, revient à supposer que l'on puisse séparer les variables en blocs indépendants. Nous montrons les bonnes performances de notre méthode sur des données de cytométrie en nous comparant à des études comparatives précédemment publiées, en particulier celle de Weber et Robinson. Nous présentons l'algorithme d'estimation de densité ISDE (Independence Structure Density Estimation) qui permet d'estimer une densité reposant sur une structure d'indépendance avec un temps de calcul raisonnable sur les tailles de données rencontrées en cytométrie. Nous montrons par un contrôle en grande probabilité du risque de Kullback-Leibler de l'estimateur obtenu que cette approche permet de réduire l'impact du fléau de la dimension. Enfin, nous montrons la pertinence du modèle de structure d'indépendance sur les données de cytométrie par une étude empirique de la qualité de l'estimation de densité obtenue par ISDE.