Repenser les méthodes statistiques avec des drapeaux

Tom Szwagier

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Repenser les méthodes statistiques avec des drapeaux

FR |

EN

Auteur / Autrice :	Tom Szwagier
Direction :	Xavier Pennec
Type :	Thèse de doctorat
Discipline(s) :	Automatique, traitement du signal et des images
Date :	Soutenance le 28/11/2025
Etablissement(s) :	Université Côte d'Azur
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche :	Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury :	Président / Présidente : Florence Forbes
	Examinateurs / Examinatrices : Xavier Pennec, Florence Forbes, Pierre-Antoine Absil, Ian L. Dryden, Frédéric Pascal, Armin Schwartzman
	Rapporteurs / Rapporteuses : Pierre-Antoine Absil, Ian L. Dryden

Mots clés

FR |

EN

Mots clés contrôlés

Variétés de drapeaux (géométrie)

Statistique

Analyse de covariance

Géométrie de Riemann

Analyse en composantes principales

Mots clés libres

Analyse en composantes principales

Géometrie riemannienne

Matrices de covariance

Parcimonie

Statistiques

Variétés de drapeaux

Résumé

FR |

EN

Un drapeau est une suite strictement croissante de sous-espaces linéaires. On peut également le définir comme une suite de sous-espaces linéaires mutuellement orthogonaux, dont les dimensions forment le type. L'ensemble des drapeaux d'un même type a une structure de variété riemannienne, lisse, compacte et connexe. Aussi abstraites que ces variétés de drapeaux puissent sembler, cette thèse s'attache à démontrer qu'elles ont une véritable importance en statistiques. Les sous-espaces propres d'une matrice symétrique réelle forment un drapeau, dont le type correspond aux multiplicités des valeurs propres. Par conséquent, les variétés de drapeaux devraient naturellement intervenir dans certaines méthodes statistiques incontournables telles que l'analyse en composantes principales, qui repose justement sur la décomposition spectrale de la matrice de covariance empirique. Cependant, leur utilisation en statistiques reste aujourd'hui très limitée, au profit de variétés plus simples telles que celles de Stiefel et de Grassmann, auxquelles appartiennent respectivement les composantes principales et les sous-espaces utilisés en réduction de dimension. Une première contribution fondamentale de cette thèse est la découverte d'un nouveau type de parcimonie dans les matrices de covariance. L'étude des variétés de drapeaux nous permet de démontrer que le nombre de paramètres des matrices de covariance décroît quadratiquement avec les multiplicités des valeurs propres. En vertu du principe de parcimonie, nous montrons qu'il faudrait égaliser les valeurs propres empiriques dont la distance relative est inférieure à un certain seuil. Ce résultat a un impact important en statistiques : il implique de passer d'une analyse en composantes principales à une analyse en sous-espaces principaux, avec de nets gains en interprétabilité. Plusieurs approfondissements de notre analyse en sous-espaces principaux sont proposés. Nous reformulons notamment le choix du type du drapeau comme un problème d'optimisation sur l'espace des matrices de covariance, stratifié par les multiplicités des valeurs propres. Une relaxation semblable à un lasso sur les valeurs propres améliore nettement la rapidité de la sélection de modèle. D'autres méthodologies — telles qu'un partitionnement hiérarchique des valeurs propres et une approximation bayésienne de la vraisemblance marginale — sont également explorées. Afin d'en améliorer l'expressivité, nous étendons notre analyse en sous-espaces principaux aux modèles de mélange. L'apprentissage des paramètres par un algorithme espérance-maximisation classique rendant le problème de sélection de modèle difficile, nous en proposons une variante qui estime et regroupe automatiquement les valeurs propres. Nous obtenons des garanties théoriques sur la monotonie de la fonction objectif au cours des itérations, ce qui rend notre approche prometteuse pour l'apprentissage de modèles de mélange parcimonieux. Enfin, nous montrons que certaines méthodes de réduction de dimension souffrent d'un fléau : les représentations qu'elles produisent à différentes dimensions ne sont pas imbriquées. L'extension de notre méthodologie via un principe simple et générique — faisant intervenir de l'optimisation sur des variétés de drapeaux — permet alors d'obtenir naturellement des représentations cohérentes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Repenser les méthodes statistiques avec des drapeaux

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Repenser les méthodes statistiques avec des drapeaux

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses