Transport optimal structurel pour l'adaptation au domaine avec garanties théoriques

par Mourad EL HAMRI

Thèse de doctorat en Doctorat informatique

Sous la direction de Younes Bennani meziane.

Thèses en préparation à Paris 13 , dans le cadre de École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) depuis le 25-09-2019 .


  • Résumé

    La théorie du transport optimal permet non seulement de définir une distance entre les mesures de probabilité, mais offre également un moyen géométrique de transporter un ensemble de points vers un autre selon le principe du moindre effort. Ce double aspect a laissé la porte grande ouverte pour les applications en adaptation de domaine, une branche de l'apprentissage statistique qui tient compte du changement de distributions entre les données d'apprentissage et les données de test, respectivement appelées domaines source et cible. Toutefois, il existe souvent dans les deux domaines un biais structurel sur la représentation des données ou des structures latentes qui ne sont pas prises en compte par la formulation classique du transport optimal, et l'incapacité à incorporer pleinement ces structures peut entraver le succès de l'adaptation de domaine. Cette thèse présente plusieurs approches pour incorporer les informations structurelles au sein du transport optimal. La première contribution s'appuie sur une formulation hiérarchique du transport optimal pour aligner les structures sources et cibles. Les structures sources sont formées instinctivement en regroupant les données en classes selon leurs étiquettes, tandis que l'apprentissage des structures cachées dans le domaine cible est réduit au problème d'apprentissage de mesures de probabilité via le barycentre de Wasserstein, dont nous prouvons l'équivalence avec le clustering spectral. Notre deuxième contribution est une analyse théorique de l'adaptation de domaine à travers le transport optimal hiérarchique, où nous fournissons des bornes de généralisation pour trois scénarios, à savoir, l'adaptation de domaine non supervisé, semi-supervisé et multi-sources. Ces bornes de généralisation sont basées sur une nouvelle mesure de divergence que nous appelons la distance de Wasserstein Hiérarchique, qui indique, sous des hypothèses modérées, quelles structures doivent être alignées pour mener à une adaptation réussie. Dans notre troisième contribution, nous élargissons le cadre d'apprentissage des structures cibles en dehors du clustering, en développant une approche de propagation de labels basée sur le transport optimal. L'intérêt du transport optimal dans ce contexte est de capturer la géométrie de l'espace d'entrée dans son intégralité. Cette approche effectue une propagation incrémentale de labels, contrôlée par un score qui surveille la certitude des prédictions.  Enfin, en s'appuyant sur ce nouvel algorithme de propagation de labels, nous présentons la dernière contribution,  qui permets de créer de manière progressive des structures sources augmentées, permettant l'apprentissage d'une suite de sous-espaces latents domaine-invariants et discriminants, au sein desquels il devient facile d'étiqueter graduellement les données du domaine cible

  • Titre traduit

    Structural Optimal Transport for Domain Adaptation with Theoretical Guarantees


  • Résumé

    Optimal transport theory not only defines a distance between probability measures but also provides a geometric way to transport a set of points to another according to the principle of least effort. This dual aspect has left the door wide open for applications in domain adaptation, a subfield of statistical learning theory that takes into account the change in distributions between training and test data, respectively called source and target domains. However, there is often a structural bias on the data representation or latent structures in both domains that are not captured by the classical optimal transport formulation, and the inability to fully incorporate these structures can hinder the success of domain adaptation. This thesis presents several approaches to incorporating structural information into the optimal transport problem. The first contribution relies on a hierarchical formulation of optimal transport to align source and target structures. The source structures are formed instinctively by grouping data into classes according to their labels while learning hidden structures in the target domain is reduced to the problem of learning probability measures through Wasserstein barycenter, which we prove to be equivalent to spectral clustering. Our second contribution is a new theoretical framework of domain adaptation through hierarchical optimal transport, where we provide generalization bounds for three scenarios, namely, unsupervised, semi-supervised, and multi-source domain adaptation. These generalization bounds are based on a new divergence measure that we call Hierarchical Wasserstein distance, indicating, under mild assumptions, which structures need to be aligned to lead to successful adaptation. In our third contribution, we extend the framework of learning target structures outside of clustering, by developing a label propagation approach based on optimal transport. The appeal of optimal transport in this context is to capture the geometry of the input space in its entirety. This approach performs incremental label propagation, controlled by a score that watches over the certainty of predictions.  Finally, based on this new label propagation algorithm, we present the last contribution, which allows the progressive creation of augmented source structures, allowing to learn a sequence of latent domain-invariant and discriminative subspaces, within which it becomes easy to gradually label the target data