Apprentissage et transmission d'information pour apprentissage en-ligne et transfert entre domaines: mise en oeuvre de géométries non euclidiennes et de la complexité de Kolmogorov.

par Pierre-alexandre Murena

Projet de thèse en Informatique

Sous la direction de Jean-Louis Dessalles.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec Laboratoire de Traitement et Communication de l'Information (laboratoire) , IC2 : Interaction, Cognition et Complexité (equipe de recherche) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 04-01-2016 .


  • Résumé

    L'objectif est de suivre des principes de continuité et de simplicité pour apprendre à partir d'exemples lorsque ceux-ci sont peu nombreux et appartiennent à un domaine connexe, mais différent, du domaine cible, ce qui rend une approche purement statistique inopérante. Ce projet de thèse se situe entre deux extrêmes : d'un côté, les approches statistiques de l'apprentissage automatique, qui connaissent un succès renouvelé lié à la masse de données disponibles et aux puissances de traitement ; d'un autre côté, les approches structurelles capables d'apprendre sur quelques exemples seulement. L'étude repose sur deux outils théoriques : (1) la géométrie non euclidienne, qui permet de formaliser le transport analogique entre un domaine source et un domaine cible ; (2) la complexité de Kolmogorov, qui offre un cadre formel pour l'induction, qu'elle soit statistique ou symbolique. Cette étude est une manière de penser « en dehors de la boîte » : l'apprentissage automatique tend à se limiter aux cas où les données sont disponibles, en négligeant les situations, parfois stratégiques, où l'approche statistique ne parvient pas encore à rivaliser avec la performance d'apprentissage humaine. La thèse pourrait contribuer à répondre à ce manque.

  • Titre traduit

    On-line machine learning and information transfer between domains, based on non-Euclidean geometry and Kolmogorov complexity.


  • Résumé

    Statistical learning cannot operate on small data sets or when the target domain is different from known examples, though related to them. This research explores the possibility of using continuity and simplicity principles to guide learning in these cases. This research project lies between two extremities: on the one hand, statistical approaches to machine learning have recently improved their efficiency, due to large available data sets and powerful computing capabilities. On the other hand, inductive learning can operate on very few examples thanks to structural approaches. Two theoretical frameworks are relevant to this study. (1) Non-Euclidean geometry will be used to formalize analogical transport between a source domain and a target domain. (2) Kolmogorov complexity offers a common formal description of induction, based either on statistics or on symbolic structures. This study is a way to think « out of the box »: machine learning is commonly limited to situations in which data are easily available. It tends to ignore a whole segment of strategic situations in which statistical learning is ineffective and cannot compare with human performance. This PhD work could contribute to bridging that gap.