Vers une théorie mathématique de l'Information Pertinente : apprentissage et communication

par Clément Feutry

Projet de thèse en Réseaux, information et communications

Sous la direction de Pierre Duhamel et de Pablo Piantanida.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec L2S - Laboratoire des signaux et systèmes (laboratoire) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-09-2015 .


  • Résumé

    Notre proposition vise à avancer vers une théorie mathématique de la pertinence ou l'interprétation de l'information, pour la compréhension et le développement des nouvelles méthodes d'apprentissage statistique. Cette recherche, assez fondamentale, s'avère être importante non seulement pour faire face aux nombreux défis de l'analyse de données moderne et ses multiples domaines de recherche appliquée, mais aussi afin d'acquérir de nouveaux outils qui pourraient permettre de résoudre des problèmes qui sont longtemps restés sans réponse. Le point crucial pour formaliser les intuitions ci dessus est d'être capable de quantifier la notion de 'pertinence' de l'information. Une première voie dans cette direction provient du codage de source avec pertes. De la même manière que l'on cherche une représentation du signal original qui puisse se transmettre à l'aide d'un débit minimal, sous contrainte que la distortion soit inférieure à une valeur donnée, construire une information pertinente représentant un signal peut se comprendre comme la construction d'une représentation comprimée soumise à une contrainte de distorsion non conventionnelle qui soit une mesure de la caractéristique recherchée. Apprendre à l'aide de mesures d'information... Partant de ce point de vue, force est de constater que certains précurseurs ont déjà avancé dans cette direction. Des premiers résultats fondamentaux reliant le problème de pertinence de l'information et le codage de source avec pertes ont été obtenus par Tishby'99 dans la méthode appelée 'Information Bottleneck' (IB). L'objectif est d'identifier l'information pertinente qui se trouve dans le signal observé 'X' définie comme l'information que 'X' fournit sur un autre signal caché 'Y'. Un exemple caricatural serait : l'information pertinente est celle que des images de visage apportent sur l'identité des personnes. La méthode IB recherche donc une description (avec pertes) f(X) sous des contraintes de complexité, tout en conservant le maximum d'information (mesure de pertinence) sur 'Y'. On voit que ce concept permet en quelque sorte de mesurer la pertinence tout en fournissant des mesures quantitatives du compromis entre complexité (calculatoire) de l'information et pertinence (statistique).

  • Titre traduit

    Towads a mathematical theory of relevant information: learning and communication


  • Résumé

    Sans objet