Apprentissage de représentation factorisée d'image pour découverte visuelle

par Théophile Dalens

Thèse de doctorat en Informatique

Sous la direction de Josef Sivic et de Mathieu Aubry.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de École doctorale Sciences mathématiques de Paris centre (Paris) , en partenariat avec DIENS - Département d'informatique de l'École normale supérieure (laboratoire) et de École normale supérieure (Paris ; 1985-....) (établissement opérateur d'inscription) .


  • Résumé

    L'analyse temporelle quantitative à grande échelle de données textuelles a eu un grand impact sur la compréhension des tendances sociales. Une analyse similaire à grande échelle des collections d'images temporelles permettrait de nouvelles applications en médecine, en science ou en histoire de l'art. Cependant, l'analyse temporelle des données visuelles est une tâche notoirement difficile. Le principal défi est que les images n'ont pas un vocabulaire donné d'éléments visuels, par analogie avec les mots du texte, qui pourraient être utilisés pour une telle analyse. De plus, les objets représentés dans les images varient considérablement en apparence en raison du point de vue de l'appareil photographique, de l'éclairage ou des variations intra-classe. L'objectif de cette thèse est de développer des outils pour analyser les collections d'images temporelles afin d'identifier et de mettre en évidence les tendances visuelles à travers le temps. Cette thèse propose une approche pour l'analyse de données visuelles non appariées annotées avec le temps en générant à quoi auraient ressemblé les images si elles avaient été d'époques différentes. Pour isoler et transférer les variations d'apparence dépendantes du temps, nous introduisons un nouveau module bilinéaire de séparation de facteurs qui peut être entraîné. Nous analysons sa relation avec les représentations factorisées classiques et les auto-encodeurs basés sur la concaténation. Nous montrons que ce nouveau module présente des avantages par rapport à un module standard de concaténation lorsqu'il est utilisé dans une architecture de réseau de neurones convolutionnel encodeur-décodeur à goulot. Nous montrons également qu'il peut être inséré dans une architecture récente de traduction d'images à adversaire, permettant la transformation d'images à différentes périodes de temps cibles en utilisant un seul réseau. Nous appliquons notre modèle à une collection de plus de 13 000 voitures fabriquées entre 1920 et 2000 et à un ensemble de portraits d'annuaires d'écoles secondaires entre 1930 et 2009. Cela nous permet, pour une nouvelle image d'entrée donnée, de générer une " vidéo historique en continu " révélant les changements dans le temps en variant simplement l'année cible. Nous montrons qu'en analysant ces vidéos générées, nous pouvons identifier les déformations des objets dans le temps et en extraire des changements intéressants dans le style visuel au fil du temps.

  • Titre traduit

    Learnable factored image representation for visual discovery


  • Résumé

    Large-scale quantitative temporal analysis of heritage text data has made a great impact in understanding social trends. Similar large-scale analysis of temporal image collections would enable new applications in medicine, science or history of art. However, temporal analysis of visual data is a notoriously difficult task. The key challenge is that images do not have a given vocabulary of visual elements, in analogy to words in text, that could be used for such analysis. In addition, objects depicted in images vary greatly in appearance due to camera viewpoint, illumination, or intra-class variation. The objective of this thesis is to develop tools to analyze temporal image collections in order to identify and highlight visual trends over time. This thesis proposes an approach for analyzing unpaired visual data annotated with time stamps by generating how images would have looked like if they were from different times. To isolate and transfer time dependent appearance variations, we introduce a new trainable bilinear factor separation module. We analyze its relation to classical factored representations and concatenation-based auto-encoders. We demonstrate this new module has clear advantages compared to standard concatenation when used in a bottleneck encoder-decoder convolutional neural network architecture. We also show that it can be inserted in a recent adversarial image translation architecture, enabling the image transformation to multiple different target time periods using a single network. We apply our model to a challenging collection of more than 13,000 cars manufactured between 1920 and 2000 and a dataset of high school yearbook portraits from 1930 to 2009. This allows us, for a given new input image, to generate a “history-lapse video” revealing changes over time by simply varying the target year. We show that by analyzing the generated history-lapse videos we can identify object deformations across time, extracting interesting changes in visual style over decades.