Apprentissage multimodal actif pour la détection d'objets d'intérêt opérationnel dans les contenus multimédia

par Paul Guelorget

Projet de thèse en Traitement du signal et des images

Sous la direction de Titus Bogdan Zaharia et de Bruno Grilheres.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Télécom SudParis (France) (laboratoire) et de Institut national des télécommunications (Evry) (établissement de préparation de la thèse) depuis le 01-05-2018 .


  • Résumé

    Avec l'explosion des informations mises en ligne notamment sur les réseaux sociaux et par les agences de presse, le renseignement à partir de sources ouvertes a connu un essor sans précédent ces dernières années. Plusieurs services opérationnels en charge de la veille classent manuellement plusieurs milliers de photos par jour. Le volume des contenus multimédia mis en ligne sur les réseaux sociaux est tel que leur traitement exhaustif est inenvisageable. Les progrès incontestables réalisés récemment avec les architectures de réseaux de neurones profonds laissent espérer des possibilités d'automatisation de ces tâches et une augmentation significative des volumes de données traitées. Cette thèse s'attaque notamment à ces enjeux. Pour cela plusieurs défis sont à relever et constituent l'objet de cette thèse : • s'appuyer sur les travaux récents en apprentissage actif et semi-supervisé pour permettre aux analystes de s'adapter rapidement en fonction des crises et des besoins ; • les éléments d'intérêt étant souvent des éléments peu fréquents pour lesquels peu de données d'apprentissage peuvent être fournies, considérer des travaux concernant les méthodes de transfert et les approches de one-shot learning ; • s'appuyer sur les travaux autour des méthodes d'apprentissage profond multimodal afin de mettre les éléments d'intérêt au regard du contexte dans lequel ils apparaissent. Les apprentissages conduits sur des jeux de données trop restreints risquent de conduire à des problèmes de sur-apprentissage. Les techniques d'apprentissage dit actif répondent à cette problématique par le biais d'une pseudo-annotation : au fur et à mesure des inférences menées sur le réseau, les nouveaux exemples de confiance sont annotés et servent à compléter l'entraînement. Des techniques d'analyse de graphes seront considérées pour analyser les résultats et identifier de manière fiable des clusters sémantiques pertinents ; une hybridation des techniques de représentation par attributs et d'apprentissage profond sera investiguée dans ce contexte. De plus, une plate-forme d'annotation semi-supervisée ergonomique sera développée, avec comme contrainte de minimiser le nombre de demandes d'annotation. L'exploitation conjointe de modalités différentes conduit généralement à des performances supérieures en termes de pertinence des résultats des requêtes. Parmi les formats de données effectivement concernés figurent les vidéos, les PDF et documents texte éditables contenant des images. Dans ce cadre, un défi majeur concerne la prise en compte des éléments de langage textuel structuré, voire naturel, avec la possibilité de construire une description commune à une image et à de vraies phrases, pour exprimer la sémantique du contenu tout en prenant en compte les éléments de contexte. Soulignons enfin que la quantité des données croît actuellement de manière exponentielle. Cela nécessitera la mise en place d'un environnement de type Big Data, s'appuyant sur des bases de données de type NoSQL et technologies Cloud ainsi que sur les possibilités de parallélisation offertes par les dernières générations de processeurs graphiques pour permettre le stockage et le traitement efficace d'un tel volume de données et assurer le passage à l'échelle en conditions réelles.

  • Titre traduit

    Multimodal active learning for opperational interest object detection


  • Résumé

    With the explosion of information posted on social networks and news agencies, intelligence from open sources has known a spectacular development in recent years. Several operational departments in charge of monitoring manually classify several thousands of photos every day. However, the volume of multimedia content put on line on social networks is such that their exhaustive treatment is unthinkable. The recent progress achieved by the with deep neural network architectures suggests the possibility of automating these tasks and significantly increasing the volumes of data processed. This thesis tackles these issues and addresses the following challenges: • build on recent work in active and semi-supervised learning to enable analysts to adapt quickly to crises and needs; • consider work on transfer methods and one-shot learning approaches in order to be able to deal with poorly frequent elements, for which only a small amount of learning data is available; • rely on work on multimodal deep learning methods in order to put the elements of interest in the context in which they appear.