Auto-apprentissage à grande échelle de concepts complexes pour l'analyse de documents multimedia.

par François Plesse

Projet de thèse en Informatique

Sous la direction de Françoise Prêteux et de Bertrand Delezoide.

Thèses en préparation à Paris Est , dans le cadre de MSTIC : Mathématiques et Sciences et Technologies de l'Information et de la Communication , en partenariat avec CERMICS - Centre d'Enseignement et de Recherche en Mathématiques et Calcul Scientifique (laboratoire) et de A3IS - Algorithme, Architecture, Analyse et Synthèse d'Image (equipe de recherche) depuis le 20-12-2016 .


  • Résumé

    La quantité de documents multimédia disponibles de manière ouverte sur les réseaux d'information (Internet, réseaux sociaux, ...) explose. Le traitement de ces données pour en obtenir de la connaissance exploitable est aujourd'hui au coeur des problématiques de l'intelligence artificielle. Une étape cruciale de ce processus est l'analyse des documents multimédia, non-structurés par essence, afin d'obtenir des descriptions structurées sous forme de métadonnées sémantiques. Le plus souvent les documents sont "projetés" vers des ontologies à l'aide d'algorithmes d'apprentissage qui nécessitent un ensemble d'exemples de représentation des concepts de l'ontologie. L'extraction de descriptions structurées de documents multimédias est d'abord passée par la détection d'objets, première étape vers la compréhension du contenu d'une image. Or les modèles de détection d'objets, basés sur des réseau de neurones profonds, ont connu d'importantes améliorations récentes. À présent, une nouvelle étape naturelle est de chercher à obtenir une compréhension accrue de l'image en modélisant les relations entre objets, très importantes pour la prise de décision, en surveillance vidéo, veille commerciale... Ces recherches s'inscrivent dans la continuité du projet FUI-CINECAST, où un système d'auto-apprentissage de visages d'acteurs a été réalisé et breveté. Elles s'insèrent, par ailleurs, au sein de plusieurs projets collaboratifs (e.g. projet Datascale/société Linkfluence, iMMENSE) et la thèse est soutenue scientifiquement par les Ponts ParisTech (directrice de thèse/Françoise Prêteux). Nous nous intéressons durant cette thèse à la détection et la classification de relations sous la forme (sujet, verbe, objet) à partir d'images. Les premières méthodes premières proposées ne sont pas capables d'apprendre les relations peu dotées en exemples d'apprentissage. Cette problématiques est fréquente dans un cadre industriel, et la collecte d'exemples annotés spécifiques au problème étant coûteuse, il n'est pas possible de se limiter au cas où le nombre d'exemples par objet et verbe est important. Dans un contexte où le nombre de prédictions par image est limité, nous avons constaté que pour obtenir des prédictions semblables aux annotations d'annotateurs humains, il est important de modéliser la probabilité d'annotation d'une relations : sa pertinence dans l'image. Par ailleurs, nous avons montré que l'utilisation de connaissances externes sous la forme de modèles de mots pré-appris sur de grand corpus de textes permet d'augmenter la stabilité de l'apprentissage et d'obtenir de meilleures performances sur les prédicats moins fréquents dans l'ensemble d'apprentissage. Ces contributions ont permis d'obtenir un gain relatif de 68% par rapport à l'état de l'art sur un dataset avec plus de 10 000 classes de verbes et 20 000 classes d'objets. Elles ont fait l'objet d'un article accepté à IEEE International Conference on Multimedia and Expo (ICME 2018). Un nouvel article a été soumis à la conférence Content Based Multimedia Indexing (CBMI 2018), faisant la proposition qu'il est nécessaire de changer de paradigme d'apprentissage car l'hypothèse implicite que les annotations disponibles sont complètes n'est pas vérifiée. Pour la suite de la thèse, nous proposons d'explorer plus en profondeur l'utilisation de connaissances externes, disponibles à faible coût sous la forme d'ontologies et de bases de connaissances directement intégrées dans un réseau de neurones. De nombreux travaux récents utilisent des réseaux s'appuyant sur des graphes, et cet objectif s'intègre dans cette ligne de travaux. Par ailleurs, nous prévoyons de proposer une méthode de génération de dataset complet de relations à partir de données non structurées sous la forme d'images annotées de légendes en langage naturel. Par ces contributions, nous souhaitons proposer des méthodes permettant de réduire la nécessité des exemples annotés manuellement, facilitant l'application du modèle dans un cadre industriel de gestion de documents multimédias, de veille commerciale ainsi que l'adaptation à de nouveaux domaines éloignés des données utilisées d'apprentissage.

  • Titre traduit

    Large-scale learning of complex concepts for the analysis of multimedia documents.


  • Résumé

    The amount of openly available multimedia documents on information networks (Internet, social media...) is skyrocketing. Thus the fields of bigdata and opendata have emerged, focusing on processing this data in order to extract usable knowledge from it. The analysis of multimedia documents, intrinsically unstructured, is a crucial step of the process to get structured data in the form of semantic metadata. Usually, documents are "projected" to ontologies by machine learning algorithms which require examples of the representation of the concepts of the ontology. As of now, we get these examples with manual annotation of document corpora, a lengthy and costly process in a BigData context. The purpose of this PhD is to automatically generate such example datasets from tagged documents available on the Internet. Hence, we will try and tackle to build a classification tool for multimedia documents from a reference ontology, consisting of learning examples and classification tools suitable for the specificity of the concepts of the ontology (complexity, representation medium, relationships between concepts, specific classification model...). This research is in direct line with the FUI-CINECAST project, where a machine learning system was devised and patented in order to classify faces of actors. Furthermore, it is also in continuity with several collaborative projects (e.g. the Datascale project with the company Linkfluence...)