Auto-apprentissage à grande échelle de concepts complexes pour l'analyse de documents multimedia.

par François Plesse

Projet de thèse en Informatique

Sous la direction de Françoise Prêteux et de Bertrand Delezoide.

Thèses en préparation à Paris Est , dans le cadre de MSTIC : Mathématiques et Sciences et Technologies de l'Information et de la Communication , en partenariat avec CERMICS - Centre d'Enseignement et de Recherche en Mathématiques et Calcul Scientifique (laboratoire) et de A3IS - Algorithme, Architecture, Analyse et Synthèse d'Image (equipe de recherche) depuis le 20-12-2016 .


  • Résumé

    La quantité de documents multimedia disponibles de manière ouverte sur les réseaux d'information (Internet, réseaux sociaux, ...) explose. Le traitement de ces données pour en obtenir de la connaissance exploitable est aujourd'hui au coeur des problématiques du bigdata et de l'opendata. Une étape cruciale de ce processus est l'analyse des documents multimedia, non-structurés par essence, afin d'obtenir des descriptions structurées sous forme de métadonnées sémantiques. Le plus souvent les documents sont "projetés" vers des ontologies à l'aide d'algorithmes d'apprentissage qui nécessitent un ensemble d'exemples de représentation des concepts de l'ontologie. Ces exemples sont aujourd'hui obtenus par annotation manuelle de corpus de documents. Ce qui est long et couteux dans un cadre BigData. L'objectif de cette thèse est de savoir générer automatiquement ce type de bases d'exemples à partir de documents taggés disponibles sur internet. La thèse devra donc, à partir d'une ontologie de référence (e.g. LSCOM), construire un outil de classification de documents multimedia comprenant exemples d'apprentissage et outils de classification adaptés à la spécificité de chacun des concepts de l'ontologie (complexité, media de représentation, liens entre concepts, modèle de classification spécifique, ...). Ces recherches s'inscrivent dans la continuité du projet FUI-CINECAST, où un système d'auto-apprentissage de visages d'acteurs a été réalisé et breveté. Elles s'insère, par ailleurs, au sein de plusieurs projets collaboratifs(e.g. projet Datatscale/société Linkfluence, iMMENSE/XXX). Par ailleurs, la thèse est soutenue scientifiquement par les Ponts ParisTech (directeur de thèse/Françoise Prêteux) et Carnegie Mellon University (Alexandre Hauptmann) avec lesquels nous prévoyons un échange.

  • Titre traduit

    Large-scale learning of complex concepts for the analysis of multimedia documents.


  • Résumé

    The amount of openly available multimedia documents on information networks (Internet, social media...) is skyrocketing. Thus the fields of bigdata and opendata have emerged, focusing on processing this data in order to extract usable knowledge from it. The analysis of multimedia documents, intrinsically unstructured, is a crucial step of the process to get structured data in the form of semantic metadata. Usually, documents are "projected" to ontologies by machine learning algorithms which require examples of the representation of the concepts of the ontology. As of now, we get these examples with manual annotation of document corpora, a lengthy and costly process in a BigData context. The purpose of this PhD is to automatically generate such example datasets from tagged documents available on the Internet. Hence, we will try and tackle to build a classification tool for multimedia documents from a reference ontology, consisting of learning examples and classification tools suitable for the specificity of the concepts of the ontology (complexity, representation medium, relationships between concepts, specific classification model...). This research is in direct line with the FUI-CINECAST project, where a machine learning system was devised and patented in order to classify faces of actors. Furthermore, it is also in continuity with several collaborative projects (e.g. the Datascale project with the company Linkfluence...)