Validation de données complexes massives par des algorithmes de crowdsourcing actifs et collaboratifs

par Titouan Lorieul

Projet de thèse en Informatique

Sous la direction de Alexis Joly.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec LIRMM - Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier (laboratoire) et de Département Informatique (equipe de recherche) depuis le 01-10-2016 .


  • Résumé

    Avec l'explosion des approches participatives et des sciences citoyennes, le problème de la qualité et de la validation des données devient un enjeu crucial. L'étiquetage en masse d'objets complexes tels que des photographies de plantes, d'animaux ou encore de monuments est en particulier un problème délicat. Les travaux de recherche actuels sur les méthodes et les algorithmes de crowdsourcing supposent en effet que les tâches de classification sous jacentes sont faciles à résoudre, n'impliquant que quelques classes d'objets et se basant sur des modèles simples du comportement des annotateurs. En réalité, les annotateurs ont des compétences, des intérêts, des motivations variées ainsi que de riches capacités d'apprentissage et de collaboration, en particulier dans le contexte des réseaux sociaux. L'objectif de cette thèse sera d'étudier de nouvelles approches de crowdsourcing qui mettent un accent particulier sur les participants, notamment par des algorithmes d'entrainement actif et de recommandation permettant d'étendre progressivement l'expertise et le champ d'intérêt des contributeurs. Dans ce contexte, les algorithmes classiques basés sur l'inférence bayésienne des étiquettes les plus probables, à partir de la matrice de confusion de chaque annotateur sont inefficaces. Le problème est que le nombre très élevé de classes, rend impossible l'estimation d'une matrice de confusion complète pour chaque participant, car il les obligerait à répondre à des millions de problèmes. En outre, l'approche naïve consistant en un questionnaire sur la liste complète des classes n'est pas envisageable pour la grande majorité des annotateurs qui ne sont compétents que sur une fraction des objets d'intérêt. Pour combler cette lacune, il est nécessaire de concevoir de nouveaux modèles et des algorithmes tenant compte de la nécessité de former activement et collaborativement les annotateurs, afin qu'ils puissent ensemble résoudre des tâches complexes de classification via des sous-problèmes simples et personnalisés. Il s'agira pour débuter de concevoir et d'expérimenter des modèles et algorithmes permettant de (i) réduire automatiquement l'espace d'hypothèses grâce à des outils d'apprentissage automatique, (ii) spécialiser activement les annotateurs et améliorer leur compétences grâce à des modèles probabilistes et des algorithmes de recommandation et d'assignation.

  • Titre traduit

    Validation of large-scale complex data through active and socialized crowdsourcing


  • Résumé

    Citizen science has the potential to leverage the interest and talent of non-specialists to improve science. In a typical citizen science/crowdsourcing environment, the contributors label items. When there are few labels (e.g. how oval is the shape of a galaxy), it is straightforward to train contributors by giving a few examples with known answers. Current research in crowdsourcing usually focus on such micro-tasking, designing algorithms for solving optimization problems from the job requester's perspective and with simple models of worker behavior. However, the participants are people with varying expertise, skills, interests, incentives as well as rich capabilities of learning and collaborating, in particular in the context of social networks. The goal of this PhD will be to study more nuanced crowdsourcing approaches that place special emphasis on the participants, in particular through assignment and recommendation algorithms allowing to progressively expand the expertise and fields of interest of the users. In particular, we will study domain-specific applications that involve complex classification tasks with large number of classes and expert annotations (for instance plant species recognition). Classical crowdsourcing algorithms based on the Bayesian inference of the most probable labels according to the confusion matrix of each worker are particularly inefficient in such contexts. The problem is that the very high number of classes makes it impossible to train a complete confusion matrix for each participant, as it would require them to answer to millions of problems. Furthermore, the brute-force approach consisting in a quiz across the full list of classes is not tractable for most of the contributors who are competent only on a fraction of the objects of interest. To bridge this gap, it is necessary to design new models and algorithms taking into account the need to actively and collaboratively train the users, so that they can jointly solve complex classification tasks through simple and personalized sub-problems. We will in particular start focusing on (i) automatically reducing the hypothesis space thanks to machine learning tools, (ii) actively specializing the participants on complementary subparts of the problem thanks to probabilistic models and recommendation algorithms.