Apprentissage par Renforcement Interactif

par Guillaume Doquet

Projet de thèse en Informatique

Sous la direction de Michèle Sebag.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec LRI - Laboratoire de Recherche en Informatique (laboratoire) , A&O - Apprentissage et Optimisation (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2015 .


  • Résumé

    Une phase essentielle en fouille des données concerne la préparation des données, et le dilemme est le suivant: 1. La préparation des données est essentielle; elle conditionne le succès de la fouille 2. Il s'agit d'une tache qui demande 90% de l'effort humain d'une application. 3. Il s'agit d'une tache qui n'est pas gratifiante ; le temps qu'on y passe qu'on y met vaut une ou deux lignes dans un article scientifique. Le sujet de these consiste à définir la préparation des données comme un probleme d'apprentissage par renforcement avec l'Humain dans la Boucle: L'espace de recherche est la séquence des choix de préparation des données (DPS) Les résultats partiels obtenus sont soumis à l'humain, qui emet un jugement de préférence par cmparaison au meilleur résultat antérieur La fonction d'interet de l'humain est modélisée à partir de ces préférences. Notons que ce schema est naturellement compatible avec un processus de fouille stochastique, fondée sur le sous-échantillonnage agressif des données.

  • Titre traduit

    Reinforcement Learning and the Human in the Loop


  • Résumé

    The PhD topic will tackle a key bottleneck of Data Mining, illustrating how the Human in the Loop setting can help revisiting algorithmic chores. An essential preliminary phase in Data Mining is concerned with data preparation (non exhaustive list: cleaning, fusing, selecting, sampling the data). The dilemma is the following: Firstly, data preparation is essential to the success of the data mining process; nothing can be discovered unless the data preparation phase has been taken seriously, cautiously, and the data scientist has exploited every available element of domain knowledge. Secondly, data preparation is a hugely time-consuming task, acknowledged to require over 90% of the human effort involved in a data mining process. Thirdly and lastly, data preparation is a tedious, humble, and not rewarding task. The considerable ingenuity spent in smart pre-processing is worth a few lines in a research paper; data preparation is usually disgarded due to lack of generality and novelty. The PhD task will tackle Data Preparation as a Reinforcement Learning problem with the Human in the Loop: The search space is the sequence of data preparation options (DPS). The partial results associated to this DPS will be submitted to the Human in the Loop and assessed comparatively to the previous results. The human intent will be modelled based on the HiL preferences, leading to gradually optimize the DPS. Note that this scheme is naturally compatible with the time-exhaustiveness trade-off, as the computation time required to deliver a result is integrated in the (subjective) preference judgment.