Vers une évaluation universelle du niveau de complexité des textes

par Marc Benzahra

Projet de thèse en Informatique

Sous la direction de François Yvon.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , TLP - Traitement du Langage Parlé (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 15-03-2019 .


  • Résumé

    La diffusion des terminaux de lecture de lecture numérique (liseuses, tablettes, téléphones mobiles) a le potentiel de renouveler l'expérience de lecture, en l'augmentant de nouvelles fonctionnalités (enrichissement du texte par des liens hypertextes, des dictionnaires, des images, de la musique ou des sons, etc), en en adaptant la présentation en fonction des lecteurs, ou en la rendant plus sociale et collaborative, via le partage de d'annotations, de citations, ou de recommandations de lecture. Ces terminaux ouvrent également un champ nouveau en matière d'apprentissage de la lecture, en particulier de par leur capacité à embarquer des surcouches textuelles qui peuvent aider, de manière adaptative et personnalisée, les apprentis lecteurs (ou des lecteurs pathologiques) à progresser dans leur compréhension des textes. Comme tout dispositif, la question de l'aide à lecture implique en préalable (ou en parallèle) une réflexion sur l'évaluation : évaluation pédagogique des dispositifs, évaluation des lecteurs, mais également celle de l'évaluation des contenus de lecture eux-mêmes : construire des dispositifs de recommandation automatique ou des parcours de lecture adaptés à des apprenants (en L1 comme en L2) demande de pouvoir évaluer les œuvres (ou, à un niveau plus fin, les chapitres ou les passages d'œuvres) sur une échelle de difficulté, qui permette de proposer des lectures qui soient bien en adéquation avec les capacités du lecteur. Si la question de la mesure de la lisibilité des textes est relativement ancienne, elle fait encore l'objet de nombreuses recherches, en particulier pour ce qui concerne la mesure automatique de la lisibilité, dont nous présentons un bref état de l'art ci-dessous. Faute de mesure automatique, les seuls éléments d'information dont disposent les maîtres et les lecteurs pour choisir leurs lectures sont des catégorisations grossières, souvent datées, qui ne rendent pas finement compte de la difficulté des textes. Disposer d'inventaires à très grande échelle associant œuvres (ou passages) à des niveaux de difficulté de lecture, est donc indispensable pour accompagner un lecteur novice dans ses apprentissages de la lecture. Ce projet rassemble une entreprise spécialisée dans les dispositifs de lecture électroniques sociaux (GLOSE) et des équipes de recherche spécialisées en traitement automatique des langues (au sein du LIMSI-CNRS), avec pour objectif de produire des outils de mesure automatique de la difficulté de la lecture dans un contexte pédagogique. Deux aspects innovants seront l'objets d'une attention particulière : d'une part la modélisation du caractère évolutif de la difficulté de lecture, d'autre part l'analyse de la difficulté dans un contexte multilingue, dans lequel il importe d'élaborer des techniques de mesure « universelles », pouvant potentiellement valoir pour un grand nombre de langues.

  • Titre traduit

    Towards a universal assessment of texts readability


  • Résumé

    The dissemination of digital reading terminals (readers, tablets, mobile phones) has the potential to transform the reading experience, augmenting it with new functionalities (enriching the text with hypertext links, dictionaries, images, music or sounds, etc.), adapting the presentation according to the readers, or making it more social and collaborative, by sharing annotations, quotations, or reading recommendations. These devices also open new perspectives for computer assisted learning, in particular through their ability to embed text overlays that can help, in an adaptive and personalized way, apprentice readers (or pathological readers) to progress in their understanding of texts. The study of reading aids implies a preliminary (or parallel) reflection on evaluation: pedagogical evaluation of the devices, evaluation of the readers, but also evaluation of the reading contents themselves: building automatic recommendation devices or reading pathways adapted to learners (in L1 as in L2) requires the ability to evaluate the works (or, at a finer level, the chapters or passages of works) on a scale of difficulty, which makes it possible to propose readings that are well suited to the abilities of the reader. Although the question of measuring the readability of texts is relatively old, it is still the subject of active research, in particular as regards the automatic measurement of readability, of which we present a brief state of the art below. In the absence of automatic measurement, the only information available to teachers and readers to choose their readings are rough categories which do not accurately reflect the difficulty of the texts. Having inventories on a very large scale, associating works (or passages) with levels of reading difficulty, is therefore essential to guide a novice reader. This project brings together a company specialized in social electronic reading devices (GLOSE) and research teams specialized in automatic language processing (within the LIMSI-CNRS), with the objective of developing automatic tools for measuring reading difficulty in an educational context. Special attention will be paid to two innovative aspects: on the one hand, modelling the evolutionary nature of reading difficulty and, on the other, analysing difficulty in a multilingual context, in which it is important to develop 'universal' measurement techniques that can potentially be applied to a large number of languages.