L'évaluation de la méthode du crowdsourcing pour la transcription de manuscrits.

par Anne Vikhrova

Thèse de doctorat en Sciences du langage Spécialité Informatique et sciences du langage

Sous la direction de Thomas Lebarbé.

Le président du jury était Claire Doquet-Lacoste.

Le jury était composé de Michel Bernard.

Les rapporteurs étaient Emmanuelle de Champs, Marcello Vitali Rosati.


  • Résumé

    Les projets en humanités numériques utilisent de plus en plus des méthodes de collaboration axées sur le public, telles que le crowdsourcing pour atteindre les objectifs de recherche, de conservation et d’édition scientifique en sciences humaines et sociales. Par exemple, le crowdsourcing représente une opportunité pour accélérer les projets de transcription pour des communautés de chercheurs qui travaillent traditionnellement dans des circuits-fermés. Certaines questions importantes soulevée par les chercheurs et les érudits concernent notamment l’intérêt de la méthode, et en particulier la qualité des résultats obtenus avec cette méthode. En outre, l’efficacité du crowdsourcing pour les humanités numériques n’est pas documenté dans la littérature. Se pose ainsi la question de savoir si le public peut produire du matériel pouvant être par la suite utilisé pour des éditions scientifiques, auxquels cas, pour quel type de projet et combien de post-traitement ou corrections seront nécessaires.Cette thèse de doctorat examinera le potentiel apport du crowdsourcing des transcriptions pour les projets d’édition scientifique en humanités numériques. Pour cela, nous allons premièrement explorer les technologies et les techniques disponibles pour produire les transcriptions sous format XML en ligne. Deuxièmement, ayant développé et testé une plateforme internet de transcription que nous présenterons, nous pourrons examiner les besoins des utilisateurs vis-à-vis des environnements de travail collaboratifs fondées sur les retours des utilisateurs et les environments de crowdsourcing industriels existants. Troisièmement, les données récoltées seront soumises à une analyse numérique qui permettra de comparer les productions des experts et celle des non-experts en s’appuyant sur les mesures de distances entre documents. Les résultats obtenus permettront de déterminer le potentiel apport du crowdsourcing pour les projets d’édition numérique scientifique. Enfin, le travail se terminera avec une discussion sur les implications des travaux actuels et présentera des opportunités pour des recherches futures sur le terrain.

  • Titre traduit

    Evaluation of the crowdsourcing method for manuscript transcription.


  • Résumé

    Projects in digital humanities increasingly employ public-oriented collaboration methods such as crowdsourcing to achieve objectives that include research, conservation and scholarly editing in the humanities and social sciences. For example, crowdsourcing presents an opportunity to quicken the pace of progress for transcription projects for research communities that have traditionally operated within closed circuits. Some important questions raised by researchers and scholars concern the benefits of using this method and in particular the quality of results that can be obtained. Meanwhile, literature that evaluates the efficacy of crowdsourcing for digital humanities projects is insufficient. Questions as to whether the public can produce material that can be used for scholarly editions, in which cases, for which types of projects, and how much post-processing or corrections will be required, continue to occupy discussions on the matter.This doctoral thesis will examine the potential benefits of crowdsourced transcription for scholarly editing projects in the digital humanities. Firstly, by exploring the technologies and techniques available to render online transcription in XML possible. Secondly, by developing and testing an online transcription platform, which will allow to examine user needs for collaborative work environments based on user responses and existing industrial crowdsourcing environments. Thirdly, the data collected will be subjected to digital analysis to compare the productions of non-expert transcribers to those of expert transcribers on the basis of document distance measurements. The results will be interpreted to determine the potential benefits of crowdsourcing for digital scholarly editing projects. Finally, the work will conclude by discussing the implications of current work and presenting opportunities for future research in the field.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.