Construction des documents multistructurés dans le contexte des Humanités Numériques

par Pierre-Edouard Portier

Thèse de doctorat en Informatique

Sous la direction de Sylvie Calabretto.

Soutenue en 2010

à Lyon, INSA .


  • Résumé

    Nous posons que tes documents sont les produits d’interactions qui se jouent au sein d'un système qui comprend plateformes informatiques et opérateurs humains. Un contexte applicatif particulier nous permet de valider nos hypothèses. Il s'agit de l'analyse critique et de la mise en valeur, par une équipe de chercheurs de l'ENS Lyon, du fonds d'archives des manuscrits du philosophe Jean-Toussaint Desanti. Nous montrons que tout document possède une structure générique de graphe, c'est un ensemble d'éléments interconnectés : des pages manuscrites numérisées, du texte transcrit et annoté, des zones d'images, etc. Une opération courante consiste à découper ce graphe et sous graphes aux propriétés intéressantes (arborescence, acyclisme, arêtes décorées avec une même catégorie sémantique etc. ). C'est au sens de cette opération que nous pouvons dire d'un document qu’il est multi-structuré. Dans ce contexte, nous étudions les processus d'annotation qui sont à J'origine de la création de ces différentes structures. Une analyse critique de la manière dont Je formalisme XML comprend ces deux faces de J'annotation (fragmentation et greffe d'information) nous procure les éléments nécessaires à la construction de notre système (qui repose par ailleurs sur le langage RDF). Ainsi, nous facilitons l'association de sens aux moments de la construction d'un document où apparaît localement une structure de graphe. Finalement, nous proposons une présentation en contexte des opérations sur les termes d'annotation afin de rendre explicite Je contexte sémantique de la greffe d'information et de permettre la construction et la documentation dynamiques de vocabulaires de termes d'annotation.

  • Titre traduit

    = Construction of multi-structured documents in the context of Digital Humanities


  • Résumé

    Documents appear from human-computer interactions. Thus, the following hypotheses have been validated by experiments with a team of researchers from ENS-Lyon. They work on the manuscripts of the philosopher Jean-Toussaint Desanti. We say that documents have a graph structure. They are sets of connected elements: manuscripts’ pages transcribed and annotated text, polygonal fragments of images, etc. Often, this graph will be partitioned in subgraphs with interesting properties (trees, acyclic graphs, edges with a similar semantic label, etc. ). That is why we can say that a document is multi-structured. We study the annotation processes from which multiple structures are created. A critical analysis of how the XML formalism manages annotations gives us the foundations of our system based on the RDF formalism. We help the users building multi-structured documents by associating meaning to the discrete events of overlapping of annotations' terms. Finally, we generate visualizations of the context of the operations that manipulate terms of annotation (creation, deletion, etc. ). Thus, we allow the dynamic construction and documentation of vocabularies.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (150 p.)
  • Annexes : Bibliogr. p. 144-150

Où se trouve cette thèse ?

  • Bibliothèque :
  • Disponible pour le PEB
  • Cote : C.83(3666)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.