TEF 2.0

TEF en XML

Table des matières

Quel langage pour TEF ?
La structure générale de TEF en XML
L'en-tête METS (mets:metsHdr)
L'arbre des entités TEF (mets:structMap)
L'inventaire des fichiers (mets:fileSec)
Les blocs de métadonnées
Les blocs de métadonnées descriptives
Les blocs de métadonnées de gestion
Les métadonnées descriptives de la thèse : tef_desc_these
Les métadonnées descriptives de version : tef_desc_version
Les métadonnées descriptives d'édition : tef_desc_edition
Les métadonnées descriptives de ressource externe : tef_desc_externe
Les métadonnées administratives de la thèse : tef_admin_these
Les données d'autorités dans TEF
Sets OAI. Classification des thèses par sujet
Les métadonnées de conservation de fichier : tef_tech_fichier
Les métadonnées de droits
Les métadonnées de droits émanant de l'établissement de soutenance : tef_droits_etablissement_these
Les métadonnées de droits émanant de l'auteur : tef_droits_auteur_these
Les métadonnées de droits émanant de l'ayant droit d'une ressource externe : tef_droits_externe
Les métadonnées de droits de version : tef_droits_version
Validation XML

Quel langage pour TEF ?

Comme indiqué au début du chapitre 2, TEF n'est pas seulement une syntaxe XML pour exprimer des métadonnées de thèse. TEF est avant tout un ensemble de métadonnées, un vocabulaire, indépendant de toute formalisation particulière. TEF peut se résumer à son modèle conceptuel, et non à telle ou telle de ses syntaxes. Pourtant, la recommandation TEF propose aussi une syntaxe précise pour encoder les métadonnées TEF. En effet, afin d'automatiser le traitement des métadonnées TEF, il faut associer un format informatique au vocabulaire TEF.

Etant donné la vocation des notices TEF à être diffusées, exploitées et échangées sur le Web, il était important de choisir un format standard et largement répandu parmi les applications et les protocoles Web. A ce titre, HTML, XML et RDF étaient tous trois des candidats légitimes pour le format TEF. C'est le format XML qui a été préféré.

HTML n'a pas été retenu en raison de la difficulté, voire de l'impossibilité, à exprimer avec la seule balise <meta> la richesse du vocabulaire TEF. De plus, cette solution, utile à la diffusion des métadonnées malgré sa faible exploitation par les moteurs d'indexation et de recherche du Web, n'était guère adaptée à l'échange des notices. Il aurait fallu compléter le format HTML par un autre format qui convienne mieux à l'échange.

En revanche, RDF est sans aucun doute une solution prometteuse pour la diffusion, l'exploitation et l'échange des métadonnées, notamment sous la syntaxe XML (RDF/XML). C'est précisément sa vocation. Dans le cas de TEF, il permettra à terme une exploitation multiple des notices TEF en l'état, sans les convertir dans un vocabulaire plus répandu comme le Dublin Core. Il faudra pour cela associer les notices TEF à un schéma RDF ou OWL qui précisera les relations sémantiques entre les éléments propres à l'espace de noms TEF et, par exemple, les éléments du Dublin Core ou les propriétés des FRBR. Par ailleurs, formaliser TEF en RDF permettrait de proposer un encodage très proche du modèle de TEF, puisque la logique de RDF est d'exprimer les métadonnées sous la forme de propriétés et de relations qui s'appliquent à des entités bien identifiées. Pourtant, si l'échange de métadonnées complètes et valides à l'échelle nationale est l'un des besoins premiers auxquels TEF doit répondre, alors RDF n'est sans doute pas la meilleure solution. La logique RDF est de décomposer l'information en une série de petits faits élémentaires (" ceci a pour titre cela", "ceci a pour créateur untel"...), en principe indépendants les uns des autres. Ce qui importe en RDF n'est pas qu'un ensemble de métadonnées soit complet, autosuffisant et conforme à un schéma prescriptif, mais au contraire qu'il puisse être complété, enrichi par un autre ensemble de métadonnées, accessible sur le Web. De plus, les outils permettant de créer, de valider et d'exploiter des métadonnées RDF n'ont pas encore atteint la maturité des outils XML. C'est pourquoi, si la formalisation RDF de TEF est souhaitable et prévue, elle n'est pas la plus urgente.

C'est bien la nécessité de disposer d'un format d'échange pour les métadonnées TEF qui justifie la priorité accordée aujourd'hui à XML[8] .

Les technologies de validation XML sont à la fois puissantes et mûres. Si l'on veut pouvoir échanger aisément des notices TEF en XML, il faut établir un format d'échange précis, qui spécifie la manière dont une notice TEF sera encodée en XML (nom, ordre, cardinalité des éléments XML et de leurs attributs). C'est la fonction d'un schéma XML. Si l'on veut garantir que les notices échangées sont conformes au vocabulaire TEF, on peut étendre le contrôle de validité jusqu'au contenu des éléments et des attributs (type de données autorisées, liste de valeurs permises). Sur la validation XML des notices TEF, cf. plus loin.

Le reste de ce chapitre présente le format XML de TEF. Après un aperçu général de la structure d'une notice XML TEF, chaque bloc d'informations est décrit dans ses caractéristiques principales. Le fonctionnement général des métadonnées de droits dans TEF est expliqué de manière approfondie. Dans la seconde partie de la recommandation est fournie la description détaillée de chacun des éléments XML de TEF.



[8] Au sens de "plain vanilla XML", que l'on pourrait traduire par "XML nature", pour l'opposer à d'autres formats qui rajoutent une couche de contraintes à XML. RDF/XML en est le meilleur exemple. Rappelons que XML n'est qu'une des syntaxes possibles de RDF, et sans doute pas la plus lisible.