Nouveau modèle de documents pour une bibliothèque numérique de thèses accessibles par leur contenu sémantique

par María del Rocío Abascal Mena

Thèse de doctorat en Informatique

Sous la direction de Jean-Marie Pinon.

Soutenue en 2005

à Villeurbanne, INSA .


  • Résumé

    La diversité des initiatives existantes en faveur de la diffusion des thèses sur Internet témoigne de l'intérêt pour ce besoin au sein des milieux universitaires. Les projets de bibliothèques numériques actuels offrent à l'utilisateur l'accès aux thèses à partir d'une recherche en utilisant le titre de la thèse, les noms de l'auteur, le nom du directeur de la thèse, et la date de soutenance. Ce type de recherche ne permet pas d'extraire les parties pertinentes de la thèse et ne renvoie que la thèse intégrale. Ainsi l'utilisateur doit lire des chapitres entiers pour connaître les parties qui correspondent à son besoin. Le projet CITHER de l'INSA de Lyon (Consultation en texte Intégral des THèses En Réseau) dans lequel s'inscrit cette étude, porte sur la mise en ligne des thèses. CITHER, dans une première phase, a mis en place une diffusion des thèses, via un serveur, sous forme de texte intégral, en format PDF (Portable Document Format). De ce fait, lors d'une recherche il est possible d'accéder au contenu d'une seule thèse à la fois, par le biais de chaque chapitre. Pourtant il existe le besoin d'effectuer une recherche d'information de manière plus précise, plus sélective et d'offrir à l'utilisateur l'information la plus pertinente. L'objet du travail de recherche vise à améliorer la diffusion des thèses. Pour cela, nous proposons de permettre l'accès à son contenu de façon précise grâce à l'utilisation de " tags sémantiques " rajoutés, par le doctorant, au sein de la thèse lors de sa rédaction. L'exploitation de ces tags permet d'affiner la recherche et ainsi mieux satisfaire l'utilisateur. Notre travail porte sur la définition d'un nouveau modèle de document en nous appuyant sur l'étude des différentes structures de la thèse (structure logique et structure sémantique). Notre approche est fondée sur la modélisation sémantique des thèses de l'INSA de Lyon. Nous avons aussi, été amenés à mettre en place des fonctionnalités d'aide à la recherche et à l'accès aux contenus documentaires, adaptées à notre cas d'étude, c'est à dire les thèses scientifiques. Enfin, nous avons mis en place des procédures d'évaluations expérimentales qualitatives et quantitatives, permettant une analyse de performance des résultats des recherches itératives de notre prototype et de les comparer avec le système actuel de CITHER. Cette recherche représente un apport intéressant pour la recherche d'information pertinente dans les thèses, en fournissant au doctorant les moyens de construire facilement sa thèse de manière adaptée. Nos résultats ont permis de valider l'importance de définir la structure sémantique lors de la création de documents afin de mieux exploiter l'information contenue.

  • Titre traduit

    New model of documents for a digital library of theses accessible by their semantic contents


  • Résumé

    The variety of existing initiatives in favor of the diffusion of the theses on Internet shows the interest of this need within the academic world. The current projects of digital libraries offer the user an access to the digital theses by searching within the title of the thesis, the name of the author, the name of the tutor, and the date of the defense of the thesis. On the other hand, this type of research does not make possible to extract the relevant parts of the thesis and it only returns the integral thesis. Thus, the user must have to read the whole chapters to know which parts of the thesis correspond to his needs. The project named CITHER of the INSA of Lyon (Consultation en texte Intégral des THèses En Réseau), in which is registered this study, relates to the setting of the theses online. CITHER, in a first phase, has set up a diffusion of the theses, via a server, in the form of complete text, in PDF (Portable Document Format). So, by making a research is possible to reach the contents of only one thesis at the same time, by the means of each chapter. This way, there is the need to carry out a research for information in a more precise and more selective way in order to offer to the user the most relevant information exists. The objective of our research is to improve the diffusion of the theses. For that, we propose to give access to its contents in a precise way thanks to the use of « semantic markups » added into the thesis, by the PhD student, during the writing step. The exploitation of these markups makes possible to refine the contents of research to better satisfy the user. Our work concerns the definition of a new model of document by studying the different structures of the thesis (logic structure and semantic structure). Our approach is based on the semantic modeling of the theses of the INSA of Lyon. In the same way, we had set up functionalities to ameliorate the research and the access to the documentary contents, adapted to our case of study, i. E. The scientific theses. Finally, we had set up qualitative and quantitative procedures of experimental evaluations, allowing an analysis of the performance of the results of iterative research of our prototype in order to compare them with the current system of CITHER. This research represents an important contribution for the search for relevant information in the theses, by providing to the PhD student a tool to easily organize his thesis in an adapted way. Our results have made possible to validate the importance to define the semantic structure at the time of the creation of documents in order to better access the information contained.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (255 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 214-228. Réf. bibliogr. Index

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(3060)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.