Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue

par Mathieu Mangeot

Thèse de doctorat en Informatique

Sous la direction de Christian Boitet et de Gilles Sérasset.

Le président du jury était Laurent Trilling.

Le jury était composé de Frédéric Andrès, Jean-Pierre Chanod, Alain Polguère.

Les rapporteurs étaient Jacques Chauché, Laurent Romary.


  • Résumé

    Les besoins croissants en ressources lexicales et le succès des projets de développement coopératif comme LINUX convergent vers l'idée d'accumuler des données lexicales multilingues de grande taille et de grande richesse par construction coopérative sur la Toile et utilisation "mutualisée". Les contributeurs fourniraient eux-mêmes ces informations sous une forme standardisée grâce à un environnement adapté. L'étude du contexte actuel de la dictionnairique nous a conduit à l'identification de problèmes difficiles tels que la structuration et la manipulation de données hétérogènes, la visualisation d'une grande quantité de données lexicales multilingues et la construction en coopération par des personnes aux compétences diverses. Des prototypages et des expérimentations portant sur la consultation de ressources hétérogènes, l'enrichissement et personnalisation du résultat, la construction de ressources en ligne et la rédaction d'articles avec un éditeur standard nous ont permis de résoudre séparément ces problèmes. Cela nous a permis de concevoir un environnement complet de "bases lexicales" répondant à tous ces problèmes se plaçant au dessus des SGBD utilisés pour le stockage et intégrant un serveur pour la construction coopérative. Son noyau inclut un formalisme générique de définition de structures lexicales inspiré de SUBLIM de G. Sérasset, mais complété et réexprimé en XML. Cet environnement est actuellement appliqué au projet Papillon de développement par des bénévoles sur Internet d'une base lexicale comprenant cinq langues. L'architecture de la base est constituée d'un dictionnaire monolingue pour chaque langue et d'un dictionnaire pivot d'acceptions interlingues reliant les articles monolingues (lexies) dont la structure provient de la lexicologie combinatoire. Enfin, l'architecture du serveur assez générique devrait être réutilisée dans d'autres contextes (mémoires de traduction, outils pour traducteurs, communication et RI multilingue, annotations multimédia)

  • Titre traduit

    Centralised and distributed environments for lexicographers & lexicologists in multilingual context


  • Résumé

    The growing needs in lexical resources and the success of the cooperative development projects such as LINUX lead to the idea of accumulating large amounts of very rich multilingual lexical data by cooperative construction on the Web and "mutualized" use. Contributions to data improvement would be standardized and made available thanks to an adapted environment. While studying of the current context of the dictionaries domain, we were led to identifying difficult problems such as heterogeneous data structuring and manipulation, as well as large amount of multilingual lexical data and visualization or construction in cooperation by people with different skills. Prototypes and experiments on consultation of heterogeneous resources, enrichment and personalization of the result, on-line resource building, and entries writing with a standard editor enabled us to solve these problems separately. It allowed us to design a complete lexical databases environment addressing all these problems as a specific layer directly above the DBMS tools that integrates a server for cooperative building. Its kernel includes a generic formalism for the definition of lexical structures derived from SUBLIM of G. Sérasset, but extended and translated in XML. This environment is currently applied to the Papillon project which aims at building/developing of a five-language lexical database by voluntary contributors on the Internet. The architecture of the database is made up of a monolingual dictionary for each language and a pivot dictionary of interlingual acceptions (axies) linking the monolingual entries (lexies) which structure comes from the domain of explanatory and combinatory lexicology. Extra languages are planned to be added soon. The architecture of the server is quite generic and could be reused rapidly in other contexts (translation memories and tools for translators, communication and multilingual IR, multimedia annotations)

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-279 p.)
  • Annexes : Bibliographie p. 217-230

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : MF-2001-MAN
  • Bibliothèque : Ecole Polytechnique de l’Université de Tours. Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-653
  • Bibliothèque : Analyse et traitement informatique de la langue française. UMR C7118. Bibliothèque.
  • Disponible pour le PEB
  • Cote : CIa MAN
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.