Modélisation de texte numérique multilingue : vers un modèle général et extensible fondé sur le concept de textème

par Gábor Bella

Thèse de doctorat en Informatique

Sous la direction de Ioannis Kanellos.

Soutenue en 2008

à Télécom Bretagne .


  • Résumé

    Cette thèse s'intéresse aux modèles de texte numériques, plus précisément à la définition même des éléments textuels atomiques et à la manière dont le texte se compose à partir de ceux-ci. En réponse aux besoins d'internationalisation des systèmes informatiques, les modèles de texte historiques, basés sur l'idée de la table de codage, ont été enrichis par des connaissances semi-formelles liées aux systèmes d'écriture, connaissances qui sont désormais essentielles pour l'exécution de la moindre opération textuelle. Ainsi sont nés le codage de caractères Unicode et les formats de fonte dits " intelligents ". Par la réalisation que cet enrichissement ne représente que le début d'une convergence vers des modèles fondés sur des principes de la représentation des connaissances, nous proposons une approche alternative à la modélisation de texte, selon laquelle l'élément textuel se définit non comme une entrée d'une table mais par les propriétés qui le décrivent. Le formalisme que nous établissons - initialement développé dans le cadre de la représentation des connaissances - nous fournit une méthodologie pour définir, pour la première fois de manière précise, des notions telles que caractère, glyphe ou usage, mais aussi de concevoir l'élément textuel généralisé que nous appelons textème et qui devient l'atome d'une famille de nouveaux modèles de texte. L'étude de ces modèles nous amène ensuite à comprendre et à formaliser, du moins en partie, des phénomènes tels que la contextualité ou la dépendance entre éléments textuels, phénomènes qui sont également présents, même si parfois de manière cachée, dans les modèles actuels. Dans la thèse nous analysons également les enjeux liés à l'implémentation des modèles proposés.

  • Titre traduit

    Modeling of multilingual electronic text : towards general and extensible models based on the concept of texteme


  • Résumé

    This thesis is concerned with the modelling of electronic text. This modelling involves the definition both of the atomic text elements and of the way these elements join together to form textual structures. In response to the growing need for internationalisation of information systems, historical models of text, based on the concept of code tables, have been extended by semi-formalised knowledge related to the writing system so that, by now, such knowledge is essential to text processing of even the simplest kind. Thus were born the Unicode character encoding and the so-called 'intelligent' font formats. Realising that this phenomenon marks only the beginning of a convergence towards models based on the principles of knowledge representation, we here propose an alternative approach to text modelling that defines a text element not as a table entry but through the properties that describe the element. The formal framework that we establish, initially developed for the purposes of knowledge representation, provides us with a method by which precise formal definitions can be given to much-used but ill-defined notions such as character, glyph, or usage. The same framework allows us to define a generalised text element that we call a texteme, the atomic element on which a whole family of new text models is based. The study of these models then leads us to the understanding

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (231 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 225-230

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes. Service commun de la documentation. BU Beaulieu.
  • Disponible pour le PEB
  • Cote : TA RENNES 2008/157
  • Bibliothèque : IMT Atlantique campus de Brest. Bibliothèque d'études.
  • Disponible pour le PEB
  • Cote : 2.531 BELL
  • Bibliothèque : IMT Atlantique campus de Rennes. Documentation.
  • Disponible pour le PEB
  • Cote : 2.531 BELL
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.