Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement sous-phrastique

par Christophe Chenon

Thèse de doctorat en Informatique

Sous la direction de Christian Boitet.

Soutenue en 2005

à l'Université Joseph Fourier (Grenoble) .


  • Résumé

    La traduction assistée par ordinateur a connu un grand essor dans les années 1990 avec l'arrivée des environnements à mémoires de traduction. Ces systèmes exploitent la redondance des textes techniques produits et traduits dans l'industrie, en proposant aux traducteurs de réutiliser des traductions archivées et d'accroître ainsi leur productivité. Ces mémoires utilisent, sans analyse, des segments de textes (le plus souvent des phrases entières) dont le découpage et l'alignement sont garantis par le traducteur. Pourtant ces mémoires recèlent des gisements d'information importants au niveau sous-phrastique dont les utilisateurs ne peuvent pas bénéficier. Le formalisme TransTree permet de représenter des correspondances sous-segmentales enchassées bilingues. Ces correspondances complexes (les amphigrammes) forment une structure arborescente exprimable en XML. Une transformation de surface conduit à une visualisation dynamique mettant en évidence les différents niveaux de correspondance entre sous-segments. TransTree s'accompagne d'une méthode générale de construction par voie statistique, fondée sur les arbres binaires de sécabilité. Cette méthode permet d'établir des amphigrammes à partir des correspondances entre mots typographiques. Il est possible d'abstraire des patrons de traduction (amphigrammes génériques) par classification des exemples rencontrés dans le corpus. Quelques expérimentations ont été effectuées pour valider le pouvoir d'expression du formalisme, explorer différentes options de construction et esquisser un algorithme de reconstitution d'un segment cible à partir d'un segment source inconnu avec la connaissance extraite des mémoires de traduction.


  • Pas de résumé disponible.

  • Titre traduit

    Toward an improved usability of translation memories, based on sub-phrasal alignments


  • Résumé

    Computer aided translation has known a boost in the years 1990s with the introduction of translation memory-based environments. These systems take advantage of the repetitiveness of technical materials that are produced and translated in the industry, by allowing translators to reuse archive translation thus improving their productivity. Translation memories use text segments (typically whole sentences) delineated and aligned thanks to the translators expertise, and do not perform any advanced analysis. However, these memories contain very rich information at sub-sentential levels but translators cannot benefit from it. The TransTree formalism captures nested correspondences between sub-segments of bilingual or multilingual texts. These complex correspondences, called amphigrams, make up a tree structure that is easily expressed in XML. With a simple shallow transformation, a dynamical visualization can be obtained that demonstrates several levels of correspondences between sub-segments. TransTree comes with a general, statistical method to compute this information, based on binary secability trees. This method analyses any bisegment and programmatically produces a TransTree representation from correspondences between typographical words in bisegments. Moreover, it is possible to abstract translation patterns, called generic amphigrams, by clustering techniques over examples found in the corpus. A few experiments were conducted to validate the expressive power of the formalism, investigate several implementation options and introduce an algorithm to reassemble a target string from a previously unseen source segment with knowledge extracted from translation memories.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (228 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 165-169

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS05/GRE1/0147
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS05/GRE1/0147/D
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.