Alignement de documents multilingues sans présupposé de parallélisme

par Charlotte Lecluze

Thèse de doctorat en Informatique et applications

Sous la direction de Jacques Vergne et de Emmanuel Guiguet.

Soutenue en 2011

à Caen .


  • Résumé

    Aujourdfhui les travaux exploitant des documents multilingues se tournent vers lfétude de textes comparables alors même que tous les aspects des documents parallèles nfont pas été étudiés ni tous les verrous liés aux méthodes dfalignement levés, notamment leur mise en forme et les cas dfinversions et de suppressions au niveau sur-phrastique. Ainsi, nous ne disposons pas à ce jour dfoutils permettant de valoriser cette mine dfinformations, dfen extraire aussi massivement qufenvisagé des ressources pourtant utiles tant aux traducteurs qufaux lexicologues. Nous présentons ici une méthode sans présupposé de parallélisme entre les différents volets dfun multidocument. Lfidée essentielle de ces travaux est la suivante : entre deux volets dfun multidocument, il existe des grains qui maximisent le parallélisme, nous les des multizones. Celles-ci peuvent recouvrir plusieurs réalités : documents, série de paragraphes, paragraphes, propositions. . . Ces multizones ne sont pas délimitables de çon ad hoc, il convient de le faire en contexte et de façon indépendante des langues. À ces fins, nous combinons plusieurs procédés originaux : étudier chaque multidocument au travers dfune collection de multidocuments, exploiter la mise en forme des documents par traitement direct du source ou encore traiter des chaînes de caractères répétées plutôt que des mots. Notre objectif est double : appariement et alignement, i. E. Création de ressources et analyse de documents. Cette méthode requiert peu de supervision, lfajout dfune nouvelle ou le changement de corpus dfentrée ne représentent pas un coût important.

  • Titre traduit

    Multilingual document alignment method without assumption of parallelism


  • Résumé

    Today the works using multilingual documents are turning to the study of comparable texts even though all aspects of parallel documents have not been studied nor alignment method locks raised, including their formatting and the cases of inversions and deletions at macro level. Thus, to date there is no tools to take benefit from this wealth of information, to extract resources as massively as envisaged, despite their usefulness both for translators and lexicologists. . . We present a method without assumption of parallelism between the different components of a multiple document. The basic idea of this work is: between two components of a multi-document, there are grains that maximize the parallelism, we call them multizones. They can cover several realities: document, series of paragraphs, paragraphs, proposals. . . Their boundaries can not be defined in an ad hoc way, it should be done in context and independently of languages. To this end, we combine several original processes: study each multiple document through a collection of multi-document, use the formatting of documents by direct processing of source or process repeated strings rather than words. The purpose of this work is twofold: matching and alignment, i. E. Resource creation and document analysis. This method requires little supervision. Add a new language or change corpus of entry do not represent a significant cost.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (158 p.)
  • Annexes : Bibliogr. p. 137-148. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque universitaire Sciences - STAPS.
  • Non disponible pour le PEB
  • Cote : TCAS-2011-58
  • Bibliothèque : Université de Caen Normandie. Bibliothèque universitaire Sciences - STAPS.
  • Disponible pour le PEB
  • Cote : TCAS-2011-58bis
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.