Thèse de doctorat en Informatique et applications
Sous la direction de Jacques Vergne et de Emmanuel Guiguet.
Soutenue en 2011
à Caen .
Aujourdfhui les travaux exploitant des documents multilingues se tournent vers lfétude de textes comparables alors même que tous les aspects des documents parallèles nfont pas été étudiés ni tous les verrous liés aux méthodes dfalignement levés, notamment leur mise en forme et les cas dfinversions et de suppressions au niveau sur-phrastique. Ainsi, nous ne disposons pas à ce jour dfoutils permettant de valoriser cette mine dfinformations, dfen extraire aussi massivement qufenvisagé des ressources pourtant utiles tant aux traducteurs qufaux lexicologues. Nous présentons ici une méthode sans présupposé de parallélisme entre les différents volets dfun multidocument. Lfidée essentielle de ces travaux est la suivante : entre deux volets dfun multidocument, il existe des grains qui maximisent le parallélisme, nous les des multizones. Celles-ci peuvent recouvrir plusieurs réalités : documents, série de paragraphes, paragraphes, propositions. . . Ces multizones ne sont pas délimitables de çon ad hoc, il convient de le faire en contexte et de façon indépendante des langues. À ces fins, nous combinons plusieurs procédés originaux : étudier chaque multidocument au travers dfune collection de multidocuments, exploiter la mise en forme des documents par traitement direct du source ou encore traiter des chaînes de caractères répétées plutôt que des mots. Notre objectif est double : appariement et alignement, i. E. Création de ressources et analyse de documents. Cette méthode requiert peu de supervision, lfajout dfune nouvelle ou le changement de corpus dfentrée ne représentent pas un coût important.
Multilingual document alignment method without assumption of parallelism
Today the works using multilingual documents are turning to the study of comparable texts even though all aspects of parallel documents have not been studied nor alignment method locks raised, including their formatting and the cases of inversions and deletions at macro level. Thus, to date there is no tools to take benefit from this wealth of information, to extract resources as massively as envisaged, despite their usefulness both for translators and lexicologists. . . We present a method without assumption of parallelism between the different components of a multiple document. The basic idea of this work is: between two components of a multi-document, there are grains that maximize the parallelism, we call them multizones. They can cover several realities: document, series of paragraphs, paragraphs, proposals. . . Their boundaries can not be defined in an ad hoc way, it should be done in context and independently of languages. To this end, we combine several original processes: study each multiple document through a collection of multi-document, use the formatting of documents by direct processing of source or process repeated strings rather than words. The purpose of this work is twofold: matching and alignment, i. E. Resource creation and document analysis. This method requires little supervision. Add a new language or change corpus of entry do not represent a significant cost.
Cette thèse a donné lieu à une publication en 2014 par [CCSD] à Villeurbanne
Alignement de documents multilingues sans présupposé de parallélisme