Vers un plus grand lien entre alignement, segmentation et structure des phrases

par Fabien Cromières

Thèse de doctorat en Informatique

Sous la direction de Christian Boitet et de Yves Lepage.

Soutenue en 2010

à l'Université de Grenoble .


  • Résumé

    Le travail présenté dans cette thèse se place dans le contexte de l'alignement sous-phrastique. Une des ses originalités du point de vue adopté est de ne pas considérer l'alignement de façon isolé, mais dans sa relation avec la segmentation et la structure des phrases. Dans une première partie, nous nous intéressons à la technique classique d'alignement par corrélation, à laquelle nous apportons quelques modestes contributions. Nous étudions ensuite comment cette technique simple peut aboutir à la construction d'alignement hiérarchiques mêlant des informations sur la structure des phrases et sur leur alignement. Nous discutons aussi de la possibilité d'utiliser ces alignements hiérarchiques pour la traduction automatique. Dans une deuxième partie, nous étudions les liens entre segmentation et alignement. Nous discutons des différents critères de segmentation et des avantages à effectuer simultanément segmentation et alignement. Nous proposons à cet effet plusieurs algorithmes de complexité croissante : d'abord en étendant le concept d'alignement par corrélation, et ensuite, en élaborant un modèle probabiliste d'alignement plus complexe, avec notamment un usage original de l'algorithme de propagation de croyance. Dans une troisième partie, nous nous intéressons aux relations entre structure monolingue des phrases et alignement. Nous essayons d'abord d'analyser dans quelle mesure la structure des phrases peut se refléter dans l'alignement, et quelle notion de structure est la plus pertinente pour cette question. Nous utilisons ensuite cette analyse pour développer des algorithmes d'alignement prenant en compte cette structure.


  • Résumé

    The context of the work presented in this thesis is unsupervised subsentential alignment. However, we do not consider only alignment, but also the relationships that can exist between alignment, segmentation and structure. In the first part, we study a classical alignment method, the correlation-based alignment, and provide some small contributions to it. We then show how this simple method can be used to create hierarchical alignments that encode information on both the alignment and the sentence structure. We also discuss possibilities to use such hierarchical alignments for machine translation purposes. In the second part, we study the relationships that exist between alignment and segmentation in a single step. Several algorithms are proposed to do this in practice. Firstly, we propose an extension of the correlation method. Second, we consider a more elaborate solution based on a probabilistic modeling and making an original use of the Loopy Belief Propagation algorithm. In the third part, we study the relationship between alignments and monolingual structures of sentences. We first try to analyse how the structures of sentence are reflected in their alignments. We then propose some alignment algorithms able to take into account the structures of the sentences.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (337 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 141 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS10/GRE1/0006/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS10/GRE1/0006
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.