Énumération exhaustive et détection spécifique des analogies : étude pour les modèles de langue et la traduction automatique

par Julien Gosme

Thèse de doctorat en Informatique et applications

Sous la direction de Yves Lepage et de Jacques Vergne.

Soutenue en 2012

à Caen .


  • Résumé

     Ce travail de thèse s’inscrit dans le cadre de la traduction automatique. En étudiant les fondements de la traduction automatique par l’exemple, et plus particulièrement le système Aleph, nous mettons en évidence le problème de la sélection des exemples. Le système Aleph emploie exclusivement l’analogie afin de produire de nouvelles phrases et de nouvelles traductions. Le problème est de sélectionner les phrases dans un grand corpus d’exemples afin de produire de nouvelles phrases par analogie. Notre premier apport consiste en l’élaboration d’une méthode permettant d’énumérer l’intégralité des analogies entre chaînes d’un texte. Cette méthode nous permet ensuite de mettre en œuvre une étude statistique des analogies les plus fréquentes entre trigrammes de mots et de mettre en évidence les patrons d’analogie les plus fréquents. Ces résultats permettent alors de concevoir une nouvelle méthode de lissage d’un modèle de langue trigramme basé sur un petit nombre d’analogies. Nos expériences montrent que cette méthode est très compétitive vis-à-vis des méthodes classiques.

  • Titre traduit

    Complete enumeration and specific detection of proportional analogies : studies for languagemodels and machine translationse


  • Résumé

    The research presented in this PhD thesis is in the machine translation field. By studying the foundations of example-based machine translation, especially in the Aleph system, we bring to light the problem of example selection. The Aleph system uses exclusively the operation of analogy to produce new sentences and new translations. The problem is to select the adequate sentences from a large corpus of examples to allow for the production of new sentences by analogy. Our first contribution consists in the design of a method for the complete enumeration of all analogies contained in a text. This method allows us to complete a statistical study of the most frequent analogies between word trigrams and to bring to light the most frequent patterns of analogy. These results allow us to design a new smoothing technique for trigram language models based on a small amount of patterns of analogy. We report experiments which show that this new smoothing technique outperforms classical methods.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (114 p.)
  • Annexes : Bibliogr. p. 109-114. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque universitaire Sciences - STAPS.
  • Non disponible pour le PEB
  • Cote : TCAS-2012-6
  • Bibliothèque : Université de Caen Normandie. Bibliothèque universitaire Sciences - STAPS.
  • Disponible pour le PEB
  • Cote : TCAS-2012-6bis
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-796
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.