Extraction de lexiques bilingues à partir de corpus comparables

par Amir Hazem

Thèse de doctorat en Informatique, Traitement automatique du langage naturel

Sous la direction de Emmanuel Morin.

Soutenue en 2013

à Nantes , en partenariat avec Université de Nantes. Faculté des sciences et des techniques (autre partenaire) .


  • Résumé

    La plupart des travaux en acquisition de lexiques bilingues à partir de corpus comparables reposent sur l'hypothèse distributionnelle qui a été étendue au scénario bilingue. Deux mots ont de fortes chances d'être en relation de traduction s'ils apparaissent dans les mêmes contextes lexicaux. Ce postulat suppose donc une définition claire et rigoureuse du contexte et une connaissance parfaite des indices contextuels. Or, la complexité et les spécificités de chaque langue font qu'il n'est pas aisé d'énoncer une telle définition qui garantisse une extraction de couples de traductions, efficace dans tous les cas de figure. Toute la dffculté réside dans la manière de définir, d'extraire et de comparer ces contextes dans le but de construire des lexiques bilingues fiables. Nous nous efforcerons tout au long des différents chapitres de cette thèse à essayer de mieux comprendre cette notion de contexte, pour ensuite l'étendre et l'adapter afin d'améliorer la qualité des lexiques bilingues. Une première partie des contributions vise à améliorer l'approche directe qui fait office de référence dans la communauté. Nous proposerons plusieurs manières d'aborder le contexte des mots pour mieux les caractériser. Dans la deuxième partie des contributions, nous commencerons par présenter une approche qui vise à améliorer l'approche par similarité inter-langue. Ensuite, une méthode nommée Q-Align, directement inspirée des systèmes de question/réponse sera présentée. Enfin, nous présenterons plusieurs transformations mathématiques et donc plusieurs représentations vectorielles, pour nous concentrer essentiellement sur celles que nous aurons choisi pour développer une nouvelle méthode d'alignement.

  • Titre traduit

    Bilingual lexicon extraction from comparable corpora


  • Résumé

    Most work in bilingual lexicon acquisition from comparable corpora are based on the distributional hypothesis that has been extended to the bilingual scenario. Hence, two words are more likely to be translation of each other if they appear in the same lexical contexts. This assumption presupposes a clear and rigorous definition of context and a thorough knowledge of contextual clues. However, the complexity and speci_city of each language make the formulation of such a definition that ensures effective extraction of translation pairs in all cases not easy. All the diffculty lies in how to define, extract and compare these contexts in order to build reliable bilingual lexicons. We strive throughout the different chapters of this thesis to try to understand this notion of context, and then extend and adapt it to improve the quality of bilingual lexicons. The first part of contributions aims at improving the standard approach considered as a baseline in the community. Thus, we propose several ways to consider the context for better words characterization. In the second part of the contributions, we first present an approach that aims to improve the extended approach. Then, a method called QAlign directly inspired from question/answering systems is presented. Finally, we present several mathematical transforms and thus multiple vector space representations to focus primarily on the ones we have chosen to develop a new alignment method.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (188 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliographie p. 177-188

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.