Thèse soutenue

Modeles statistiques et patrons morphosyntaxiques pour l'extraction de lexiques bilingues
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Éric Gaussier
Direction : Laurence Danlos
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1995
Etablissement(s) : Paris 7

Résumé

FR

Notre travail s'inscrit dans le cadre general de l'extraction de ressources lexicales bilingues par des methodes statistiques. Il s'agit d'etablir des lexiques bilingues anglais-francais a partir de corpus techniques du domaine des telecommunications par satellite. Deux types d'entrees pour ces lexiques ont ete etudies: les mots simples et les noms composes terminologiques. Le traitement des mots simples repose essentiellement sur des modeles statistiques. Ces modeles sont toutefois insuffisants dans la mesure ou ils ne traitent pas des unites plus complexes telles que les noms composes terminologiques qui abondent dans les domaines techniques. Nous nous sommes alors interesse a la reconnaissance de ces composes terminologiques. Pour cela, nous avons eu recours a des structures morphosyntaxiques isolees dans le cadre de travaux sur la composition nominale anglaise et francaise. Nous avons ensuite mene une etude comparative entre les structures anglaises et francaises. Nous avons finalement etabli divers modeles pour aligner les termes anglais et francais entre eux. Dans cet alignement nous avons envisage trois approches. Dans la premiere, l'accent est mis sur les mots constituant les termes. Dans la deuxieme, les termes sont envisages dans leur globalite. Enfin, la derniere approche integre les resultats des deux precedentes. L'utilisation conjointe de donnees linguistiques et statistiques nous permet finalement d'obtenir des lexiques bilingues de bonne qualite