Thèse soutenue

Exploitation de corpus parallèles et comparables pour la détection de correspondances lexicales : application au domaine médical
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Louise Deléger
Direction : Pierre Zweigenbaum
Type : Thèse de doctorat
Discipline(s) : Informatique médicale
Date : Soutenance en 2009
Etablissement(s) : Paris 6

Résumé

FR

Dans ce travail, nous cherchons à mettre des propriétés des corpus textuels (parallélisme et comparabilité) à profit pour l'Informatique Médicale, en détectant des correspondances lexicales de deux types: des traductions de termes médicaux afin d'enrichir des terminologies; des paraphrases d'expressions spécialisées et grand public dans le but d'aider à rédiger des documents grand public. Une première expérience se base sur des approches éprouvées et un corpus parallèle, et met en place des méthodes d'alignement de corpus. Ceci nous a permis d'obtenir de nouvelles traductions françaises de termes anglais, dont certaines sont maintenant intégrées au thésaurus MeSH. Une seconde expérience examine les possibilités d'exploitation de corpus comparables monolingues. Deux méthodes ont été conçues: une première recherche des paraphrases de nominalisations; la deuxième des paraphrases de composés savants. Diverses paraphrases semblant cohérentes avec l'opposition spécialisé/grand public étudiée ont été obtenues.