Méthodes d'acquisition terminologique en arabe : Application au domaine médical

par Wafa Neifar (Labidi)

Thèse de doctorat en Informatique

Sous la direction de Pierre Zweigenbaum et de Lamia Hadrich belguith.

Thèses en préparation à Paris Saclay en cotutelle avec l'Université de Sfax , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) et de Université Paris-Sud (établissement opérateur d'inscription) .


  • Résumé

    L'objectif de cette thèse est de lever les verrous que constituent le manque de disponibilité de ressources ou d'outils TAL pour la langue arabe dans les domaines de spécialité en proposant des méthodes permettant l'extraction de termes à partir de textes en arabe standard moderne. Dans ce contexte, nous avons d'abord construit un corpus parallèle anglais-arabe dans un domaine de spécialité. Il s'agit d'un ensemble de textes médicaux produits par la bibliothèque nationale de médecine américaine (NLM). Par la suite, nous avons proposé des méthodes d'acquisition terminologique, permettant d'extraire des termes ou d'acquérir des relations entre ces termes, pour la langue arabe en se basant sur: i)adaptation d'un extracteur terminologique existant pour la langue française ou anglaise, ii) l'exploitation de la translittération des termes anglais en caractères arabes et iii) l'application de la la notion de transfert translingue. Appliqué au niveau terminologique, le transfert consiste à mettre en œuvre un processus d'extraction de termes ou d'acquisition de relations entre termes sur des textes d'une langue source (ici, le français ou l'anglais) puis à transférer les informations extraites sur des textes d'une langue cible (ici, l'arabe standard moderne) pour ainsi identifier le même type d'informations terminologiques. Nous avons évalué les listes de termes monolingues et bilingues obtenues lors des différentes expériences que nous avons réalisées, suivant une méthode transparente, directe et semi-automatique: les termes candidats extraits sont confrontés à une terminologie de référence avant d'être vérifiés manuellement. Cette évaluation suit un protocole que nous avons proposé.

  • Titre traduit

    Terminology acquisition methods in Arabic : Application in the medical domain


  • Résumé

    The goal of this thesis is to reduce the lack of available resources and NLP tools for Arabic language in specialised domains by proposing methods allowing the extraction of terms from texts in Modern Standard Arabic. In this context, we first constructed an English-Arabic parallel corous in a specific domain. It is a set of medical texts produced by the US National Library of Medicine (NLM). Thereafter, we have proposed terminological acquisition methods, to extract terms or acquire relations between these terms, for Arabic based on: i) the adaptation of an existing terminology extractor for French or English, ii) the transliteration of English terms in Arabic characters and iii) cross-lingual transfer. Applied at the terminological level, transfer aims to implement a process of term extraction or relationship acquisition between terms in the texts of a source language (here, French or English) and then to transfer the extracted information to target language texts (in this case, Modern Standard Arabic), thereby identifying the same type of terminological information. We have evaluated the monolingual and bilingual term lists that we have obtained by the experiments we carried out, according to a transparent, direct and semi-automatic method: the extracted term candidates are confronted with a reference terminology before being validated manually. This evaluation follows a protocol that we proposed.