Extraction et complétion de terminologies multilingues

par Valérie Hanoka-Maitenaz

Thèse de doctorat en Linguistique théorique, formelle et automatique

Sous la direction de Laurence Danlos et de Benoît Sagot.

Soutenue en 2015

à Sorbonne Paris Cité , dans le cadre de Ecole doctorale de Sciences du Langage (Paris) , en partenariat avec Université Paris Diderot - Paris 7 (1970-2019) (autre partenaire) .


  • Résumé

    Les processus d'extraction terminologique automatique ont été jusqu'ici majoritairement conçus pour être appliqués à de corpus monolingues et dans des registres de langue uniformes. Cette thèse propose une séquence de traitements pour l'extraction automatique de « termes de terrain » qui soit faiblement dépendante de la langue, du registre de langue ou du domaine. Suivant une réflexion fondée sur différents aspects de typologie linguistique appliquée à sept langues, nous proposons des prétraitements textuels préliminaires au calcul de traits numériques pour l'entraînement de modèles statistiques de type CRF. Un ensemble de modèles sont sélectionnés grâce à une évaluation automatisée pour chaque langue. Une seconde série d'évaluations est ensuite réalisée pour étudier l'exploitabilité de ces modèles pour d'autres langues que celles sur lesquelles ils ont été entraînés. Il ressort de ces expériences que cette méthode aboutit à une extraction de termes de terrain de qualité satisfaisante. Les meilleurs scores obtenus (pour une évaluation monolingue des modèles) atteignent 0, 9 de f-score. La seconde partie de notre travail présente nos travaux relatifs à la complétion automatique de terminologies structurées multilingues. Nous avons proposé 2 algorithmes de complétion qui prennent en entrée un graphe de traduction multilingue (construit à partir de ressources libres) et une terminologie multilingue structurée. Ils proposent alors de nouveaux candidats termes pour cette dernière. Notre approche permet de compléter la terminologie structurée dans une langue qu'elle couvre déjà, mais également d'étendre sa couverture à de nouvelles langue.


  • Résumé

    This work focuses on the analysis of verbatim produced in the context of employee surveys carried out within multinational companies and processed by the Verbatim Analysis - VERA company. It involves the design and development of a processing pi¬peline for automatically extracting terminologies in a virtually language-independent, register-independent and domain-independent way.

Autre version

Cette thèse a donné lieu à une publication en 2016 par [CCSD] à Villeurbanne

Extraction et complétion de terminologies multilingues

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XX-309 p.)
  • Annexes : 334 réf. Annexes

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Consultable sur place dans l'établissement demandeur
  • Cote : TL (2015) 057

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB
  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne. Fonds général.
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.