Découverte et caractérisation des corpus comparables spécialisés

par Lorraine Goeuriot

Thèse de doctorat en Informatique

Sous la direction de Béatrice Daille et de Emmanuel Morin.

Soutenue en 2009

à Nantes .


  • Résumé

    Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l’avantage d’être représentatifs des particularités culturelles et linguistiques de chaque langue. LeWeb peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d’aide à la construction de corpus comparables. Nous présentons d’abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d’apprentissage automatique. Une analyse stylistique sur un corpus d’apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d’analyse : structurel, modal et lexical. Nous l’utilisons ensuite afin d’apprendre un modèle de classification avec les systèmes SVMlight et C4. 5. Ces modèles sont ensuite évalués sur un corpus d’évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d’une chaîne logicielle d’aide à la construction de corpus comparables implémentée sur la plateforme UIMA

  • Titre traduit

    Specialized comparable corpora discovery and characterization


  • Résumé

    Comparable corpora are sets of texts written in different languages that are not translations of each other but that share common characteristics. Their main advantage is to be fully representative of linguistics and cultural specificities of their respective language. The Web could theoretically be considered as a comparable corpora source. However, the quality of corpora and of their extracted resources depends on the preliminary definition of corpora and on the carefulness of their compilation (i. E. The definition of common features in comparable corpora). In this thesis, we focus on the compilation of specialized comparable corpora in French and Japanese which documents are extracted from the Web. We propose a definition of these corpora and a set of common features: a specialized domain, a topic and a type of discourse (science or popular science). Our goal is to create a tool to assist comparable corpora compilation. First, we present automatic recognition of common features. Topics can be easily identified with keywords used in Web searches. On the contrary, the detection of the type of discourse needs a wide stylistic analysis. This task is performed over a learning corpus, which leads to the creation of a bilingual typology based on three levels of analysis: structural, modal and lexical. Second, we use this typology to learn a classification model with SVMlight and C4. 5. This classification model is tested over an evaluation corpus. Our test results indicate that more than 70 % of the documents are well classified. Finally, the classifier is integrated into a comparable corpora compilation assistant tool developed on UIMA system

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (149 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 127-133

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 2009 NANT 2026
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.