Étude et modélisation des phénomènes collocationnels : implémentation dans un système d'aide à la rédaction en anglais scientifique

par Alexandra Vasilescu Volanschi

Thèse de doctorat en Linguistique anglaise

Sous la direction de Natalie Kübler.

Soutenue en 2008

à Paris 7 .


  • Résumé

    Cette thèse a pour objectif le développement d'une méthode d'exploration des propriétés combinatoires des termes appartenant à un domaine de la biologie - la biologie des levures - à travers l'analyse d'un corpus d'articles scientifiques. Ce travail a conduit à la réalisation d'un outil d'aide à la rédaction scientifique en anglais, destiné aux chercheurs francophones. La première partie comporte des considérations théoriques et méthodologiques. Nous analysons les diverses approches, définitions et caractéristiques des collocations aussi bien dans la langue générale que dans les langues de spécialité. Ceci nous permet de formuler une définition opératoire de la collocation, en adéquation avec notre objectif applicatif. Puis, nous passons en revue les méthodes d'extraction automatique des collocations à partir de corpus et les modèles d'encodage des collocations dans les principales entreprises lexicographiques et terminographiques. Cet inventaire nous permet de mener une réflexion sur les meilleurs choix à adopter dans notre travail. Dans la deuxième partie nous décrivons notre méthode d'extraction des collocations et les spécifications du site web permettant l'interrogation des données. Afin d'extraire les collocations terminologiques, mais aussi celles appartenant au vocabulaire scientifique trans-disciplinaire, nous avons constitué et analysé un très large corpus de travail (5 millions de mots), composé d'articles sur la biologie de la levure. Notre méthode hybride d'extraction des collocations est basée sur une analyse syntaxique en dépendance et combinée avec des heuristiques statistiques telles que l'information mutuelle, la fréquence et la représentativité.

  • Titre traduit

    Study and modeling of collocational phenomena : implementation of a writing aid tool for scientific english


  • Résumé

    The central goal of the present study is to develop a methodology to explore the combinatorial properties of terms belonging to a specific field of biology, yeast biology, based on the analysis of a corpus of scientific articles. This research has led to the production of a writing aid tool meant to help non-native authors write scientific papers in English. A number of theoretical and methodological considerations are outlined in the first part of our study. We begin by analysing the various definitions and defining features of collocations - both in general language and in languages for specific purposes. This led us to formulate a working definition of collocations, well suited for our application. We then review various methods of automatic collocation extraction from corpora and a number of collocation encoding methods used by various lexicographical and terminographical approaches This state-of-the-art discussion prompted a number of thoughts on the choices best suited for our purpose. In the second part, we discuss our collocation extraction method and the specifications of the web interface allowing users to query results. In order to extract terminological collocations specific to yeast biology but also collocations belonging to general scientific language we have built and analysed a large specialised corpus (over 5 million words), composed of research articles on yeast biology. Our hybrid collocation extraction method is based on dependency parsing combined with a number of statistical heuristics : mutual information, frequency and coverage.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (499 f.)
  • Annexes : 501 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Consultable sur place dans l'établissement demandeur
  • Cote : TL (2008) 089

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Bibliothèque interuniversitaire de la Sorbonne (Paris).
  • Non disponible pour le PEB
  • Cote : MC 11375
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.