Thèse soutenue

Étude et modélisation des phénomènes collocationnels : implémentation dans un système d'aide à la rédaction en anglais scientifique

FR  |  
EN
Auteur / Autrice : Alexandra Vasilescu Volanschi
Direction : Natalie Kübler
Type : Thèse de doctorat
Discipline(s) : Linguistique anglaise
Date : Soutenance en 2008
Etablissement(s) : Paris 7

Résumé

FR  |  
EN

Cette thèse a pour objectif le développement d'une méthode d'exploration des propriétés combinatoires des termes appartenant à un domaine de la biologie - la biologie des levures - à travers l'analyse d'un corpus d'articles scientifiques. Ce travail a conduit à la réalisation d'un outil d'aide à la rédaction scientifique en anglais, destiné aux chercheurs francophones. La première partie comporte des considérations théoriques et méthodologiques. Nous analysons les diverses approches, définitions et caractéristiques des collocations aussi bien dans la langue générale que dans les langues de spécialité. Ceci nous permet de formuler une définition opératoire de la collocation, en adéquation avec notre objectif applicatif. Puis, nous passons en revue les méthodes d'extraction automatique des collocations à partir de corpus et les modèles d'encodage des collocations dans les principales entreprises lexicographiques et terminographiques. Cet inventaire nous permet de mener une réflexion sur les meilleurs choix à adopter dans notre travail. Dans la deuxième partie nous décrivons notre méthode d'extraction des collocations et les spécifications du site web permettant l'interrogation des données. Afin d'extraire les collocations terminologiques, mais aussi celles appartenant au vocabulaire scientifique trans-disciplinaire, nous avons constitué et analysé un très large corpus de travail (5 millions de mots), composé d'articles sur la biologie de la levure. Notre méthode hybride d'extraction des collocations est basée sur une analyse syntaxique en dépendance et combinée avec des heuristiques statistiques telles que l'information mutuelle, la fréquence et la représentativité.