Approches catégoriques et non catégoriques en linguistique des corpus spécialisés : application à un système de filtrage d'information

par Antonio Balvet

Thèse de doctorat en Sciences du langage

Sous la direction de Bernard Laks.

Soutenue en 2002

à Paris 10 .


  • Résumé

    Cette thèse s'inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d'extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d'analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d'évaluer l'apport d'approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d'information, déployé en milieu industriel : le système CORAIL, issu d'un projet de recherches financé par le Ministère de la Recherche et de l'Industrie.

  • Titre traduit

    Categorical and non categorical approaches to specialised corpus studies : application to an information filtering system


  • Résumé

    This thesis is set in the framework of corpus linguistic studies, centered on actual utterances, in specialised domains. By building on the theoretical and methodological grounding of data-oriented approaches in linguistics, this thesis aims at identifying and describing complex lexical units which are strongly correlated with well defined sub-topics: topical signatures. One of the achievements of this work is the description of a set of topical signatures for a subtopic of financial news extracts: corporate financial activities. The approach described in this thesis, building on classical distributional methods, also aims at evaluating non categorical and non logic-centered approaches, such as stochastic ones, in the process of identifying topical signatures. The extracted signatures serve as lexical resources, put to use by a selective information dissemination system: CORAIL. This system is the achievement of an industrial research project, funded by the French Ministry for Research and Industry.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (318 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 223-240

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Ouest Nanterre La Défense. Service commun de la documentation.
  • Disponible pour le PEB
  • Cote : T 02 PA10-146
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.