Catégorisation, usage et extraction de classes

par Nicolas Gagean

Thèse de doctorat en Sciences du langage

Sous la direction de François Rousselot.

Soutenue en 2005

à l'Université Marc Bloch (Strasbourg) .

  • Titre traduit

    Categorisation, use and classes extraction


  • Résumé

    Dans le domaine du Traitement Automatique du Langage, plusieurs études ont été menées afin de regrouper des termes sémantiquement proches. Le problème linguistique sous-jacent est celui de la catégorisation. Nous montrons ce que la méthode distributionnelle et la justification inspirée par la sémiotique peuvent apporter à ce sujet. Nous avons choisi de traiter ce problème du point de vue de l'usage, car l'usage est dans les textes, qui sont les seules données objectives qu'un ordinateur puisse recevoir en entrée. Nous reprenons l'idée harrissienne qui suppose que l'examen de mots et de leurs fonctionnements peut servir de base pour des travaux sur la sémantique de ces mots. L'analyse de corpus que nous proposons montre que le fait de ne pas présupposer l'existence des classes permet de faire émerger des classes originales liées à l'usage, et qui constituent une base sur laquelle pourront s'appuyer de prochains travaux de constructions de ressources lexicales numériques.


  • Résumé

    In Natural Language Processing area, several researches were carried out in order to gather semantically close terms. The linguistic underlying problem is the categorization. We demonstrate what the distributive method and the justification inspired by the semiotic can bring to this topic. We chose to approach this issue from the viewpoint of the use. The use is, at least partially, in the texts which are the only objectives data a computer can receive as input. We suppose, according to Harris, that the study of words and their operations can be used as foundation for researches on the semantic of these words. The corpus analysis we present shows that not to suppose existing classes allows the emergence of original, fuzzy and unstable classes, which are related to the use. Thus we believe we defined a first theoretical basis on which coming researches on the constitution of digital lexical resources can be based.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (233 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 225-233. Index

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque nationale et universitaire de Strasbourg.
  • Disponible pour le PEB
  • Cote : TM.500.732,2005
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.