Apports d'une approche a base de corpus aux techniques de traitement automatique du langage naturel

par Martin Rajman

Thèse de doctorat en Sciences appliquées

Sous la direction de ALAIN BONNET.

Soutenue en 1995

à Paris, ENST .

    mots clés mots clés


  • Résumé

    L'objectif général de ce travail est d'évaluer la possibilité de mise en œuvre de techniques à base de corpus aux différents niveaux de traitement automatique du langage naturel (lexical, syntaxique, sémantique,. . . ). Nous nous sommes d'abord intéresses aux corpus eux-mêmes, et, en particulier, aux problèmes poses par la manipulation de volumes importants de données textuelles de nature et d'origine variées. L'importance des normes et des standards (iso, SGML) a été soulignée et les résultats de projets en cours dans le domaine de la structuration des documents (tei-text encoding initiative) et de la représentation normalisée des unités lexicales (projet multext, action grace) ont été présentes. Pour ce qui est du traitement du langage naturel proprement dit, nous avons présente les différents modèles d'analyse syntaxique probabiliste utilise ; en particulier, nous nous sommes intéresses : (1) a la potabilisation des modèles syntaxiques a états finis sous la forme de chaines de Markov a états caches ; (2) a la potabilisation des modèles non-contextuels sous la forme de grammaires stochastiques ; (3) a la potabilisation des modèles à base d'arbres, en particulier celle des grammaires a substitution d'arbres et leur application dans le domaine de l'analyse syntaxique guidée par le données (date oriented parsing). Au niveau sémantique, nous nous sommes consacrés à la définition d'un modele sémantique, la sémantique distributionnelle, permettant la prise en compte, au niveau du sens, d'informations de co-occurrente entre entités linguistiques élémentaires (lemmes par exemple). Nous avons ensuite applique ce modele, qui peut être vu comme un prolongement des techniques de la lexicométrie et de l'analyse de données textuelles dans le champ de l'informatique linguistique, a deux types d'applications particulières de traitement du langage naturel : (1) la classification automatique de documents, et, (2) la recherche documentaire en texte intégral.

  • Titre traduit

    Applicability of corpora-based techniques to the automated processing of natural language


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (265 p.)
  • Annexes : 110 ref.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Télécom Paris. Centre de ressources documentaires numériques (CRDN).
  • Non disponible pour le PEB
  • Cote : ARCH. 7.331 RAJM

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : MF-1995-RAJ
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.