Analyse lexicale automatique du lituanien

par Loïc Boizou

Thèse de doctorat en Traitement automatique des langues

Sous la direction de Patrice Pognan et de Tomáš Hoskovec.

Soutenue en 2009

à Paris, INALCO .


  • Résumé

    La présente thèse a pour objet l'analyse automatique des formes lexicales dans les textes écrits en lituanien, sur la base d'une heuristique forme - valeur qui s'inscrit dans une approche symbolique du traitement automatique des langues. Cette étude accorde une attention spécifique à l'éxploitation optimale des indices formels et s'appuie principalement sur deux domaines de la linguistique, la graphématique et la morphologie. Le point d'entrée formaliste couplé à l'objectif d'automatisation a réclamé une révision de la perspective grammaticale traditionnelle, qui nous a conduit à esquisser un renouvellement de la description relative à plusieurs aspects du système linguistique, notamment les parties du discours, la structure lexicale et la suffixation. Le modèle linguistique, qui reste à développer, a servi de fondement à la réalisation d'un analyseur de formes lexicales nommé ALeksas. Ce logiciel possède une structure hybride principalement basée sur des automates à nombre fini d'états. ALeksas, qui est encore à l'état expérimental, assure l'analyse grammaticale des mots formes selon une approche indépendante d'une base de données lexicale permettant de formuler des hypothèses d'interprétation sur des critères formels. Le prototype a fait l'objet d'une mise à l'épreuve par confrontation à un corpus de textes authentiques variés, afin d'évaluer ses capacités, notamment par rapport aux outils comparables, et de mieux cerner les améliorations nécessaires.

  • Titre traduit

    Automatic lexical analysis of Lithuanian


  • Résumé

    The aim of this thesis is to carry out lexical analysis of written texts in Lithuanian by automatic means, according to a heuristics from form to content based on symbolic methods. This study attempts to make an expanded use of marks given by linguistic forms, drawing on graphemic and morphological aspects. This formal starting point in conjunction with automation of linguistic tasks required a revision of the traditional grammatical point of view, concerning mainly parts of speech, lexical structure and suffixation. This linguistic model, which needs further expansion, served as a basis for ALeksas, an analyzer of lexical forms. This software implements a hybrid structure expanding a system of finite state automata. The prototype computes the analysis of word forms, giving grammatical interpretations according to a set of formal criteria, instead of making use of a lexical database. The results of the analysis of a corpus complied from various texts allowed us to delineate more precisely the advantages and shortcomings of Aleksas, as compared with other similar tools, and to also suggest possible enhancements.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 3 vol. (V- 332 f, 748 f.)
  • Annexes : Bibliogr. f. 315-320

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque universitaire des langues et civilisations (Paris).
  • Disponible pour le PEB
  • Cote : TH.601
  • Bibliothèque : Bibliothèque universitaire des langues et civilisations (Paris).
  • Disponible pour le PEB
  • Cote : TH.602
  • Bibliothèque : Bibliothèque universitaire des langues et civilisations (Paris).
  • Disponible pour le PEB
  • Cote : TH.603
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.