La Conception et la réalisation d'un concordancier électronique pour l'arabe

par Ramzi Abbes

Thèse de doctorat en Science de l'information

Sous la direction de Mohamed Hassoun et de Joseph Dichy.

Soutenue en 2004

à Villeurbanne, INSA .


  • Résumé

    Dans cette thèse nous abordons la réalisation des concordances électroniques de l'arabe, du point de vue du traitement automatique des langue (TAL). L'organisation du texte en listes de mots, de contextes et de fréquences suscite l'intérêt des chercheurs en sciences de l'information, en indexation, en lexicographie, en didactique, en dictionnairique, en stylistique Les méthodes classiques de parcours de surfaces (KWIC) utilisés pour la réalisation des concordances ne donnent pas de résultats satisfaisants sur l'arabe. Notre langue sémitique est hautement flexionnelle, agglutinante et non-vocalisée, elle contient des formes graphiques complexes muettes aux recherches de surfaces. L'analyse morpho-syntaxique (AM) s'est imposée pour la distinction des mots dans leurs contextes et pour offrir de nouveaux critères pour l'organisation et l'exploration des index. Mais avant, nous devons définir un lexique pour le TAL de l'arabe. La dissymétrie entre la génération et l'analyse du mot arabe exclut l'utilisation directe des dictionnaires traditionnels et impose d'associer à chaque entrée des spécificateurs morpho-syntaxiques. Cette association a été réalisé dans DIINAR. 1 " DIctionnaire INformatisé de l'Arabe version 1 ", qui s'appuie sur les analyseurs et les générateurs dévelopés grâce au modèle SAMIA " Synthèse et Analyse Morphologique Informatisées de l'Arabe " notamment notre analyseur AraMorph. Avec l'ambigui͏̈té née dans la langue arabe, une concordance automatique doit répondre à plusieurs heuristiques pour réduire la multiplicité des solutions et doit rester interactive et assister l'inévitable intervention experte. Cette thèse comporte une collection des ressources originales pour le TAL de l'arabe. Les listes des particules arabes et leurs matrices de compatibilités, une liste de fréquence de mots et de racines établies pour une recherche en psycholinguistique et une application directe du concordancier à une étude de corpus journalistique contemporain.

  • Titre traduit

    = The Design and the realization of an electronic concordance for Arabic.


  • Résumé

    In this thesis, we are approaching the realization of the electronic concordance for the Arabic language, from the point of view of the automatic treatment of the language. The organisation of the text in lists of words, the contexts and the frequencies which aroused the interest of the researchers in information sciences, in indexing, in lexicography, in didactic, in dictionaries, in stylistics…. . The classical methods of surface search (KWIC) used for the realization of the concordance did not give satisfactory results for the Arabic language. Our Semitic language is highly inflected, aggluinative and not-vocalized, it contains complex graphic forms remains silent in the surfaces searches. Morpho-syntaxe analyse (MA) was used for the distinction of the words in their contexts and to offer new criteria for the organisation and the exploration of the index. But before that, we must define a lexicon for the Arabic ATL, the asymmetry between the generation and the analyses of Arabic words prohibit direct using of traditional dictionnaries ans makes it necessary to associate lexical entries with a set of morph-syntactics specifiers, which has been completed in DINAR. 1 “DIctionnaire INformatisé de l’Arabe version 1” “Computerized Dictionary for Arabic version. 1” and in the analyzers and generators developped on the basis of the SAMIA model “Synthèse et Analyse Morphologique Informatisées de l’Arabe” " Computerized Morphological Synthesis and Analyses for the Arabic" among with an AraMorph analyser. With the ambiguity in the Arab language, an automatic concordancer must answer several heuristics to reduce the multiplicity of solutions and must remain interactive and assist the inevitable expert intervention. This thesis consiss of a collection of original resources for the Arabic ATL ; a lists of the Arab particles and their matrix compatibilities, a list of frequent terms with roots for psycholinguistic and direct application of concordance for a corpus study of contemporary journalistic.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 463 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. [218]-232

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(2879)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.