Traitement automatique des langues et recherche d'information en langue arabe dans un domaine de spécialité : apport des connaissanaces morphologiques et syntaxiques pour l'indexation

par Siham Boulaknadel

Thèse de doctorat en Informatique

Sous la direction de Béatrice Daille et de Driss Aboutajdine.

Soutenue en 2008

à Nantes en cotutelle avec Rabat , dans le cadre de École doctorale sciences et technologies de l'information et des matériaux (Nantes) .


  • Résumé

    La Recherche d'Information a pour objectif de fournir à un utilisateur un accès facile à l'information qui l'intéresse, cette information étant située dans une masse de documents textuels. Afin d'atteindre cet objectif, un système de recherche d'information doit représenter, stocker et organiser l'information, puis fournir à l'utilisateur les éléments correspondant au besoin d'information exprimé par sa requête. La plupart des systèmes de recherche d'information (SRI) utilisent des termes simples pour indexer et retrouver des documents. Cependant, cette représentation n'est pas assez précise pour représenter le contenu des documents et des requêtes, du fait de l'ambiguïté des termes isolés de leur contexte. Une solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés. Cette approche se fonde sur l'hypothèse qu'un terme complexe est moins ambigu qu'un terme simple isolé. Notre thèse s’inscrit dans le cadre de la recherche d’information dans un domaine de spécialité en langue arabe. L'objectif de notre travail a été d’une part, d’identifier les termes complexes présents dans les requêtes et les documents. D’autre part, d'exploiter pleinement la richesse de la langue en combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l'apport de connaissances morphologiques et syntaxiques permet d'améliorer l'accès à l'information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le domaine public ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces composants. En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons développé un système d’identification de termes complexes sur corpus qui produit des résultats de bonne qualité en terme de précision, en s’appuyant sur une approche mixte qui combine modèle statistique et données linguistiques

  • Titre traduit

    NLP and IR for arabic language in specific domain : contribution of morphological and syntactical knowledge for indexing


  • Résumé

    Information retrieval aims to provide to an user an easy access to information. To achieve this goal, an information retrieval system (IRS) must represent, store and organize information, then provide to the user the elements corresponding to the need for information expressed by his query. Most of information retrieval systems (IRS) use simple terms to index and retrieve documents. However, this representation is not precise enough to represent the contents of documents and queries, because of the ambiguity of terms isolated from their context. A solution to this problem is to use multi-word terms to replace simple term. This approach is based on the assumption that a multi-word term is less ambiguous than a simple term. Our thesis is part of the information retrieval in Arabic specific domain. The objective of our work was on the one hand, identifying a multi-word terms present in queries and documents. On the other hand, exploiting the richness of language by combining several linguistic knowledge belonging at the morphological and syntax level, and showing how the contribution of syntactic and morphological knowledge helps to improve access to information. Thus, we proposed a platform integrating various components in the public domain; it leads to show significant contribution of these components. In addition, we have defined linguistically a multi-word term in Arabic and we developed a system of identification of multi-word terms which is based on a mixed approach combining statistical model and linguistic data

Autre version

Cette thèse a donné lieu à une publication en 2010 par [CCSD] [diffusion/distribution] à Villeurbanne

Traitement automatique des langues et recherche d'information en langue arabe dans un domaine de spécialité : apport des connaissanaces morphologiques et syntaxiques pour l'indexation

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (113 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : 135 références bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.