Traitement de la langue arabe par automates et bases de données lexicales: Mise en convergence et conception d’application en recherche d’information.

par Amirouche Amar

Projet de thèse en Sciences du langage

Sous la direction de Joseph Dichy.

Thèses en préparation à Lyon , dans le cadre de 3La - Lettres lingusitique langues et arts depuis le 05-12-2011 .


  • Résumé

    Le projet de thèse s’inscrit dans le programme TALA (« Traitement par automates de la langue arabe ») de l’IFAO, qui porte sur la construction d’un outil de mesure linguistique en vue l’analyse automatique de corpus. Ces outils sont l’analyseur du niveau du mot (ou analyseur morphologique) Kawakib. L’objectif de la thèse, c’est de mettre en convergence deux approches du traitement de la langue arabe: une approche, utilisée par l’équipe SILAT, qui consiste à utiliser des ressources lexicales pour le traitement de la langue arabe ,ces ressources peuvent être sous forme des bases de connaissances notamment la base des connaissances linguistiques DIINAR (Lyon, IRSIT-Tunis) qui constitue une référence internationale et qui contient des ressources linguistiques considérables accumulées pendant près de vingt ans ; et la seconde approche, utilisée par l’équipe TALA, qui est une approche algorithmique ,elle est basée sur les ATNs (Augmented Transition Network) et elle consiste à réduire au maximum le recours au lexique. La mise en convergence de ces dernières aura pour objectif, la recherche d’information. Cette dernière consiste en détermination de critères en vue de l’extraction d’information, de la caractérisation et de la classification des masses de textes arabes. On entend par caractérisation , la détermination du genre ou du type auquel appartiennentt les textes: étude, narration, description, définition, etc


  • Pas de résumé disponible.