Thèse soutenue

Désambiguïsation de l’arabe écrit et interprétation sémantique

FR  |  
EN
Auteur / Autrice : Mahmoud Gzawi
Direction : Mohamed Hassoun
Type : Thèse de doctorat
Discipline(s) : Littérature et linguistique arabe
Date : Soutenance le 17/01/2019
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale Lettres, langues, linguistique, arts (Lyon)
Partenaire(s) de recherche : Equipe de recherche : Interactions, corpus, apprentissages et représentations (Lyon, Rhône ; 2003-....)
établissement opérateur d'inscriptions : Université Lumière (Lyon ; 1969-....)
Jury : Président / Présidente : Abdelfattah Braham
Examinateurs / Examinatrices : Imad Saleh
Rapporteurs / Rapporteuses : Salam Diab-Duranton, Abdenbi Lachkar

Résumé

FR  |  
EN

Cette thèse se situe à l’intersection des domaines de la recherche en linguistique et du traitement automatique de la langue. Ces deux domaines se croisent pour la construction d’outils de traitement de texte, et des applications industrielles intégrant des solutions de désambiguïsation et d’interprétation de la langue.Une tâche difficile et très peu abordée et appliqué est arrivée sur les travaux de l’entreprise Techlimed, celle de l’analyse automatique des textes écrits en arabe. De nouvelles ressources sont apparues comme les lexiques de langues et les réseaux sémantiques permettant à la création de grammaires formelles d’accomplir cette tâche.Une métadonnée importante pour l’analyse de texte est de savoir « qu’est-ce qui est dit, et que signifie-t-il ? ». Le domaine de linguistique computationnelle propose des méthodes très diverses et souvent partielle pour permettre à l’ordinateur de répondre à de telles questions.L’introduction et l’application des règles de grammaire descriptives de langues dans les langages formels spécifiques au traitement de langues par ordinateur est l’objet principal de cette thèse.Au-delà de la réalisation d’un système de traitement et d’interprétation de textes en langue arabe, basé aussi sur la modélisation informatique, notre intérêt s’est porté sur l’évaluation des phénomènes linguistiques relevés par la littérature et les méthodes de leur formalisation en informatique.Dans tous les cas, nos travaux de recherche ont été testés et validés dans un cadre expérimental rigoureux autour de plusieurs formalismes et outils informatiques.Nos expérimentations concernant l'apport de la grammaire syntaxico-sémantique, a priori, ont montré une réduction importante de l’ambiguïté linguistique dans le cas de l'utilisation d’une grammaire à état fini écrite en Java et une grammaire générativetransformationnelle écrite en Prolog, intégrant des composants morphologiques, syntaxiques et sémantiques.La mise en place de notre étude a requis la construction d’outils de traitement de texte et d’outils de recherche d’information. Ces outils ont été construits par nos soins et sont disponible en Open-source.La réussite de l’application de nos travaux à grande échelle s’est conclue par la condition d’avoir de ressources sémantiques riches et exhaustives. Nous travaux ont été redirigés vers une démarche de production de telles ressources, en termes de recherche d’informations et d’extraction de connaissances. Les tests menés pour cette nouvelle perspective ont étéfavorables à d’avantage de recherche et d’expérimentation.