Traitements linguistiques pour la reconnaissance automatique de la parole appliquée à la langue arabe : de l'arabe standard vers l'arabe dialectal
Auteur / Autrice : | Rahma Boujelbane Jarraya |
Direction : | Frédéric Béchet, Lamia Hadrich Belguith |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 05/12/2015 |
Etablissement(s) : | Aix-Marseille en cotutelle avec Université de Sfax (Tunisie) |
Ecole(s) doctorale(s) : | Ecole doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....) |
Jury : | Président / Présidente : Sami Faiez |
Examinateurs / Examinatrices : Lamia Hadrich Belguith | |
Rapporteurs / Rapporteuses : Rim Faiz, Laurent Besacier |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les différents dialectes de la langue arabe (DA) présentent de grandes variations phonologiques, morphologiques, lexicales et syntaxiques par rapport à la langue Arabe Standard Moderne (MSA). Jusqu’à récemment, ces dialectes n’étaient présents que sous leurs formes orales et la plupart des ressources existantes pour la langue arabe se limite à l’Arabe Standard (MSA), conduisant à une abondance d’outils pour le traitement automatique de cette variété. Étant donné les différences significatives entre le MSA et les DA, les performances de ces outils s’écroulent lors du traitement des DA. Cette situation conduit à une augmentation notable de l’ambiguïté dans les approches computationnelles des DA. Les travaux décrits dans cette thèse s’inscrivent dans ce cadre à travers la modélisation de l’oral parlé dans les médias tunisiens. Cette source de données contient une quantité importante d’Alternance Codique (AC) entre la langue normative MSA et le dialecte parlé en Tunisie (DT). La présence de ce dernier d’une manière désordonnée dans le discours pose une sérieuse problématique pour le Traitement Automatique de Langue et fait de cet oral une langue peu dotée. Toutefois, les ressources nécessaires pour modéliser cet oral sont quasiment inexistantes. Ainsi, l’objectif de cette thèse consiste à pallier ce manque afin de construire un modèle de langage dédié à un système de reconnaissance automatique pour l’oral parlé dans les médias tunisiens. Pour ce fait, nous décrivons dans cette thèse une méthodologie de création de ressources et nous l’évaluons par rapport à une tâche de modélisation de langage. Les résultats obtenu sont encourageants.