Thèse soutenue

Traitements linguistiques pour la reconnaissance automatique de la parole appliquée à la langue arabe : de l'arabe standard vers l'arabe dialectal

FR
Auteur / Autrice : Rahma Boujelbane Jarraya
Direction : Frédéric BéchetLamia Hadrich Belguith
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/12/2015
Etablissement(s) : Aix-Marseille en cotutelle avec Université de Sfax (Tunisie)
Ecole(s) doctorale(s) : Ecole doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)
Jury : Président / Présidente : Sami Faiez
Examinateurs / Examinatrices : Lamia Hadrich Belguith
Rapporteurs / Rapporteuses : Rim Faiz, Laurent Besacier

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les différents dialectes de la langue arabe (DA) présentent de grandes variations phonologiques, morphologiques, lexicales et syntaxiques par rapport à la langue Arabe Standard Moderne (MSA). Jusqu’à récemment, ces dialectes n’étaient présents que sous leurs formes orales et la plupart des ressources existantes pour la langue arabe se limite à l’Arabe Standard (MSA), conduisant à une abondance d’outils pour le traitement automatique de cette variété. Étant donné les différences significatives entre le MSA et les DA, les performances de ces outils s’écroulent lors du traitement des DA. Cette situation conduit à une augmentation notable de l’ambiguïté dans les approches computationnelles des DA. Les travaux décrits dans cette thèse s’inscrivent dans ce cadre à travers la modélisation de l’oral parlé dans les médias tunisiens. Cette source de données contient une quantité importante d’Alternance Codique (AC) entre la langue normative MSA et le dialecte parlé en Tunisie (DT). La présence de ce dernier d’une manière désordonnée dans le discours pose une sérieuse problématique pour le Traitement Automatique de Langue et fait de cet oral une langue peu dotée. Toutefois, les ressources nécessaires pour modéliser cet oral sont quasiment inexistantes. Ainsi, l’objectif de cette thèse consiste à pallier ce manque afin de construire un modèle de langage dédié à un système de reconnaissance automatique pour l’oral parlé dans les médias tunisiens. Pour ce fait, nous décrivons dans cette thèse une méthodologie de création de ressources et nous l’évaluons par rapport à une tâche de modélisation de langage. Les résultats obtenu sont encourageants.