Diagnostic et évaluation automatique de la qualité vocale à partir d'indicateurs hybride

par Adrien Leman

Thèse de doctorat en Acoustique

Sous la direction de Etienne Parizet.

Soutenue le 07-06-2011

à Lyon, INSA , dans le cadre de ED Mécanique, Energétique, Génie Civil, Acoustique de Lyon , en partenariat avec LVA - Laboratoire Vibrations Acoustique (laboratoire) .

Le président du jury était Alexander Raake.

Le jury était composé de Etienne Parizet, Alexander Raake, Régine Le Bouquin-Jeannès, Christophe D'Alessandro, Julien Faure.

Les rapporteurs étaient Régine Le Bouquin-Jeannès, Christophe D'Alessandro.


  • Résumé

    Les opérateurs de télécommunications ont besoin de superviser en temps réel la qualité vocale des services qu'ils proposent. La qualité vocale peut être évaluée par tests subjectifs auprès d'utilisateurs; mais ces méthodes sont très coûteuses et peu adaptées à la supervision. Des modèles objectifs sont ainsi proposés afin de prédire la qualité vocale à moindre coût. Cette thèse propose un modèle de diagnostic et d’évaluation utilisant les informations disponibles au point de mesure : le modèle DESQHI (Diagnostic and Speech Quality using Hybrid Indicators). Il se distingue des modèles existants par deux caractéristiques principales. La première concerne la structure du cœur du modèle. Il est montré que la qualité vocale peut être représentée comme un phénomène multidimensionnel faisant intervenir trois dimensions perceptives correspondant à bruyance, codage de la parole et continuité. Cette structure permet de diagnostiquer la qualité vocale en identifiant les principales causes perceptives de sa dégradation. La deuxième caractéristique concerne le type d’indicateur utilisé pour représenter ces dimensions perceptives, à savoir l’utilisation d’indicateurs basés sur le signal et paramétriques. Les indicateurs basés sur le signal utilisent les informations numériques pour représenter les caractéristiques du signal (par exemple le rapport signal sur bruit qui donne une estimation du niveau sonore du bruit de fond). Les indicateurs paramétriques sont issus des statistiques du réseau (par exemple le pourcentage de pertes de paquets qui fournit une indication sur le niveau de discontinuité du signal de parole). L’utilisation d’indicateurs hybrides utilisant à la fois les informations du signal numérique et les statistiques du réseau permet d’améliorer les performances globales de la prédiction de la qualité vocale, comparativement aux modèles uniquement basés sur le signal (p. ex. modèle P.563) et aux modèles utilisant les indicateurs paramétriques (p. ex. modèle E).

  • Titre traduit

    Automatic speech quality evaluation and diagnostic from hybrid indicators


  • Résumé

    With increasing development of new technologies (RTC, RNIS, GSM, VoIP), tele-communication services are becoming more and more diversified. To this end, telecommunication operators need to supervise in real-time the speech quality of the services they offer. Speech quality is usually evaluated from subjective experiments.. Nevertheless, such experiments are time consuming and do not allow any supervisory control. So, accurate objective models are useful to estimate the speech quality.This thesis proposes a non-intrusive model for diagnosing and evaluating speech quality using information available at the measurement point: the DESQHI model (Diagnostic and Evaluation of Speech Quality using Hybrid Indicators). It differs from existing models in terms in two main characteristics. The first one concerns the structure of the model. It is shown that speech quality can be represented as a multidimensional phenomenon incorporating three perceptual dimensions related to noisiness, speech codec and continuity. This multidimensional structure allows for a diagnostic of speech quality based on identifying the principal features affecting speech qual-ity. The second characteristic concerns the nature of indicators (signal-based and parametric) used to represent the three perceptual dimensions. Signal-based indicators use numeric information to represent the characteristics of the signal, for example, the loudness of the speech signal. Parametric indicators are obtained from the network statistics, for example, the percentage of packet loss, which gives information about the level of the discontinuity in the speech signal. This work proposes hybrid indicators (using both signal-based and parametric metrics). It is shown that they are better speech quality predictors than existing models, either parametric only (e.g. ITU-T Recommendation G.107, also known as the E-model) or signal-based only (e.g. ITU-T Recommendation P.563 model).


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc’INSA. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.