Quantification booléenne morphodynamique de la parole : applications au codage vocalique et la recherche d'information rapide

par Salam Fraihat

Thèse de doctorat en Informatique

Sous la direction de Hervé Glotin.


  • Résumé

    Toutes les spécificités de la parole ne sont pas encore exploitées dans les systèmes de traitement automatique. Les paramètrisations habituelles de la parole reposent sur des dizaines de coefficients réels (MFCC). Nous proposons une nouvelle paramétrisation parcimonieuse de la parole, basée sur des oppositions de traits distinctifs plutôt que sur l'augmentation systématique du nombre de dimensions. Afin d'encoder les dépendances Temps-Fréquence (TF) de la parole, nous quantifions isotropiquement les pavés TF, générant peu de coefficients binaires. Les expériences sont réalisées sur un corpus d'émissions radiophoniques multi-locuteurs, de la campagne ESTER. Nos paramètres binaires pour la classification vocalique représentent 1 kb/s, contre 76 kb/s pour les MFCC, tout en donnant des scores comparables. Nous appliquons notre quantification à l'indexation d'émissions radiophoniques par mesure directe de similarité entre le mot recherché et le document audio. Cette indexation morphodynamique est indépendante de la langue, et sans apprentissage. Nos paramètres pour une soixantaine d'instances de mots pour une heure de parole donnent 25% de précision moyenne, ce qui améliore la recherche directe par MFCC, tout en étant beaucoup plus légère, et ouvrant des perspectives sur une recherche d'information booléenne rapide par le contenu.

  • Titre traduit

    Speech boolean morphodynamics quantification : vowels coding to information search


  • Résumé

    All the specificties of the speech are not yet exploited in automatic processing systems. The usual parameters are based on 39 real coefficients (MFCC). We propose new parcimonious ones, based on distinctive fitures. To encode dependencies of the Time-Frequency (TF) of speech, we quantify isotropicallythe TF plane, yieling to few boolean coefficients. . . .

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xxi-168 p.)
  • Annexes : Bibliogr. p. 147-154

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Aix-Marseille (Marseille. Saint-Jérôme). Service commun de la documentation. Bibliothèque de sciences.
  • Disponible pour le PEB
  • Cote : 200085615
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.