Modélisation sinusoïdale et applications à l’indexation sonore

par Michaël Betser

Thèse de doctorat en Signal et images

Sous la direction de Gaël Richard et de Bertrand David.

Soutenue en 2008

à Paris, ENST .


  • Résumé

    The goal of the thesis is the analysis of audio signals using sinusoidal modeling. The first part of the thesis deals with the estimation of the sinusoidal parameters, and in particular with the methods based on the Fourier Transform. The advantages of this family of methods are a low algorithmic complexity and an ease of use. A complete state of the art of these methods is presented. Then, we describe the new estimators which have been developped during the thesis. In particular, we present two original methods allowing to estimate all the parameters of a sinusoid modulated both in amplitude and frequency. Their performances are shown to be better than the only quivalent method in the litterature, namely the quadratically interpolated fast Fourier transform (QIFFT). Audio indexing is a large domain whose purpose is to answer the needs for content access in the audio documents. In the second part of the thesis, we applied the sinusoidal modeling to two audio indexing tasks for which this modeling is particularly appropriate: pitch estimation and sound object detection. The two algorithms developped involve similar ideas: a matching of the sinusoidal peaks estimated in the audio stream with those of the reference sound object, and a likelihood measure of the matching.

  • Titre traduit

    Sinusoidal modeling and applications to audio indexing


  • Résumé

    L'objectif de la thèse est l'analyse des signaux audio-numériques basée sur la modélisation sinusoïdale. La première partie de la thèse est dédiée à l’estimation des paramètres sinusoïdaux, et en particulier aux méthodes basées sur la transformée de Fourier. Les avantages de cette famille de méthodes sont une faible complexité algorithmique et une grande facilité d'utilisation. Un état de l’art complet des méthodes d’estimation sinusoïdale basées sur la transformée de Fourier est présenté. Nous parlons ensuite des nouveaux estimateurs qui ont été développé pendant la thèse, en particulier deux nouvelles méthodes qui permettent d’estimer tous les paramètres d’une sinusoïde modulée à la fois en amplitude et en fréquence, et dont les performances se sont révélées meilleures que la seule méthode équivalente de l’état de l’art existante, l’interpolation quadratique de la transformée de Fourier (QIFFT). L'indexation sonore est un domaine assez vaste dont la problématique est de répondre aux besoins d'accès par le contenu des documents audio. Dans la deuxième partie de la thèse nous nous sommes attachés à appliquer la modélisation sinusoïdale à deux tâches d'indexation audio pour lesquelles cette modélisation est particulièrement adaptée: l’estimation de pitch et la détection d'objets sonores. Les deux algorithmes développés font intervenir des principes similaires : un appariement des pics sinusoïdaux estimés dans le flux audio avec ceux de l’objet sonore de référence, ainsi qu’une mesure de vraisemblance de l’appariement.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XXIII-239 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 127 réf. bibliogr. Résumé en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.335 BETS
  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 7.335 BETS
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.