Modelling and transformation of sound textures and environmental sounds

par Wei-Hsiang Liao

Thèse de doctorat en Informatique, télécommunications et électronique

Sous la direction de Axel Röbel et de Wen-Yu Su.

Soutenue le 15-07-2015

à Paris 6 en cotutelle avec National Cheng Kung University (Taiwan) , dans le cadre de École doctorale Informatique, télécommunications et électronique (Paris) , en partenariat avec Sciences et Technologies de la Musique et du Son (laboratoire) .

Le jury était composé de Shlomo Dubnov, Josh Mcdermott, Laurent Daudet, Bruno Gas.

  • Titre traduit

    Transformation et synthèse de textures sonores et sons environnementaux


  • Résumé

    Le traitement et la synthèse des sons environnementaux sont devenue un sujet important. Une classe des sons, qui est très important pour la constitution d'environnements sonore, est la classe des textures sonores. Les textures sonores sont décrit par des relations stochastiques et qui contient des composantes non-sinusoïdales à caractère fortement bruité. Il a été montré récemment que la reconnaissance de textures sonores est basée sur des mesures statistiques caractérisant les enveloppes dans les bandes critiques. Il y actuellement très peu d'algorithmes qui permettent à imposer des propriétés statistiques de façon explicite lors de la synthèse de sons. L'algorithme qui impose l'ensemble de statistique qui est perceptivement relevant pour les textures sonore est très couteuse en temps de calcul. Nous proposons une nouvelle approche d'analyse-synthèse qui permet une analyse des statistiques relevant et un mécanisme efficace d'imposer ces statistiques dans le domaine temps-fréquence. La représentation temps-fréquence étudié dans cette thèse est la transformée de Fourier à court terme. Les méthodes proposées par contre sont plus générale et peuvent être généralisé à d'autres représentations temps-fréquence reposant sur des banques de filtres si certaines contraintes sont respectées. L'algorithme proposé dans cette thèse ouvre plusieurs perspectives. Il pourrait être utilisé pour générer des textures sonores à partir d'une description statistique créée artificiellement. Il pourrait servir de base pour des transformations avancées comme le morphing, et on pourrait aussi imaginer à utiliser le modèle pour développer un contrôle sémantique de textures sonores.


  • Résumé

    The processing of environmental sounds has become an important topic in various areas. Environmental sounds are mostly constituted of a kind of sounds called sound textures. Sound textures are usually non-sinusoidal, noisy and stochastic. Several researches have stated that human recognizes sound textures with statistics that characterizing the envelopes of auditory critical bands. Existing synthesis algorithms can impose some statistical properties to a certain extent, but most of them are computational intensive. We propose a new analysis-synthesis framework that contains a statistical description that consists of perceptually important statistics and an efficient mechanism to adapt statistics in the time-frequency domain. The quality of resynthesised sound is at least as good as state-of-the-art but more efficient in terms of computation time. The statistic description is based on the STFT. If certain conditions are met, it can also adapt to other filter bank based time-frequency representations (TFR). The adaptation of statistics is achieved by using the connection between the statistics on TFR and the spectra of time-frequency domain coefficients. It is possible to adapt only a part of cross-correlation functions. This allows the synthesis process to focus on important statistics and ignore the irrelevant parts, which provides extra flexibility. The proposed algorithm has several perspectives. It could possibly be used to generate unseen sound textures from artificially created statistical descriptions. It could also serve as a basis for transformations like stretching or morphing. One could also expect to use the model to explore semantic control of sound textures.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.