Estimation de fréquences fondamentales multiples en vue de la séparation de signaux de parole mélangés dans un même canal

par François Signol

Thèse de doctorat en Physique. Traitement du signal

Sous la direction de Jean-Sylvain Liénard.

Soutenue en 2009

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Ce travail de thèse propose un algorithme d’estimation de F0 multiples (AEP) pour la parole surperposée. L’algorithme est conçu pour être utilisé comme une étape bas-niveau d’un système de séparation de parole. L’algorithme proposé est purement trame-à-trame, d’approche fréquentielle et estime les F0 de manière conjointe. Aucune hypothèse n’est faite sur le nombre de sources mélangées. Il s’appuie sur deux familles de peignes spectraux nommées Peignes à Dents Négatives et Peignes à Dents Manquantes. Le produit scalaire entre un spectre d��amplitude et un peigne spectral produit une « fonction de pitch » qui quantifie la force de la structure harmonique d’une fréquence donnée. Les fonctions de pitch contiennent des pics parasites qui peuvent provoquer des erreurs d’estimation de F0. La combinaison des fonctions de pitch individuelles de chaque peigne permet d’atténuer l’amplitude des pics parasites. Cette combinaison est nommée principe de Peigne à Suppression Harmonique. Deux implémentations du principe de Peigne à Suppression Harmonique sont décrites. Elles sont efficaces de F0 monopitch et multipitch (même à l’octave). Une implémentation est évaluée de manière comparative à d’autres algorithmes existant dans les situations monopitch et bipitch. Les performances obtenues sont largement à la hauteur de l’état de l’art (10% d’erreurs grossières en bipitch). Cette évaluation a permis de mettre en évidence l’influence critique de la décision voisé/non-voisé sur les taux d’erreurs. Quatre méthodologies sont proposées dont une originale. Elle consiste à fixer pour tous les AEP évalués le même point de fonctionnement en termes de décision voisé/non-voisé.

  • Titre traduit

    Automatic multipitch estimation for monaural speech mixture signals – towards a monaural speech separation system


  • Pas de résumé disponible.


  • Résumé

    This PhD dissertation presents a new mutli-Pitch Estimation Algorithm (mPEA) for speech mixtures. The algorithm is designed as an elementary step of a broader monaural speech separation system. Our mPEA is purely frequency-based and strickly frame-to-frame. It uses a F0 joint estimation. No hypothesis is made on the number of surperimposed signals. It rely on two new spectral comb families called Negatives Teeth Combs and Missing Teeth Combs. The scalar product between a spectrum and a spectral comb produce a “pitch function” which quantifies the strength of the harmonic structure at a given frequency. Each pitch function contains spurious peaks wich could produce F0 estimation errors. The combination of individual pitch functions obtained by each spectral comb allows to attenuate the spurious peaks amplitudes. This combination is called Harmonic Cancellation Comb principle. Two implementations of this principle are described. They are effective in estimating one or several simultaneous F0 (even in an octave situation). One implementation is evaluated comparatively to others existing mPEA in the monopitch cases. The performances obtained are similar to the state of art (10 % of gross error rate in the bipitch case). The evaluation process points out the critical influence of the voiced/unvoiced decision on the gross error rate. Four mPEA comparative evaluation methodologies are proposed and used. Among them, one is original and consists in setting the same voiced/unvoiced functioning point for all Mpea evaluated.

Autre version

Cette thèse a donné lieu à une publication en 2011 par [CCSD] [diffusion/distribution] à Villeurbanne

Estimation de fréquences fondamentales multiples en vue de la séparation de signaux de parole mélangés dans un même canal

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XXII-241 p.)
  • Annexes : Bibliogr. p. 229-241

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2009)268
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.