Thèse soutenue

Estimation de la frequence fondamentale des signaux sonores

FR  |  
EN
Auteur / Autrice : Boris Doval
Direction : Xavier Rodet
Type : Thèse de doctorat
Discipline(s) : Physique
Date : Soutenance en 1994
Etablissement(s) : Paris 6

Résumé

FR

L'objectif de cette these est l'estimation fiable de la frequence fondamentale des signaux sonores monophoniques, qu'il s'agisse de parole ou de musique. La plupart des algorithmes reposent uniquement sur l'hypothese de periodicite des signaux, et necessitent donc des corrections a posteriori pour lever les ambiguites d'octave. Pour eviter d'utiliser des corrections souvent heuristiques et difficiles a adapter a des situations variees, il semble primordial de tenir compte des caracteristiques spectrales des signaux sonores telles que l'interdependance des amplitudes des partiels harmoniques, leur absence eventuelle, leur inharmonicite, et la presence de partiels non harmoniques ou de bruit. C'est ce que permet l'algorithme ahmv (appariement d'harmoniques par maximum de vraisemblance) propose dans cette these. L'appariement d'harmoniques consiste a expliquer le role de chaque partiel en tant qu'harmonique numerotee ou que non harmonique et la frequence fondamentale se definit par le maximum de sa vraisemblance. Le choix des distributions des parametres du modele peut s'effectuer soit par l'utilisation d'heuristiques deduites de l'observation des signaux de parole et de musique, soit par apprentissage statistique des parametres du modele sur une base de donnees etiquetee en frequence fondamentale. Une valeur unique de frequence fondamentale est fournie a chaque trame par un principe de decision markovien qui prend en compte la loi de l'evolution temporelle de ce parametre. Les tests comparatifs avec d'autres algorithmes classiques sur des signaux de parole montrent que l'algorithme ahmv se place parmi les meilleurs algorithmes d'estimation de la frequence fondamentale (le taux d'erreurs grossieres a 20% de la reference sur des signaux de bonne qualite est d'environ 1,5% des zones voisees, locuteurs masculins et feminins confondus). Cet algorithme a permis d'ameliorer un systeme de suivi de partitions temps-reel en situation de concert. Enfin, une evaluation par synthese sur une base de donnees de 14 minutes a montre que cet algorithme n'a pas de difficultes sur des sons musicaux tres varies (instruments europeens et indiens, voix chantee, musique classique, contemporaine et jazz) si ce n'est lorsqu'ils presentent de la reverberation ou sont multiphoniques