Extraction de fréquences fondamentales multiples dans des enregistrements polyphoniques

par Chunghsin Yeh

Thèse de doctorat en Informatique

Sous la direction de Xavier Rodet.

Soutenue en 2008

à Paris 6 .


  • Résumé

    La fréquence fondamentale, dite F0, est un descripteur essentiel des signaux audio de musique. Bien que les algorithmes d’estimation de F0 unique aient considérablement progressé, leur application aux signaux de musique reste limitée parce que la plupart d’entre eux contiennent non pas une, mais plusieurs sources harmoniques en même temps. Par conséquent, l’estimation des F0s multiples est une analyse plus appropriée, et qui permet d’élargir le champ d’application à des tâches telles que la séparation de sources, l’extraction d’information de musique ou la transcription automatique de la musique. La difficulté d’estimer des F0s multiples d’un signal audio réside dans le fait que les sources sonores se superposent souvent dans le domaine temporel ainsi que dans le domaine fréquentiel. Les informations extraites sont en partie ambiguës. En particulier, lorsque des notes de musique en relation harmonique sont jouées en même temps, les partiels des notes aiguës peuvent recouvrir les partiels des notes graves. D’ailleurs, les caractéristiques spectrales des instruments de musique sont variées, ce qui augmente l’incertitude des amplitudes estimées des partiels des sources sonores. La complexité qui en résulte génère aussi une ambiguïté d’octave et il est d’autre part difficile d’estimer le nombre de sources. Cette thèse traite ces problèmes en trois étapes: l’ estimation du bruit, l’évaluation conjointe des F0 hypothèses, et l’inférence de la polyphonie. Le signal observé est modélisé par la somme de plusieurs sources harmoniques et du bruit, où chaque source harmonique est modélisée par une somme de sinusoïdes. Dans le cas de l’estimation des F0s, le nombre de sources est à estimer également. Si la partie bruit n’est pas estimée à l’avance, le nombre de sources risque d’être surestimé, les sources supplémentaires servant à expliquer la partie bruit. Un algorithme d’estimation du niveau de bruit est donc développé afin de distinguer les pics relatifs au bruit des pics sinusoïdaux qui correspondent aux partiels des sources harmoniques. Une fois les composantes spectrales identifiées comme étant des sinusoïdes ou du bruit, les partiels d’un ensemble de sources hypothétiques devraient s’ajuster à la plupart des pics sinusoïdaux. Afin d’évaluer leur plausibilité, un algorithme d’estimation conjointe est proposé, ce qui permet de traiter le problème des partiels superposés. L’algorithme d’estimation conjointe proposé est fondé sur trois hypothèses liées aux caractéristiques des instruments de musique: l’harmonicité, la douceur de l’enveloppe spectrale, et l’évolution synchrone des amplitudes des partiels. Lorsque le nombre de sources est connu, les F0s estiméees sont déterminés par la combinaison la plus probable. Dans ce cas, l’algorithme proposé donne un résultat prometteur qui se compare favorablement à l´état de l’art. L’estimation conjointe des F0s multiples permet de traiter de manière satisfaisante le problème des partiels superposés. Cependant, le temps de calcul de cette approche est élevé, parce que le nombre de combinaisons hypothétiques s’accroît exponentiellement avec le nombre de F0s candidats. Au contraire, l’approche basée sur une estimation itérative est plus rapide mais elle est moins optimale pour traiter le problème des partiels superposés. Dans l’espoir d’obtenir d’une part efficacité et d’autre part robustesse, ces deux approches sont combinées. Un algorithme itératif de sélection des F0s candidats, visant à en diminuer le nombre, est proposé. Comparé à deux fonctions de saillance polyphonique, cet algorithme itératif réduit de cents fois le nombre de candidats en perdant seulement 1 à 2% de la précision d’estimation des F0s multiples. Le résultat montre d’ailleurs qu’une augmentation du nombre des F0s candidats ne garantit pas une meilleure performance de l’algorithme d’estimation conjointe. L’estimation du nombre de sources, dite inférence de la polyphonie, est le problème le plus ardu. L’approche proposée consiste à faire une hypothèse sur le nombre de sources maximal et ensuite à sélectionner les meilleures F0s estimés. Pour cela, les F0s candidats qui se trouvent dans les meilleures combinaisons, sous l’hypothèse du nombre de sources maximal, sont retenus. L’estimation finale des F0s est obtenue en vérifiant de manière itérative les combinaisons de F0s sélectionnées selon l’ordre de probabilité de chaque F0. Une hypothèse de F0 est considérée comme valide si elle permet d’expliquer des pics d’énergie significatifs ou si elle améliore la douceur de l’enveloppe spectrale pour l’ensemble des F0s estimés. Le système proposé est évalué en utilisant une base de données de morceaux de musique construite spécialement pour l’occasion. La précision obtenue est environ 65%. Lors de la compétition d’estimation de F0s multiples de MIREX (Music Information Retrieval Evaluation eXchange) 2007, le système proposé a été évalué comme l’un des meilleurs parmi les 16 systèmes soumis.

  • Titre traduit

    Multiple fundamental frequency estimation of polyphonic signals


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (IX-[141] p.)
  • Annexes : Bibliogr. p. 131-[141]. 120 réf. bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Section Biologie-Chimie-Physique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2008 261
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.