Alignement temporel musique-sur-partition par modèles graphiques discriminatifs

par Cyril Joder

Thèse de doctorat en Signal et images

Sous la direction de Gaël Richard et de Slim Essid.

Soutenue en 2011

à Paris, Télécom ParisTech .


  • Résumé

    Cette thèse étudie le problème de l'alignement temporel d'un enregistrement musical avec la partition correspondante. Nous adoptons une approche probabiliste et proposons l'utilisation de modèles graphiques discriminatifs, qui permettent une plus grande souplesse que les modèles de Markov cachés couramment utilisés dans ce domaine. Nous tirons parti de cette souplesse pour réaliser une modélisation implicite du tempo au niveau des attributs acoustiques. Nous proposons trois structures de modèles, correspondant à une précision croissante de la modélisation temporelle. Trois types de descripteurs sont utilisés, caractérisant l'harmonie, les attaques de notes et le tempo de l'enregistrement. Des expériences réalisées sur une base de données de piano classique et de musique pop valident la grande précision des modèles. Après une comparaison des principaux descripteurs classiques, nous abordons la conception de nouveaux attributs grâce à une transformation linéaire de la partition vers le domaine des descripteurs acoustiques. Nous explorons deux stratégies différentes pour l'apprentissage de la transformation optimale. Les expériences effectuées montrent qu'une telle approche peut améliorer la précision des alignements, pour toutes les représentations audio utilisées. Enfin, nous étudions certains ajustements de nos modèles pour une utilisation réelle. Une réduction de la complexité est obtenue grâce à une stratégie d'élagage tirant parti de la structure hiérarchique de la musique. Nous examinons en outre une modification afin de tenir compte d'éventuelles différences structurelles entre la partition et l'enregistrement, ainsi que les propriétés de scalabilité des modèles.

  • Titre traduit

    Audio-to-score temporal alignment with discriminative graphical models


  • Résumé

    This thesis focuses on the problem of aligning a musical recording to the corresponding score. We choose a probabilistic aproach and introduce the use of discriminative graphical models for this task. Indeed, this framework allows for more flexible models than hidden Markov models which are commonly used for alignment. We take advantage of this flexibility to design acoustic features which perform an implicit modeling of the tempo. Furthermore, we propose three different dependency structures of such models, corresponding to different degrees of precision in the modeling of musical event durations. Three types of features are used, characterizing the local harmony, note attacks and tempo. Experiiments run on a large database of classical piano and popular music exhibit very accurate alignments. A comparison of the main traditional acoustic descriptors is conducted on the basis of their efficiency on the alignment task. Furthermore, we address the design of novel features, by learning a linear transformation from the symbolic to the audio representation. We explore different strategies for the estimation of the optimal mapping and show that such a learning can increase the accuracy, for all the tested audio representations. Finally, we explore several strategies to take into account real case constraints. Complexity reduction is obtained thanks to a dedicated pruning strategy, which taked advantage of the hierarchical structure of music. We also show how the models can be modified to be robust to possible structural differences between the score and the performance, and we study the scalability properties of the models.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (156 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 135 réf. bibliogr. Résumé en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 3.58 JODE
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.