Thèse de doctorat en Signal et images
Sous la direction de Bertrand David et de Roland Badeau.
Soutenue en 2008
à Paris, ENST .
La transcription automatique de la musique (TAM) s'inscrit dans le champ de l'indexation audio et de la recherche d'informations musicales. Elle vise à extraire l'information relative aux notes jouées – début, fin, hauteur – dans un enregistrement numérique. Cette thèse aborde la TAM dans le cadre du piano, instrument difficile à transcrire par les systèmes actuels et qui occupe une place majeure d'instrument solo dans la musique occidentale. La problématique générale de la TAM étant vaste et complexe, nous exploitons certains aspects spécifiques du piano pour spécialiser la tâche, tout en abordant des thématiques générales comme l'estimation de fréquences fondamentales (F0) ou l'évaluation. Nous étudions tout d’abord la caractérisation spectrale des sons de piano pour la transcription à travers la distribution inharmonique des partiels, la modélisation de l'enveloppe spectrale des notes et celle du bruit. Nous proposons ensuite une méthode d'estimation de F0 isolées performante dans des conditions d'analyse difficiles qui sont réunies dans le cas du piano: les contraintes d'une fenêtre d'analyse courte et d'un registre étendu. L'estimation de F0 multiples et du degré de polyphonie est abordée via une modélisation conjointe paramétrique (autorégressive/à moyenne ajustée). Cette méthode spectrale s'intègre dans un système de TAM pour le piano analysant tout enregistrement avec des limites raisonnables en termes de polyphonie, de vélocité et de tessiture. Enfin, nous proposons de nouvelles métriques d’évaluation des transcriptions, un cadre d'évaluation de la qualité des métriques et une base de données de sons de piano pour l'estimation de F0 multiples et la TAM.
Automatic transcription of piano music
The automatic transcription of music (ATM) is related to audio indexing and music information retrieval. It aims at extracting the note-related information – onset, offset, pitch – from a digital recording. This thesis is focusing on ATM in the case of the piano, which causes poor transcription results with many state-of-the art systems and is a major solo instrument in Western music. The ATM being a complex problem, some specific aspects are investigated in order to specialize the task, as well as general topics such as pitch (F0) estimation and evaluation of the results. We first study a spectral characterization of piano sounds through the inharmonicity of partials, the modelling of the spectral envelope of the notes and of the noise. We then propose a single-F0 estimation method that gives satisfying results in adverse analysis conditions that are encountered with the piano: a short analysis frame together with a large F0 scale. The multi-F0 estimation task is addressed using a joint, parametric (autoregressive/moving average) model. This spectral approach is integrated in an ATM system for piano music, which is able to analyze any recording with common polyphony levels, virtuosity and F0 scale.
Cette thèse a donné lieu à une publication en 2009 par [CCSD] à Villeurbanne
Transcription automatique de la musique de piano