Thèse soutenue

Méthodes d'apprentissage automatique pour la transcription automatique de la batterie

FR  |  
EN
Auteur / Autrice : Céline Jacques
Direction : Axel Roebel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/04/2019
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Sciences et technologies de la musique et du son (Paris ; 1983-....)
Jury : Président / Présidente : Bertrand David
Examinateurs / Examinatrices : Carlos Agón, Jimena Royo-Letelier, Emmanuel Vincent
Rapporteurs / Rapporteuses : Sylvain Marchand, Gaël Richard

Résumé

FR  |  
EN

Cette thèse se concentre sur les méthodes d’apprentissage pour la transcription automatique de la batterie. Elles sont basées sur un algorithme de transcription utilisant une méthode de décomposition non-négative, la NMD. Cette thèse soulève deux principales problématiques : l’adaptation des méthodes au signal analysé et l’utilisation de l’apprentissage profond. La prise en compte des informations du signal analysé dans le modèle peut être réalisée par leur introduction durant les étapes de décomposition. Une première approche est de reformuler l’étape de décomposition dans un contexte probabiliste pour faciliter l’introduction d’informations a posteriori avec des méthodes comme la SI-PLCA et la NMD statistique. Une deuxième approche est d’implémenter directement dans la NMD une stratégie d’adaptation : l’application de filtres modelables aux motifs pour modéliser les conditions d’enregistrement ou l’adaptation des motifs appris directement au signal en appliquant de fortes contraintes pour conserver leur signification physique. La deuxième approche porte sur la sélection des segments de signaux à analyser. Il est préférable d’analyser les segments où au moins un événement percussif a lieu. Un détecteur d’onsets basé sur un réseau de neurones convolutif (CNN) est adapté pour détecter uniquement les onsets percussifs. Les résultats obtenus étant très intéressants, le détecteur est entraîné à ne détecter qu’un seul instrument permettant la réalisation de la transcription des trois principaux instruments de batterie avec trois CNN. Finalement, l’utilisation d’un CNN multi-sorties est étudiée pour transcrire la partie de batterie avec un seul réseau.