Thèse soutenue

Apprentissage de représentations audio pour la synthèse musicale et l'interaction

FR  |  
EN
Auteur / Autrice : Adrien Bitton
Direction : Carlos AgónPhilippe Esling
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/06/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Sciences et technologies de la musique et du son (Paris ; 1983-....)
Jury : Président / Présidente : Jean-Pierre Briot
Examinateurs / Examinatrices : Dorien Herremans, Bob Sturm, Myriam Desainte-Catherine
Rapporteurs / Rapporteuses : Philippe Pasquier, Charalampos Saitis

Résumé

FR  |  
EN

La musique assistée par ordinateur fait beaucoup usage de librairies d’échantillons audios et d'instruments numériques qui offrent des possibilités de composition sans précédent. L’abondance des matériaux sonores disponibles nécessite de nouvelles méthodes d’interaction en adéquation avec ceux-ci sans quoi le parcours des échantillons audios est inefficace et arbitraire. En effet, les métadonnées qui structurent traditionnellement ces librairies ne peuvent que traduire grossièrement les caractéristiques acoustiques des différentes catégories sonores. Notamment, les variations continues du timbre musical ne sont pas exprimées alors qu’elles jouent un rôle significatif dans la production et la créativité musicale. Les progrès des modèles d’apprentissage génératif ont démontré des capacités sans précédent pour le traitement des données à grande échelle. Ces méthodes probabilistes permettent la construction d’espaces non supervisés pour la synthèse de données et ont permis de nouvelles interactions telles que la conversion automatique d’images et la manipulation d’attributs perceptifs et stylistiques. Au cours de cette thèse, nous développons des techniques d’analyse/synthèse efficaces basées sur les modèles auto-encodeurs afin d’apprendre des représentations acoustiques inversibles de basse dimensionnalité pour la manipulation intuitive du timbre musical. En premier lieu, nous adaptons les techniques non supervisées de conversion d’images au transfert de propriétés de timbre. Ensuite, nous introduisons de nouveaux modèles pour l’apprentissage explicite de représentations du timbre musical et l’échantillonnage avec contrôle des propriétés acoustiques et sémantiques.