Apprentissage Statistique Relationnel pour l'Extraction d'information de contenu musical

par Magdalena Fuentes

Projet de thèse en Traitement du signal et des images

Sous la direction de Hélène Papadopoulos et de Slim Essid.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec L2S - Laboratoire des signaux et systèmes (laboratoire) , Signaux (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-11-2016 .


  • Résumé

    Ce projet de thèse a pour but de développer des techniques pour interagir avec de grandes bases données de signaux audio de musique. Ces signaux sont riches et complexes à la fois d'un point de vue physique (multiplicité des sources sonores, observations bruitées etc.) et d'un point de vue sémantique : ils portent des informations musicales interdépendantes etstructurées (mélodie, accords, rythme, etc.). Jusqu'à présent ces deux aspects ont été traités séparément. Les modèles probabilistes développés pour le traitement des signaux de musique prennent en compte l'incertitude de l'audio, mais ont une structure relationnelle limitée. Les approches basées sur la logique peuvent décrire une structure relationnelle complexe mais sont limitées à des représentations symboliques de la musique. Ce projet de thèse propose d'explorer le formalisme des réseaux de Markov logiques qui combine ces deux aspects afin de décrire la structure métrique hiérarchiques à plusieurs niveaux sémantiques d'un signal audio de musique.

  • Titre traduit

    Statistical Relational Learning for Music Information Retrieval


  • Résumé

    This PhD project aims to develop techniques for interacting with large data bases of music audio signals. These signals are complex both from a physical point of view (multiple sound sources, noisy observations, etc.) and a semantic point of view: they contain interdependent music information (melody, chords, rhythm, etc.). These two aspects have been treated separately so far. The probabilistic models developed for processing music signals take into account the uncertainty of the audio, but have limited relational structure. The approaches based on logic can describe a complex relational structure but are limited to symbolic representations of music. This thesis proposes to explore the formalism of Markov Logic Networks that combines these two aspects to describe the hierarchical metric structure of an audio signal of music, taking into account multiple features at various temporal levels using Deep Neural Networks.