Modélisation multi-échelle et multi-dimensionnelle de la structure musicale par graphes polytopiques

par Corentin Louboutin

Thèse de doctorat en Informatique

Sous la direction de Frédéric Bimbot.

Soutenue le 13-03-2019

à Rennes 1 , dans le cadre de MATHSTIC , en partenariat avec Universite Bretagne Loire (ComuE) , Institut de recherche en informatique et systèmes aléatoires (Rennes) (laboratoire) et de PANAMA (laboratoire) .


  • Résumé

    Il est raisonnable de considérer qu'un auditeur ne perçoit pas la musique comme une simple séquence de sons, pas plus que le compositeur n'a conçu son morceau comme tel. La musique est en effet constituée de motifs dont l'organisation intrinsèque et les relations mutuelles participent à la structuration du propos musical, et ce à plusieurs échelles simultanément. Cependant, il est aujourd'hui encore très difficile de définir précisément le terme de concept musicale. L'un des principaux aspects de la musique est qu'elle est en grande partie constituée de redondances, sous forme de répétitions exactes et variées. L'organisation de ces redondances permet de susciter une attente chez l'auditeur. Une surprise peut alors être créée en présentant des éléments qui ne correspondent pas à cette attente. Ce travail de thèse se base sur l'hypothèse que les redondances, l'attente et la surprise sont des éléments essentiels pour la description de la structure musicale d'un segment. Un certain nombre de questions découlent de ce constat: quels sont les éléments musicaux qui participent à la structure d'un objet musical ? Quelles sont les dépendances entre ces éléments qui jouent un rôle essentiel dans la structuration d'un objet musical ? Comment peut-on décrire une relation entre deux éléments musicaux tels que des accords, des motifs rythmiques ou mélodiques ? Dans ce manuscrit, des éléments de réponse sont proposés par la formalisation et l'implémentation d'un modèle multi-échelle de description de la structure d'un segment musical : les Graphes Polytopiques à Relations Latentes (GPRL/PGLR). Dans ce travail, les segments considérés sont les sections successives qui forment une pièce musicale. Dans le cas de la pop, genre musical sur lequel se concentre ce travail, il s'agit typiquement d'un couplet ou d'un refrain, de 15 sec. environ, comprenant un début et une fin bien définis. En suivant le formalisme PGLR, les relations de dépendance prédominantes entre éléments musicaux d'un segment sont celles qui relient les éléments situés à des positions homologues sur la grille métrique du segment. Cette approche généralise sur le plan multi-échelle le modèle Système&Contraste qui décrit sous la forme d'une matrice 2×2 le système d'attente logique au sein d'un segment et la surprise qui découle de la réalisation de cette attente. Pour des segments réguliers de taille 2^n, le PGLR peut être représenté sur un n-cube (carré, cube, tesseract, ...), où n est le nombre d'échelles considérées. Chaque nœud du polytope correspond à un élément musical fondamental (accord, motif, note...), chaque arête représente une relation entre deux nœuds et chaque face représente un système de relations. La recherche du PGLR correspondant à la meilleure description de la structure d'un segment musical s'opère par l'estimation jointe : de la description du polytope (un n-polytope plus ou moins régulier) ; de la configuration du graphe sur le polytope, permettant de décrire le flux de dépendance et les interactions entre les éléments par des implications élémentaires systémiques au sein du segment ; la description de l'ensemble des relations entre les nœuds du graphe. Le but du modèle PGLR est à la fois de décrire les dépendances temporelles entre les éléments d'un segment et de modéliser l'attente logique et la surprise qui découlent de l'observation et de la perception des similarités et des différences entre ces éléments. Cette approche a été formalisée et implémentée pour décrire la structure de séquences d'accords ainsi que de segments rythmiques et mélodiques, puis évaluée par sa capacité à prédire des segments inconnus. La mesure utilisée pour cette évaluation est la perplexité croisée calculée à partir des données du corpus RWC POP. Les résultats obtenus donnent un large avantage à la méthode multi-échelle proposée, qui semble mieux à même de décrire efficacement la structure des segments testés.

  • Titre traduit

    Multi-scale and multi-dimensional modelling of music structure using polytopic graphs


  • Résumé

    In this thesis, we approach these questions by defining and implementing a multi-scale model for music segment structure description, called Polytopic Graph of Latent Relations (PGLR). In our work, a segment is the macroscopic constituent of the global piece. In pop songs, which is the main focus here, segments usually correspond to a chorus or a verse, lasting approximately 15 seconds and exhibiting a clear beginning and end. Under the PGLR scheme, relationships between musical elements within a musical segment are assumed to be developing predominantly between homologous elements within the metrical grid at different scales simultaneously. This approach generalises to the multi-scale case the System&Contrast framework which aims at describing, as a 2×2 square matrix, the logical system of expectation within a segment and the surprise resulting from that expectation. For regular segments of 2^n events, the PGLR lives on a n-dimensional cube (square, cube, tesseract, etc...), n being the number of scales considered simultaneously in the multi-scale model. Each vertex in the polytope corresponds to a low-scale musical element, each edge represents a relationship between two vertices and each face forms an elementary system of relationships. The estimation of the PGLR structure of a musical segment can then be obtained computationally as the joint estimation of : the description of the polytope (as a more or less regular n-polytope) ; the nesting configuration of the graph over the polytope, reflecting the flow of dependencies and interactions as elementary implication systems within the musical segment, the set of relations between the nodes of the graph. The aim of the PGLR model is to both describe the time dependencies between the elements of a segment and model the logical expectation and surprise that can be built on the observation and perception of the similarities and differences between elements with strong relationships. The approach is presented conceptually and algorithmically, together with an extensive evaluation of the ability of different models to predict unseen data, measured using the cross-perplexity value. These experiments have been conducted both on chords sequences, rhythmic and melodic segments extracted from the RWC POP corpus. Our results illustrate the efficiency of the proposed model in capturing structural information within such data.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Bibliothèque de ressources en ligne.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.