Transcription des signaux percussifs : application à l'analyse de scènes musicales audiovisuelles

par Olivier Gillet

Thèse de doctorat en Signal et images

Sous la direction de Gaël Richard.

Soutenue en 2007

à Paris, ENST .


  • Résumé

    Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique. Nous étudions d'abord le problème de la transcription de la piste de batterie d'enregistrements musicaux à partir de la modalité audio seule. Après avoir présenté des pré-traitements permettant d'accentuer cette piste, nous utilisons des techniques d'apprentissage statistique sur une large gamme d'attributs pour réaliser la transcription. Nous introduisons e��galement des approches supervisées et non supervisées pour améliorer la reconnaissance en exploitant la régularité des motifs rythmiques. Nous incorporons ensuite à ce système de transcription l'information visuelle provenant de caméras filmant le batteur. Différentes approches sont présentées pour détecter la position des éléments de la batterie dans la scène et pour associer les régions extraites à des catégories sonores. Des descripteurs d'intensité de mouvement sont ensuite utilisés pour la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio. Nous étendons enfin nos travaux aux clips vidéos, en tentant de mesurer de quelle manière la musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo à différents niveaux, nous définissons des mesures de synchronie sur les structures obtenues. Ces mesures, qui s'avèrent dépendantes du type de document musical, permettent des applications de recherche de musique par l'image.

  • Titre traduit

    Drum signal analysis : applications to music video analysis


  • Résumé

    This thesis establishes links between the fields of audio indexing and video sequence analysis, through the problem of drum signal analysis. In a first part, the problem of drum track transcription from polyphonic music signals is addressed. After having presented several pre-processings for drum track enhancement, and a large set of relevant features, a statistical machine learning approach to drum track transcription is proposed. Novel supervised and unsupervised sequence modeling methods are also introduced to enhance the detection of drum strokes by taking into account the regularity of drum patterns. We conclude this part by evaluating various drum track separation algorithms and by underlining the duality between transcription and source separation. In a second part, we extend this transcription system by taking into account the video information brought by cameras filming the drummer. Various approaches are introduced to segment the scene and map each region of interest to a drum instrument. Motion intensity features are then used to detect drum strokes. Our results show that a multimodal approach is capable of resolving some ambiguities inherent to audio-only transcription. In the final part, we extend our work to a broader range of music videos, which may not show the musicians. We particularly address the problem of understanding how a piece of music can be illustrated by images. After having presented or introduced new segmentation techniques for audio and video streams, we define synchrony measures on their structures. These measures can be used for both retrieval applications (music retrieval by video) or content classification.

Autre version

Cette thèse a donné lieu à une publication en 2007 par École nationale supérieure des télécommunications à Paris

Transcription des signaux percussifs : application à l'analyse de scènes musicales audiovisuelles


Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (282 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 262 réf. bibliogr. Index. Résumé en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.3 GILL
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.
Cette thèse a donné lieu à 1 publication .

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2007 par École nationale supérieure des télécommunications à Paris

Informations

  • Sous le titre : Transcription des signaux percussifs : application à l'analyse de scènes musicales audiovisuelles
  • Dans la collection : ENST , 2007E009 , 0751-1353
  • Détails : 1 vol. (282 p.)
  • Annexes : Bibliogr. p. 263-280. Index. Résumé en français et en anglais
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.