Variability tolerant discovery of arbitrary repeating patterns in audio data with template matching

par Armando Muscariello

Thèse de doctorat en Informatique

Sous la direction de Frédéric Bimbot.

Soutenue en 2011

à Rennes 1 .

  • Titre traduit

    Découverte de motifs dans les grandes volumes de données audio


  • Résumé

    Rather than infinitely innovative, real audio data, like spoken documents or broadcast TV and radio data, is made by many variable patterns that repeat. Discovering the location of such repetitions, hereinafter called motifs, helps inferring structural properties of acoustic data, easing the access through relevant part of the data, or allowing for summarization of massive documents by a collection of few peculiar items. This thesis details our efforts in designing and implementing an unsupervised motif discovery architecture, and show its applicability to a word and near duplicate discovery scenarios. As far as the methodology is concerned, discovery is performed in a totally unsupervised way, which means that no prior acoustic or linguistic knowledge on the data is provided nor information on motif occurrences, length, intra-class variability. Our solution is based on the integration of a sequential data processing technique that exploits local repetitiveness of real streams, and a variant of dynamic time warping to deal with the unknown endpoint location of pattern units within the continuous stream. Building on this architecture, a template matching technique based on the self similarity matrices of speech sequences is introduced and coupled with the DTW-based one, to improve robustness to speech variability. Furthermore, the applicability of the system is demonstrated on a song discovery task on several days of audio stream. To adapt the system to the large occurrence period of songs in real radio channels, techniques for speeding up the computation time are implemented, based on downsampling of feature sequences.


  • Résumé

    Les données audio, comme les documents oraux ou télévisés ou les données radio, sont composées par de nombreux sequences variables qui se répètent. La découverte de l’emplacement de ces répétitions, ci-après dénommé motifs, aide à déduire les propriétés structurelles de données acoustiques, ce qui facilite l’accès à la partie pertinente des données, et qui permets de résumér des grands documents par un ensemble de quelques éléments particuliers. Cette thèse détails nos efforts dans la conception et la mise en oeuvre d’une architecture non supervisée de découverte de motifs, et montres son applicabilité dans une tâche de decouverte des mots et des segments peu variables comme des chansons. En ce qui concerne la méthodologie, la découverte est réalisée d’une manière totalement non supervisée, ce qui signifie que aucune connaissance acoustiques ou linguistiques sur les données est fournie. Notre solution est basée sur l’intégration d’une technique de traitement de données séquentielle qui exploits la répétitivité local du motifs réel, et une variante segmentale de l’alignement temporel dynamique. En s’appuyant sur cette architecture, une technique pour la comparaison de sequences basée sur leurs matrices d autosimilarité de est introduite, pour améliorer la robustesse à la variabilité du signal de parole. En outre, l’applicabilité du système est démontrée sur une tâche de découverte de chansons sur plusieurs jours de flux audio. Pour adapter le système à cette tâche, des techniques pour accélérer le temps de calcul sont mises en oeuvre, basées sur le sous-échantillonnage des séquences.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (VII-147 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 141-147

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2011/13
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.