Segmentation et indexation des signaux sonores musicaux

par Stéphane Rossignol

Thèse de doctorat en Physique

Sous la direction de Xavier Rodet.

Soutenue en 2000

à Paris 6 .

    mots clés mots clés


  • Pas de résumé disponible.


  • Pas de résumé disponible.


  • Résumé

    Ce travail concerne la segmentation et l'indexation des signaux sonores musicaux. Trois niveaux de segmentation interdependants sont definis, correspondant chacun a un niveau de description du son different. 1) le premier niveau, appele sources, concerne la distinction entre la parole et la musique. Les sons consideres peuvent provenir par exemple de bandes-son de films ou d'emissions radiophoniques. Des fonctions d'observation sont etudiees, qui tentent de mettre en evidence les proprietes differentes du signal de parole et du signal de musique. Plusieurs methodes de classification ont ete etudiees. Les performances du systeme avec des signaux reels sont discutees. 2) le deuxieme niveau, appele caracteristiques, concerne ce type d'index : silence/son, voise/non voise, harmonique/inharmonique, monophonique/polyphonique, avec vibrato/sans vibrato. La plupart de ces caracteristiques donnent lieu a des fonctions d'observation utilisees par le troisieme niveau. La detection du vibrato, l'estimation de ses parametres (frequence et amplitude) et sa suppression du trajet de f 0 ont ete particulierement etudiees. Un ensemble de techniques sont decrites. Les performances de ces techniques avec des sons reels sont discutees. Le vibrato est supprime du trajet de f 0 original afin d'obtenir une ligne melodique lissee. Alors, ce nouveau trajet de f 0 peut etre utilise pour la segmentation en notes (troisieme niveau) des extraits musicaux, et peut aussi etre utilise pour des modifications de ces sons. La detection du vibrato est operee seulement si lors du premier niveau de la musique a ete detectee. 3) le troisieme niveau concerne la segmentation en notes ou en phones ou plus generalement en parties stables, suivant la nature du son considere : instrumental, voix chantee, parole, son percussif l'analyse est composee de quatre etapes. La premiere consiste a extraire un grand nombre de fonctions d'observation. Une fonction d'observation est d'autant plus appropriee qu'elle presente des pics grands et fins quand des transitions surviennent et que sa moyenne et sa variance restent petites pendant les zones stables. Trois types de transitions existent : celles en f 0, celles en energie et celles en contenu spectral. En deuxieme lieu, chaque fonction d'observation est automatiquement seuillee. En troisieme lieu, une fonction de decision finale, correspondant aux marques de segmentation, est construite a partir des fonctions d'observation seuillees. Finalement, pour les sons monophoniques et harmoniques, la transcription automatique est effectuee. Les performances du systeme avec des sons reels sont discutees. Les donnees obtenues pour un certain niveau sont utilisees par les niveaux de numero d'ordre superieurs afin d'ameliorer leurs performances.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 294 p.
  • Annexes : 135 ref.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie. Section Biologie-Chimie-Physique Recherche.
  • Disponible pour le PEB
  • Cote : T Paris 6 2000 418
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : PMC RT P6 2000
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.