Transcription automatique des paroles de chansons

par Andrea Vaglio

Projet de thèse en Traitement du signal et des images

Sous la direction de Gaël Richard et de Romain Hennequin.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) , S2A - Statistique et Apprentissage (equipe de recherche) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 01-06-2018 .


  • Résumé

    Ce projet de thèse vise à concevoir, évaluer et optimiser un système de transcription automatique des paroles de chansons à partir de l'enregistrement audio de celles-ci. La transcription automatique des paroles de chansons s'apparente à la reconnaissance automatique de la parole (voix parlée) mais présente des difficultés particulières qui sont autant de challenges à relever. En effet, la voix chantée possède une variabilité phonétique plus importante (et notamment en ce qui concerne la durée des phonèmes ou la plage de variations possibles pour la fréquence fondamentale) mais également une variation plus importante dans le style de voix utilisé considérant les différents genres musicaux. Enfin, la présence de musique à fort niveau sonore et souvent fortement corrélée avec la voix chantée rend le problème de transcription particulièrement difficile. Il est ainsi proposé ici de s'inspirer fortement des techniques modernes d'apprentissage profond utilisées en reconnaissance automatique de la parole (voix parlée), de les adapter au contexte particulier de la voix chantée dans les chansons et de les combiner avec des principes avancés de séparation de voix chantée qui permettent de diminuer la présence de la musique d'accompagnement.

  • Titre traduit

    Automatic lyrics transcription


  • Résumé

    Automatic music analysis, and in particular Music Information Retrieval (MIR), has recently overcome many theoretical and practical obstacles. Taking advantages of several progresses in image processing, speech processing and other specific developments, MIR is now a well-known research field while being widely used in industrial contexts. While the field of Speech Transcription has witnessed tremendous progresses in particular due to the recent development in deep neural networks , the specific goal of lyrics transcription remains almost unexplored: some attempt were done on a-capella tracks and on tracks with polyphonic accompaniment with a vocal separation step as a pre-processing or using the common repetition in the lyrics [6], but the performances of the systems were quite poor. The general case of lyrics transcription from songs with accompaniment seems to remain a very difficult problem with different challenges than those of speech transcription: the music (e.g. accompaniment) can be considered as an important background noise which presents important dependencies or correlation with the signal of interest since the vocalist usually sings in harmony and in rhythm with the accompaniment. In addition, a song is an object of art with variable form and intelligibility of lyrics with potential huge phonemes pronunciation difference from artists. All this makes the task particularly challenging. This PhD thesis then aims at proposing systems that are able to automatically transcribe the lyrics of a song from its audio recording.