Thèse soutenue

Apprentissage métrique pour la recommandation vidéo-musique

FR  |  
EN
Auteur / Autrice : Laure Prétet
Direction : Geoffroy PeetersGaël Richard
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA: Signal, Images, Automatique et Robotique
Date : Soutenance le 24/01/2022
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Frédéric Bevilacqua
Examinateurs / Examinatrices : Geoffroy Peeters, Gaël Richard, Frédéric Bevilacqua, Jenny Benois Pineau, Estefanía Cano, Guillaume Gravier, Stéphane Lathuiliere, Alexander Schindler
Rapporteurs / Rapporteuses : Frédéric Bevilacqua, Jenny Benois Pineau

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

À l'écran, la musique permet de communiquer, à travers des codes culturels établis, des émotions ou des éléments narratifs clés. Cette communication repose non seulement sur un choix judicieux de morceaux pour la bande son, mais aussi sur leur synchonisation avec les événements saillants de la vidéo. La tâche qui consiste à conseiller et réaliser cette association est au centre de l'industrie de la supervision musicale, et s'effectue traditionnellement à la main. Dans cette thèse, l'on étudie l'automatisation des tâches liées à la supervision musicale. La quête de la musique idéale n'a généralement pas de solution unique, puisqu'en plus de l'analyse des contenus audiovisuels, il faut tenir compte de contraintes légales et budgétaires. Nous procédons donc par recommandation. Alors qu'une quantité toujours croissante de musique est produite chaque jour, il est raisonnable d'envisager une approche par apprentissage. Plus précisément, nous utilisons l'apprentissage métrique pour produire des représentations communes aux données musicales et visuelles. Dans un premier temps, nous abordons un problème de similarité musicale, dont le but est d'élargir le champ de recherche dans les catalogues musicaux. Nous implémentons une imitation efficace d'une métrique de similarité par critères, applicable directement aux fichiers audio non annotés. Cette méthode repose sur des réseaux de neurones convolutionnels entraînés à reproduire des listes de recommandation. Puis, nous nous concentrons sur la recommandation directe de musique à partir d'une vidéo. Nous adaptons un système autodidacte simple et montrons comment en améliorer les performances, grâce à de meilleures représentations audio en entrée et un apprentissage de leur agrégation temporelle. Nous menons ensuite une étude quantitative et qualitative sur les clips musicaux, afin de mieux comprendre comment y sont articulés les événements audio et vidéo. Nos résultats démontrent avec quel soin la musique et l'image peuvent être synchronisés, mais aussi que le niveau de co-occurrence des différents événements dépend de plusieurs critères, tels que le genre musical ou vidéo. À partir de ce constat, nous présentons le premier système de recommandation dédié à la supervision musicale : le Seg-VM-Net, qui tient compte à la fois du contenu et de la structure pour apparier musiques et vidéos.