Apprentissage métrique pour la recommandation vidéo-musique
Auteur / Autrice : | Laure Prétet |
Direction : | Geoffroy Peeters, Gaël Richard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, données, IA: Signal, Images, Automatique et Robotique |
Date : | Soutenance le 24/01/2022 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....) |
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) | |
Jury : | Président / Présidente : Frédéric Bevilacqua |
Examinateurs / Examinatrices : Geoffroy Peeters, Gaël Richard, Frédéric Bevilacqua, Jenny Benois Pineau, Estefanía Cano, Guillaume Gravier, Stéphane Lathuiliere, Alexander Schindler | |
Rapporteurs / Rapporteuses : Frédéric Bevilacqua, Jenny Benois Pineau |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
À l'écran, la musique permet de communiquer, à travers des codes culturels établis, des émotions ou des éléments narratifs clés. Cette communication repose non seulement sur un choix judicieux de morceaux pour la bande son, mais aussi sur leur synchonisation avec les événements saillants de la vidéo. La tâche qui consiste à conseiller et réaliser cette association est au centre de l'industrie de la supervision musicale, et s'effectue traditionnellement à la main. Dans cette thèse, l'on étudie l'automatisation des tâches liées à la supervision musicale. La quête de la musique idéale n'a généralement pas de solution unique, puisqu'en plus de l'analyse des contenus audiovisuels, il faut tenir compte de contraintes légales et budgétaires. Nous procédons donc par recommandation. Alors qu'une quantité toujours croissante de musique est produite chaque jour, il est raisonnable d'envisager une approche par apprentissage. Plus précisément, nous utilisons l'apprentissage métrique pour produire des représentations communes aux données musicales et visuelles. Dans un premier temps, nous abordons un problème de similarité musicale, dont le but est d'élargir le champ de recherche dans les catalogues musicaux. Nous implémentons une imitation efficace d'une métrique de similarité par critères, applicable directement aux fichiers audio non annotés. Cette méthode repose sur des réseaux de neurones convolutionnels entraînés à reproduire des listes de recommandation. Puis, nous nous concentrons sur la recommandation directe de musique à partir d'une vidéo. Nous adaptons un système autodidacte simple et montrons comment en améliorer les performances, grâce à de meilleures représentations audio en entrée et un apprentissage de leur agrégation temporelle. Nous menons ensuite une étude quantitative et qualitative sur les clips musicaux, afin de mieux comprendre comment y sont articulés les événements audio et vidéo. Nos résultats démontrent avec quel soin la musique et l'image peuvent être synchronisés, mais aussi que le niveau de co-occurrence des différents événements dépend de plusieurs critères, tels que le genre musical ou vidéo. À partir de ce constat, nous présentons le premier système de recommandation dédié à la supervision musicale : le Seg-VM-Net, qui tient compte à la fois du contenu et de la structure pour apparier musiques et vidéos.