Thèse soutenue

Systèmes de recommandation musicale interprétables

FR  |  
EN
Auteur / Autrice : Darius Afchar
Direction : Vincent Guigue
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 07/12/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Marie-Jeanne Lesot
Examinateurs / Examinatrices : Romain Hennequin, Markus Schedl, Christine Bauer
Rapporteurs / Rapporteuses : Timothy Miller, Gaël Richard

Résumé

FR  |  
EN

« Pourquoi est-ce qu’on me recommande toujours les même musiques ? » « Pourquoi notre système recommande-t’il cela aux utilisateurs ? » De nos jours, les plateformes de streaming sont le moyen le plus courant d'écouter de la musique enregistrée. Pourtant, les recommandations musicales — au cœur de ces plateformes — sont loin d’être une mince affaire. Il arrive parfois qu’utilisateurs et ingénieurs soient tout aussi perplexes du comportement d’un système de recommandation musicale (SRM). Les SRM ont été utilisés avec succès pour aider à explorer des catalogues comptant des dizaines de millions de titres musicaux. Construits et optimisés pour la précision, les SRM industriels sont souvent assez complexes. Ils peuvent en outre dépendre de nombreux modules interconnectés qui, notamment, analysent les signaux audio, récupèrent les métadonnées d’albums et artistes et les interactions des utilisateurs du service, et estiment des similarités basées sur du filtrage collaboratif. Cette complexité va en l’encontre de la capacité d'expliquer les recommandations et, plus généralement, ces systèmes. Pourtant, les explications sont essentielles pour fidéliser des utilisateurs sur le long termes avec un système qu'ils peuvent comprendre (et pardonner), et pour les propriétaires du système pour rationaliser les erreurs dudit système. L'interprétabilité peut également être nécessaire pour vérifier l'équité d'une décision ou peut être envisagées comme un moyen de rendre les recommandations plus contrôlables. Nous pouvons également récursivement demander : pourquoi une méthode d'explication explique-t-elle d'une certaine manière ? Cette explication est-elle pertinente ? Quelle pourrait être une meilleure explication ? Toutes ces questions sont liées à l'interprétabilité des SRM. Dans une première partie, nous explorons les multiples visages de l'interprétabilité dans diverses tâches de recommandation. En effet, puisqu'il n'y a pas une seule tâche de recommandation mais plusieurs (e.g., recommandation séquentielle, continuation de playlists, similarité artistes), ainsi que de nombreuses modalités de représentation de la musique (e.g., métadonnées, signaux audio, plongements), il y a autant de tâches possibles d’explications nécessitant des ajustements. Notre étude a été guidée par l’exploration des modalités sus-mentionnées : l'interprétation des signaux implicites utilisateurs, des caractéristiques, des signaux audio, et des inter-similarités. Notre thèse présente plusieurs nouvelles méthodes pour l'IA explicable (XAI) et plusieurs résultats théoriques, portant un nouvel éclairage sur notre compréhension des méthodes passées. Néanmoins, les méthodes d’explications peuvent à leur tour manquer d'interprétabilité. C'est pourquoi, une deuxième partie, nous avons jugé essentiel de prendre du recul par rapport aux discours habituels de l’IA et d'essayer de répondre à une question paradoxalement peu claire pour l’XAI : « Qu'est-ce que l'interprétabilité ? » En s'appuyant sur des concepts issus des sciences sociales, nous soulignons qu'il existe un décalage entre la manière dont les explications de l'XAI sont générées et la manière dont les humains expliquent réellement. Nous suggérons que la recherche actuelle a tendance à trop s'appuyer sur des intuitions et des réductions hâtive de réalités complexes en termes mathématiques commodes, conduisant à ériger des hypothèses en normes discutables (e.g., la parcimonie entraîne l'interprétabilité). Nous avons pensé cette partie comme un tutoriel destiné aux chercheurs en IA afin de renforcer leur connaissance des explications avec un vocabulaire précis et une perspective plus large. Nous résumons des conseils pratiques et mettons en évidence des branches moins populaires de l'XAI mieux alignées avec l’humain. Cela nous permet de formuler une perspective globale pour notre domaine de l'XAI, y compris ses prochaines étapes les plus critiques et prometteuses ainsi que ses lacunes à surmonter.