Thèse soutenue

Evaluation de la qualité esthétique d'image par apprentissage profond

FR  |  
EN
Auteur / Autrice : Chen Kang
Direction : Giuseppe ValenziseFrédéric Dufaux
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et des images
Date : Soutenance le 14/12/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire des signaux et systèmes (Gif-sur-Yvette, Essonne ; 1974-....)
Référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
Jury : Président / Présidente : Sylvie Le Hégarat
Examinateurs / Examinatrices : Rémi Cozot, Lu Zhang, Patrick Le Callet, Aladine Chetouani
Rapporteurs / Rapporteuses : Rémi Cozot, Lu Zhang

Résumé

FR  |  
EN

Avec le développement des dispositifs de capture et d'Internet, les gens accèdent à un nombre croissant d'images. L'évaluation de l'esthétique visuelle a des applications importantes dans plusieurs domaines, de la récupération d'image et de la recommandation à l'amélioration. L'évaluation de la qualité esthétique de l'image vise à déterminer la beauté d'une image pour les observateurs humains. De nombreux problèmes dans ce domaine ne sont pas bien étudiés, y compris la subjectivité de l'évaluation de la qualité esthétique, l'explication de l'esthétique et la collecte de données annotées par l'homme. La prédiction conventionnelle de la qualité esthétique des images vise à prédire le score moyen ou la classe esthétique d'une image. Cependant, la prédiction esthétique est intrinsèquement subjective, et des images avec des scores / classe esthétiques moyens similaires peuvent afficher des niveaux de consensus très différents par les évaluateurs humains. Des travaux récents ont traité de la subjectivité esthétique en prédisant la distribution des scores humains, mais la prédiction de la distribution n'est pas directement interprétable en termes de subjectivité et pourrait être sous-optimale par rapport à l'estimation directe des descripteurs de subjectivité calculés à partir des scores de vérité terrain. De plus, les étiquettes des ensembles de données existants sont souvent bruyantes, incomplètes ou ne permettent pas des tâches plus sophistiquées telles que comprendre pourquoi une image est belle ou non pour un observateur humain. Dans cette thèse, nous proposons tout d'abord plusieurs mesures de la subjectivité, allant de simples mesures statistiques telles que l'écart type des scores, aux descripteurs nouvellement proposés inspirés de la théorie de l'information. Nous évaluons les performances de prédiction de ces mesures lorsqu'elles sont calculées à partir de distributions de scores prédites et lorsqu'elles sont directement apprises à partir de données de vérité terrain. Nous constatons que cette dernière stratégie donne en général de meilleurs résultats. Nous utilisons également la subjectivité pour améliorer la prédiction des scores esthétiques, montrant que les mesures de subjectivité inspirées de la théorie de l'information fonctionnent mieux que les mesures statistiques. Ensuite, nous proposons un ensemble de données EVA (Explainable Visual Aesthetics), qui contient 4070 images avec au moins 30 votes par image. EVA a été collecté en utilisant une approche plus disciplinée inspirée des meilleures pratiques d'évaluation de la qualité. Il offre également des caractéristiques supplémentaires, telles que le degré de difficulté à évaluer le score esthétique, l'évaluation de 4 attributs esthétiques complémentaires, ainsi que l'importance relative de chaque attribut pour se forger une opinion esthétique. L'ensemble de données accessible au public devrait contribuer aux recherches futures sur la compréhension et la prédiction de l'esthétique de la qualité visuelle. De plus, nous avons étudié l'explicabilité de l'évaluation de la qualité esthétique de l'image. Une analyse statistique sur EVA démontre que les attributs collectés et l'importance relative peuvent être combinés linéairement pour expliquer efficacement les scores d'opinion moyenne esthétique globale. Nous avons trouvé que la subjectivité a une corrélation limitée avec la difficulté personnelle moyenne dans l'évaluation esthétique, et la région du sujet, le niveau photographique et l'âge affectent de manière significative l'évaluation esthétique de l'utilisateur.