Thèse soutenue

Optimisation perceptuelle et réduction de complexité d’encodage vidéo dans un contexte temps-réel

FR  |  
EN
Auteur / Autrice : Madhukar Bhat
Direction : Patrick Le Callet
Type : Thèse de doctorat
Discipline(s) : Traitement des images et du signal
Date : Soutenance le 07/06/2021
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Luce Morin
Examinateurs / Examinatrices : Joël Jung, Jean-Marc Thiesse
Rapporteurs / Rapporteuses : Mathias Wien, Marco Cagnazzo

Mots clés

FR

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

Cette thèse explore l’optimisation perceptuelle et la réduction de la complexité afin d’améliorer les schémas de compression vidéo dans un contexte d’encodage temps réel. Le travail est divisé en trois parties qui proposent plusieurs types d’amélioration. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre est paramétrable pour plusieurs conditions de visualisation, nous proposons des réglages optimisés pour deux conditions standards. Une étude sur la précision de différentes métriques de qualité visuelle dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d’encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d’évaluer et piloter le gain perceptuel à un débit donné, plusieurs métriques de qualité visuelle ont ensuite été caractérisées et comparées. Ceci a été mené pour plusieurs niveaux de qualité du point de vue de l’incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique basée sur RF, perceptuellement plus précise, a été introduite pour la formation des classificateurs. Le troisième ensemble de contributions se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : les critères de décision pour le partitionnement Multi-Type Tree. Une nouvelle méthode de décision de partitionnement basée Apprentissage Machine est proposée couvrant tous les types de partitionnement en intra et inter et particulièrement appropriée pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une approche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées.