Nouvelles techniques de compression pour le codage vidéo prochaine-génération

par Anthony Nasrallah

Projet de thèse en Traitement du signal et des images

Sous la direction de Marco Cagnazzo.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) , MM : MultiMédia (equipe de recherche) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 01-12-2018 .


  • Résumé

    Contexte La visualisation de contenus vidéo a été révolutionnée en une décennie avec l'apparition de services de vidéo à la demande, de web-télé, de sites de partage de vidéos, de service de diffusion en direct pour les particuliers, et des plateformes de diffusion offertes par les reseaux sociaux. Ceci a conduit à une explosion du trafic internet. Selon une étude récente de Cisco [1], le trafic internet lié à la vidéo va quadrupler entre 2016 et 2021 et représentera 81% du trafic internet global. L'apparition de nouveaux contenus vidéo tels que la vidéo 360, la Réalité Virtuelle (RV), le High Frame Rate (HFR) et l'avènement de très grandes résolutions spatiale 8K voire 16K conduit à une augmentation significative de la quantité de données à transmettre. Ces nouveaux contenus combinés à la forte augmentation du trafic vidéo sur internet nécessitent la mise en oeuvre de techniques de compression vidéo encore plus efficaces que celles existantes pour limiter l'augmentation des débits et assurer une meilleure qualité de service aux utilisateurs. En conséquence, les groupes de normalisation ISO/IEC MPEG et ITU-T VCEG, réunis dans un collectif commun dénommé Joint Video Experts Team (JVET), ont entamé en 2015 des travaux exploratoires, dans le but de prouver que des gains de codage peuvent être obtenus par rapport à la norme vidéo la plus récente, H.265 / HEVC [2], finalisée début 2013. Un modèle de test exploratoire a donc été mis en place, et les nouveaux outils de codage qui y ont été proposés permettent d'ores et déjà une réduction de débit entre 25% et 30% par rapport à HEVC [3]. Ceci a motivé JVET à lancer une activité formelle de standardisation dans le but d'atteindre 50% de gain de codage par rapport à HEVC à l'horizon 2021. Un appel à contributions [4] (Call for Proposal - CfP) a ainsi été lancé, et les très nombreuses réponses à cet appel ont été évaluées au 122ème meeting MPEG à San Diego (avril 2018). Suite à cela, un modèle de test pour le nouveau standard, baptisé Versatile Video Coding (VVC), a été mis en place [5]. Le modèle part de HEVC avec moins d'outils (avec tout de même une nouvelle structure de partitionnements de blocs) laissant ainsi pleinement la place à une contribution massive. C'est dans ce contexte que s'inscrit justement cette thèse. L'objectif est donc de proposer des outils de compression permettant d'augmenter l'efficacité de codage par rapport à l'état de l'art, à savoir HEVC. La difficulté réside en le fait que HEVC est déjà assez performant, et qu'il devient de plus en plus difficile d'obtenir des gains au dessus d'une base assez efficace. Pour atteindre cet objectif, plusieures voies sont envisageables. Pistes proposées Approches conventionnelles de compression vidéo Dans un premier temps, les propositions de cette thèse peuvent prendre la forme de contributions en normalisation pour VVC. Outre la veille technologique constante que devra faire le thésard sur tous les outils qui seront adoptés dans le standard, ce qui le maintiendra au plus haut niveau d'information, l'avantage de telles contributions c'est qu'elles sont en général bien définies en avance, et relativement facilement implémentables et testables. En contrepartie, une potentielle adoption dans le standard impose des contraintes fortes aux contributions, en termes par exemple de complexité au décodeur, de dépendances au niveau du parsing, de bande passante mémoire ou de possibilité de parallélisation des calculs. L'une des pistes envisagées est la dérivation d'information de prédiction côté décodeur. En effet, l'augmentation des modes de prédiction améliore la précision des prédictions et donne des résidus moins énergétiques, ce qui donne, à son tour, une réduction de débit. Néanmoins, plus de modes de prédiction implique davantage de signalisation à envoyer dans le train binaire pour informer le décodeur des choix qui ont été faits à l'encodeur. Les gains mentionnés précédemment sont donc largement compensés par la signalisation rajoutée. Si l'information de prédiction était dérivée au décodeur (le décodeur n'est plus passif, mais devient actif d'où la notion de décodeur intelligent), il sera inutile de la signaler, d'où un gain dans la signalisation. A noter par contre que les calculs au décodeur reposent sur les pixels reconstruits uniquement. Ainsi, l'information de prédiction dérivée peut être moins bonne qu'une estimée à l'encodeur avec les vrais pixels source. Ainsi, selon les cas, le compromis peut être plus ou moins intéressant. Bien que les techniques de ce type ont longtemps été étudiées [6-9], mais écartées de la normalisation à cause de l'augmentation de la complexité de décodage qu'elles engendrent, dans le contexte actuel -avec l'augmentation de puissance des processeurs et des chips de décodage hardware- elles trouvent pleinement leur place. En effet, plusieurs outils dans le JEM ont été proposés dans lesquels les informations de prédiction (typiquement, les vecteurs de mouvement) sont soit dérivées, soit raffinées au décodeur avec l'utilisation de template matchings. Nous pouvons citer par exemple les outils Frame Rate Up Conversion (FRUC), BI-directionnal Optical flow (BIO) ou le Decoder Motion Vector Refinement (DMVR) [3]. Pour la réponse au CfP, plusieures solutions, incluant des outils de type décodage intelligent, ont également été proposées [10-11]. Il est par conséquent fort probable que de tels outils se retrouvent dans le standard final. Une autre piste envisagée concerne l'amélioration des filtres dans la boucle de codage. A cet égard, un filtre dénommé Adaptive Loop Filter (ALF) a été proposé dans le JEM [3]. Ce filtre, déjà envisagé pour adoption dans HEVC à l'époque, donne des gains de codage significatifs, qui prouvent l'intérêt de contributions dans cette partie du codec. Les transformées peuvent également être visitées dans le cadre de cette thèse, car la multiplication des noyaux de transformées, proposée dans le JEM [3] et présente dans le standard vidéo AV1 [12], a également fait ses preuves en termes de gains de codage. Approches en rupture avec les outils de compression classiques Dans un second temps, une approche en rupture avec les méthodes de compression classiques peut être envisagée. Un des éléments de force des techniques de codage vidéo conventionnelles a été la capacité de produire plusieurs modèles différents des données à coder et de les mettre en compétition (dans le sense débit-distorsion) pour ensuite en choisir le plus efficace. Ces modèles sont de plus en plus complexes : par exemple, la prédiction Intra utilise un nombre croissant de directions d'interpolation ; la prédiction Inter peut combiner de façon flexible de blocs de pixels provenant d'image différentes, du passé comme du futur. Néanmoins, le modèle génératif sous-jacent reste relativement simple et consiste dans l'interpolation ou l'extrapolation (réplication) ou la combinaison linéaire des pixels des images décodées. D'autre part, récemment les modèles basés sur l'apprentissage profond (ou deep-learning, DL) ont une capacité de représentation beaucoup plus importante, pouvant, en théorie, approximer n'importe quelle fonction. Par conséquent, des premiers codeurs d'image basés sur le DL ont été proposés dans les deux dernières années [13-18]. Ces codeurs sont basé sur l'architecture des auto-encoders et ils apprennent à reproduire leur entrée avec un goulot d'étranglement qui rend possible la compression. Toutefois, certains difficultés apparaissent quand on essaye d'étendre ce concept au cas du codage vidéo, qui est significativement plus complexe et pour lequel les approches traditionnelles sont extrêmement efficaces. Aujourd'hui les contributions du DL à la compression vidéo peuvent concerner l'optimisation d'outils existants (p.ex., l'allocation de débit), l'introduction de nouveaux outils (p.ex., des nouvelles méthodes de prédiction) ou une nouvelle architecture. Un des objectif de cette thèse sera d'explorer les contributions possibles du DL au codage vidéo, à partir des solutions compatibles avec les normes (solutions dites non-normatives), et possiblement de proposer des outils plus en rupture (nouveaux modes de codage ou nouvelles architectures). Parmi les outils non-normatifs, nous envisageons d'explorer des méthodes d'allocation de ressource de codage basées sur la classification ou la segmentation obtenue par DL; parmi les outils normatifs, des nouveaux prédicteurs (prédiction spatiale ou temporelle) basés sur le DL semblent constituer l'approche le plus prometteur. Il est important de remarquer que les deux axes de travail (approches dites conventionnelles et approches DL) ne sont pas séparés. L'analyse des approches conventionnelles permet d'établir quelles sont les pistes plus prometteuses pour les approches DL. Par exemple, l'analyse du coût de l'information de prédiction peut bénéficier d'approches DL qui pourraient être utiliser pour prédire à niveau du décodeur certains choix du codeur, qui ne nécessiteraient plus d'être signalisés.

  • Titre traduit

    New compression techniques for next-generation video coding


  • Résumé

    Context Video content fruition has been revolutionized in a decade with the advent of video-on-demand services, web-TV, video-sharing sites, live streaming service for individuals, and broadcast platforms offered by social networks. This led to an explosion of internet traffic. According to a recent Cisco study [1], video-driven internet traffic will quadruple between 2016 and 2021 and account for 81% of overall internet traffic. The appearance of new video content such as 360 video, Virtual Reality (VR), High Frame Rate (HFR) and the advent of very high spatial resolution 8K or even 16K leads to a significant increase in the amount of data to pass. These new content combined with the sharp increase in video traffic on the internet require the implementation of video compression techniques even more effective than existing ones to limit the increase of data rates and ensure a better quality of service to users. As a result, the ISO / IEC MPEG and ITU-T VCEG standardization groups, gathered in a joint collective called Joint Video Experts Team (JVET), began exploratory work in 2015, with the aim of proving that coding gains can be achieved. be obtained from the most recent video standard, H.265 / HEVC [2], finalized in early 2013. An exploratory test model has therefore been put in place, and the new coding tools that have been proposed allow for already a reduction of flow between 25% and 30% compared to HEVC [3]. This motivated JVET to launch a formal standardization activity in order to achieve a 50% coding gain compared to HEVC by 2021. A call for contributions [4] (Call for Proposal - CfP) was thus launched, and the many responses to this call were evaluated at the 122nd MPEG meeting in San Diego (April 2018). Following this, a test model for the new standard, dubbed Versatile Video Coding (VVC), was introduced [5]. The model starts from HEVC with fewer tools (still with a new structure of block partitioning), thus leaving room for a massive contribution. The objective of the PhD program is therefore to propose compression tools to increase the coding efficiency compared to the state of the art, namely HEVC. The difficulty lies in the fact that HEVC is already performing well, and it is becoming increasingly difficult to gain above a fairly effective base. To reach this goal, several ways are possible. Proposed methodology Conventional Approaches to Video Compression As a first step, the proposals of this thesis can take the form of standardization contributions for VVC. In addition to the constant technology watch that will be done by the PhD student on all the tools that will be adopted in the standard, which will keep it at the highest level of information, the advantage of such contributions is that they are generally well defined in advance, and relatively easily implementable and testable. In return, a potential adoption in the standard imposes strong constraints on the contributions, in terms of, for example, complexity at the decoder, dependencies at the parsing level, memory bandwidth or possibility of parallelization of the calculations. One of the methods envisaged is the derivation of prediction information on the decoder side. Indeed, the increase of the prediction modes improves the precision of the predictions and gives less energy residues, which gives, in turn, a reduction of flow. Nevertheless, more prediction modes involve more signaling to be sent in the bitstream to inform the decoder of the choices that have been made to the encoder. The gains mentioned above are therefore largely offset by the added signaling. If the prediction information was derived from the decoder (the decoder is no longer passive, but becomes active hence the concept of smart decoder), it will be useless to report it, hence a gain in signaling. Note however that decoder calculations are based on reconstructed pixels only. Thus, the derived prediction information may be less good than estimated at the encoder with the true source pixels. Thus, depending on the case, the compromise can be more or less interesting. Although techniques of this type have long been studied [6-9], but removed from normalization because of the increase in the decoding complexity that they generate, in the current context - with the increase in power of processors and hardware decoding chips- they find their place fully. Indeed, several tools in the JEM have been proposed in which the prediction information (typically the motion vectors) are either derived or refined at the decoder with the use of template matching. Examples include Frame Rate Up Conversion (FRUC), BI-Directional Optical Flow (BIO), and Decoder Motion Vector Refinement (DMVR) [3]. For the answer to CfP, several solutions, including intelligent decoding tools, have also been proposed [10-11]. It is therefore very likely that such tools are found in the final standard. Another envisaged method concerns the improvement of the filters in the coding loop. In this respect, a filter called Adaptive Loop Filter (ALF) has been proposed in the JEM [3]. This filter, already considered for adoption in HEVC at the time, gives significant coding gains, which prove the value of contributions in this part of the codec. Transforms can also be visited as part of this thesis, since the multiplication of transform kernels, proposed in the JEM [3] and present in the video standard AV1 [12], has also been proven in terms of coding gains . Breaking approaches with conventional compression tools In a second step, an approach breaking with conventional compression methods can be considered. One of the strengths of conventional video coding techniques has been the ability to produce several different models of the data to be encoded and to compete with them (in the debit-distortion sense) and then choose the most efficient one. These models are more and more complex: for example, the Intra prediction uses a growing number of interpolation directions; Inter prediction can flexibly combine blocks of pixels from different images, both past and future. Nevertheless, the underlying generative model remains relatively simple and consists in the interpolation or extrapolation (replication) or the linear combination of the pixels of the decoded images. On the other hand, recently models based on deep learning (DL) have a much larger representation capacity, which can, in theory, approximate any function. Therefore, first DL-based image coders have been proposed in the last two years [13-18]. These encoders are based on the architecture of auto-encoders and they learn to reproduce their input with a bottleneck that makes compression possible. However, some difficulties arise when one tries to extend this concept to the case of video coding, which is significantly more complex and for which traditional approaches are extremely efficient. Today DL's contributions to video compression may involve the optimization of existing tools (eg, bit rate allocation), the introduction of new tools (eg, new prediction methods ) or a new architecture. One of the objectives of this thesis will be to explore the possible contributions of DL to video coding, from solutions compatible with standards (so-called non-normative solutions), and possibly to propose more breakthrough tools (new modes of coding or new architectures). Among the non-normative tools, we plan to explore coding resource allocation methods based on the classification or segmentation obtained by DL; Among the normative tools, new predictors (spatial or temporal prediction) based on the DL seem to be the most promising approach. It is important to note that the two axes of work (so-called conventional approaches and DL approaches) are not separated. The analysis of conventional approaches makes it possible to establish which are the most promising tracks for DL -approaches. For example, the analysis of the cost of the prediction information may benefit from DL approaches that could be used to predict at decoder level certain choices of the encoder, which would no longer need to be signaled.