VPx帧内压缩的快速算法

��Դ��未知

��ߣ�李坦

��15

2020-05-05 20:17:03

目前主流的视频编码标准包括3个体系：国际联合视频工作组(Joint Video Team，JVT)的H.26x、国内数字音视频编解码技术标准工作组(Audio Video Coding Standard，AVS)的AVSx和Google公司的VPx[1-4]。其中，VPx编解码器(COder/DECoder，CODEC)凭借开源和免专利费的优势，在全球范围内各种网络浏览器的支持率已经超过92%[5]。

视频编码标准中的是决定最终编码效率的关键，但由于该过程的算法复杂度高而导致非常耗时，因此对帧内压缩快速算法的研究显得尤为必要。近年来这方面的研究主要集中在H.264和H.265/高性能视频编码(High Efficiency Video Coding，HEVC)[6-9]。文献[6]通过统计方法与阈值法，文献[7]基于纹理方向检测，文献[8]利用时间与时空相关性，分别对HEVC帧内预测进行加速，实现将编码时间减少24~30%。文献[9]提出梯度法加快确定帧内模式，将编码时间减少15%，再结合支持向量机(Support Vector Machine，SVM)加快确定HEVC编码单元划分，使编码时间进一步减少到50%以上。文献[10]对HEVC和VP9两种标准的帧内压缩算法及其对编码效率的影响进行了比较。本文针对VPx的帧内压缩提出了加速算法，并通过实验验证了算法的效果。

1 VPx帧内压缩

帧内压缩是基于相邻像素之间的相关性，通过当前块的相邻块对其进行预测，并对预测值与实际值之间的残差进行一系列变换、量化和熵编码，以消除空间冗余达到压缩的目的。图1所示为VPx帧内压缩框图。VPx帧内压缩以宏块/超级块为单位，其中VP8标准的宏块大小为16×16，VP9标准的超级块大小为64×64。VP8采用4×4的子块划分方式将宏块划分为4×4大小的子块，其变换包括离散余弦变换(Discrete Cosine Transform，DCT)和沃尔什-哈达玛变换(Walsh-Hadmard Transform，WHT)。VP9采用四叉树子块划分方式将超级块划分为4×4~64×64大小的子块，其变换包括非对称离散正弦变换(Asymmetric Discrete Sine Transform，ADST)和DCT。

VPx帧内预测分为亮度块预测和色度块预测。亮度块预测包括以下10种预测模式：

其中，DC和TM分别为直流和真运动预测模式，另外8种为角度预测模式，图2中以4×4的亮度块预测为例说明。HE和VE分别为水平和垂直预测模式，LD和RD分别为45°和135°预测模式，VL和VR分别为63°和117°预测模式，HD和HU分别为153°和207°预测模式。

在帧内压缩过程中，要从上述10种预测模式中选择一种，使码率在不超过某最大码率的情况下失真最小。VPx采用率失真优化(Rate Distortion Optimization，RDO)方法来寻找码率和失真之间的平衡，其率失真代价函数表示为：

其中，Jmode为预测模式对应的率失真代价，Dmode为失真，λmode为拉格朗日系数，Bmode为所需比特数。通过计算预测残差的平方和(Sum Squared Error，SSE)得到失真Dmode。对于每个亮度子块，要进行10次变换、量化、反量化和反变换的重构过程，根据率失真代价Jmode最小的原则选取最终预测模式，进入熵编码。

假设帧内压缩图像宽度和高度分别为W和H，宏块/超级块大小为C×C，则总的宏块/超级块数为：