非线性矢量变换编码-全新编码框架的探索

///论文速览///

香农的信息论已经指出矢量量化（VQ）在率失真性能方面总是优于标量量化（SQ），但是其复杂度随矢量维度呈指数增长。过去四十年的传统编码框架还是采用基于变换加上标量量化的框架，即便近期的基于神经网络的图像编码取得了快速进展，其核心仍是采用非线性变换（NTC）结合标量量化的方案。我们尝试突破传统编码框架的率失真性能上界，引入带有熵约束的矢量量化以提高变换空间矢量的量化性能，同时考虑多层级多粒度的量化策略及轻量高效的矢量变换模块来降低编解码的复杂度。此外我们提出了一种VQ码本初始化策略，解决了多级VQ难以联合优化的问题。

在本文中，我们首先在一些简单信源上进行研究，证明了即使当代神经网络大大提高了带有非线性变换的标量量化的压缩性能，但是标量量化与矢量量化之间仍然存在着不可逾越的鸿沟。因此，围绕VQ，我们提出了一种全新的神经图像压缩框架，命名为非线性矢量变换编码（NVTC）。NTVC通过（1）多层级量化策略和（2）非线性矢量变换模块解决了VQ的关键复杂度问题。此外，我们应用带有熵约束的矢量量化自适应地确定联合率失真优化下的量化边界，从理论和实验上都提高了性能。与以前的NTC方法相比，NVTC提供了更好的率失真性能、更短的解码时间和更小的模型。该论文将发表于CVPR 2023。

量化的目的是建立从信源空间到量化中心集合的映射，使信源信息能在一定失真下被编码传输。整个信源空间由不同量化区域组成，每个区域对应一个量化中心。下图展示了在2维简单信源上NTC和ECVQ（熵约束VQ）的量化结果，其中橙色点是量化中心，蓝线为量化边界。VQ的量化区域是六边形的，NTC的量化区域是类四边形的。根据最密堆积理论，六边形是平面堆积中的效率最高的形状。在单个量化区域面积相同时，即码率相同时，正六边形在MSE准则下的平均失真最小。这就是VQ所独具的空间填充效率优势。事实上，随着维度增高，这一增益会逐渐增加。在2-d到16-d各向同高斯分布信源上的实验中，NTC相比ECVQ的BD-PSNR差距从0.15dB增加到0.71dB。此外在复杂信源上，ECVQ也有更好的去相关能力。

///方法描述///

1.设计要点

为了得到一个低复杂度且率失真性能更优的压缩框架，我们提出三个设计要点。第一，使用多阶段乘积VQ而非单阶段普通VQ，使复杂度的指数增长速度大大降低；第二，使用矢量变换而非标量变换，使参数量大大减少，矢量变换将标量变换解耦为矢量内变换和矢量间变换；第三，使用熵约束VQ使整体率失真性能在理论上更优，熵约束VQ的量化边界从高概率区域向低概率区域偏移，具备更好的率失真性能。

2.整体框架

整体图像压缩框架的设计融合了上述的三个要点，在各个分辨率层级有多个量化层。每个量化层包括矢量变换单元，量化器和条件概率模型。其中矢量变换单元对同一个block内的不同的通道矢量进行变换，包含通道矢量内变换和间变换。

///实验分析///

在CLIC2021验证集上，我们的方法在率失真性能和复杂度性能上均优于以前的工作。另外和最近基于VQ的工作Zhu-CVPR22相比，我们的方法减少了约5倍的参数量，并具备更好的压缩性能。

我们也提供了编解码时间的详细结果。可以发现，编码时间大约是解码时间的两倍，这主要来自于两个方面：1）编码时需要运行所有多级量化中的矢量变换单元，而解码时只需要执行一半的矢量变换单元；2）矢量量化编码和解码之间的计算差距，矢量量化编码时需要计算L2距离并确定码字索引，但解码时只需要根据索引查找码本中的码字。