COOL-CHIC: 基于坐标的低复杂度分层图像编码器

内容摘要：本文介绍了一种基于坐标的低复杂度分层图像编码器（COOL-CHIC），它是一种能够替代自编码器的方法，每个解码像素仅对应 629 个参数和 680 次乘法。COOL-CHIC 的压缩性能接近现代常规 MPEG 编码器，如 HEVC ，并且性能与流行的基于自编码器的系统不相上下。这种方法受到基于坐标的神经表示的启发，其中图像被表示为一个学习的函数，将像素坐标映射到 RGB 值。然后使用熵编码发送映射函数的参数。在接收端，通过所有像素坐标的映射函数来获得压缩图像。

论文名称：COOL-CHIC: Coordinate-based Low Complexity Hierarchical Image Codec
作者及机构：Theo Ladune, Pierrick Philippe, F ´ elix Henry, Gordon Clare, Thomas Leguay ´
Orange Innovation, France
文章来源：ICCV 2023
论文链接：https://openaccess.thecvf.com/content/ICCV2023/papers/Ladune_COOL-CHIC_Coordinate-based_Low_Complexity_Hierarchical_Image_Codec_ICCV_2023_paper.pdf
代码链接：https://orange-opensource.github.io/Cool-Chic/
整理人：何冰

端到端图像或视频编码与隐式神经表示

为了使得方法的介绍更清晰，本节将简要分析隐式神经编码与以往端到端编码在训练过程以及传输码流部分的区别。

简言之，端到端的图像或视频编码会使用可学习的编解码器学习原视觉数据的复杂高效变换，原本冗余信息很多的视觉数据在变换后的新域拥有紧凑表达。在整个数据集上训练结束后，编解码器即可被直接用于类似的图像或视频数据的压缩。解码器被提前传输到解码端，因此在编解码具体图像或视频时，只需要获得并传输其紧凑表达即可。端到端方法使用神经网络高效地学习视频数据中的统计信息，因此能够达到比传统方法更好的压缩效率。

隐式神经表示则没有编码器结构，无论是在编码端还是解码端，其过程都是时空相关的信息输入可学习的解码器网络，获得特定位置的视觉信息。每个图像或者视频数据的压缩都需要从头开始训练网络，其压缩原理并非利用统计信息，而是简单粗暴地通过过拟合来获取是视觉数据的紧凑表示。（或者说整个网络的结构是不同压缩内容的先验/统计，而网络的参数则完全是因内容而异的）在传输过程中，需要传输时空相关的信息和解码器网络权重。

编码时间

端到端编码器一旦训练结束，其在编码具体视觉信息过程中仅需要进行一次网络的前向传播即可。而隐式神经表示的每次编码过程都需要从头训练网络。在编码时间上，端到端编码更有优势。

解码时间以及复杂度

解码时，两种方法均是进行一次网络的前向传播，而隐式神经表示的网络结构很简单，因此在解码时间和复杂度上会有显著优势。

编码性能

图像隐式神经表示尚未成熟，其压缩性能发展非常迅速，考虑BD-rate，每一代比前一代提升大概20个百分点。目前最新的图像隐式神经编码器 C3 （后续的文章会介绍）可以达到与VTM相近的性能，BD-rate 落后 MLIC+ （端到端方法）大概10个百分点。

COOL-CHIC 编码器整体介绍

COOL-CHIC: 基于坐标的低复杂度分层图像编码器 | ICCV 2023 — 图1 : COOL-CHIC解码过程一览.ED为熵解码缩写，L为拉普拉斯分布

码流文件包括三部分，分别是，自回归概率MLP模型权重 θ（绿色），生成MLP网络权重 ψ（红色），latents权重 ŷ（蓝色）。其中 θ 和 ψ 可被直接熵解码，其码率大小占整个码流文件大小的 20% 以下，高质量的图像会扩大 latents ŷ 的层数以及尺寸，而固定 θ 和 ψ的大小，因此码率越高，两个MLP的码率占比越小。由于latents ŷ 存在空间相关性，因此使用自回归概率模型进一步减小其大小。在解码时码流需要通过该自回归概率模型恢复出完整的latents ŷ 信息。