COIN:用隐式神经表示法进行压缩

不同于基于混合编码框架的传统图像编码标准,COIN 利用隐式神经表示法,实现了图像的压缩。

JPEG 与 COIN 流程

JPEG 编码流程

  1. 零偏置:JPEG 将图像划分为 8 * 8 的块,并使用有符号数将像素灰度的绝对值减半,其范围由  变为 。
  2. DCT 变换:对各个块进行 DCT(Discrete Cosine Transform) 变换,空域频域转换。
  3. 量化:根据人眼特性,人眼对高频信息不敏感,对低频信息敏感;对色度信息不敏感,对亮度信息敏感。因而对高频部分采用粗量化,对低频部分采用细量化,对色度信息采用粗量化,对亮度采用细量化,
  4. DC 系数的差分编码:相邻块的直流分量相近,且数值都比较大,因而采用 huffman 编码来编码相邻图像块之间量化 DC 系数的差值。
  5. Z 字扫描与游程编码:DCT 变换后得到的频域矩阵,系数集中于左上角的低频分量区, Z 字扫描后后会出现很多连 0 ,以便使用 RLE 游程编码。

JPEG 的压缩比率通常在 10:1~40:1 。

COIN 编码流程

图片
图1 : COIN 编码流程可视化
  1. 整个神经网络由数层全连接层构成,神经网络的输入为像素点的 x,y 坐标,输出为对应位置的 RGB 值,整个网络的损失就是,预测图像与原图像做 MSE 。
  2. 通过反向梯度传导不断更新网络参数,使得拟合出的图像逼近原图像,最终网络中的权值作为图像压缩的结果。

COIN 实现了用 8k 个参数的 MLP 网络拟合含有 393k 个像素点的图片。

浅析 COIN 的思想与特点

COIN 网络的切入点非常的直接:既然神经网络可以出色地完成分类任务,生成任务,那么将坐标与RGB值关联起来的任务,似乎也不在话下。

COIN 实现的关键

事实上,使用 MLP 网络拟合图像的尝试并非初次,但前人即使使用了参数远多于 COIN 的MLP网络,也难以实现对图片细节的拟合 ,得益于正弦激活函数  的使用,才使得 COIN 可以用较小的网络体积表示较大的图像。

COIN 的优点

COIN 方法的提出为整个图像压缩领域注入了全新的活力,且大幅降低了隐式神经表示的模型大小。

图片
图2 : 同比特率(0.3bpp)下不同模型大小的比较

在解码端,传统方法无法直接获得某一位置的 RGB 值,需将整张图片解码后再取该点的 RGB 值,而 COIN 则可以在解码端,由 x,y 坐标直接映射到 RGB 值。

举个例子,用户可能对图像分辨率有着不同的需求。传统视觉编码可能需要一系列操作来生成由低分辨到高分辨的“拓展数据包”,而 COIN 则只需压制最高清晰度的图片,解码端自行选择解码的像素点来获得相对低分辨的图片。

另一方面,COIN 将传统的图片压缩问题转化为了神经网络的模型压缩问题,这令我们我们可以尝试运用各种先进的模型压缩方法来实现更好的压缩性能。

COIN 的缺点

机器学习与深度学习无法避开不谈的一个话题就是模型的训练时间,尽管在文中没有提及模型的具体训练时间,但如图 3 所示,在经过约 16k 次的迭代后 COIN 的信噪比才与 JPEG 相同,可以预想其所消耗的计算资源远大于传统的图片压缩的。

图片
图3 : Kodak数据集中第15张图片的模型训练过程

在率失真图的上,COIN 仅在低比特率时表现超过 JPEG ,整体上完全无法与 JPEG2000,VTM 等传统压缩方法相提并论。当然这也和 COIN 压缩流程本身设计比较粗糙有关。

图片
图4 : 在 Kodak 数据集上训练得到的率失真图

关于 COIN 展望

尽管 COIN 提供的压缩流程比较粗糙,且其压缩效果与目前传统图像压缩存在较大的差距,但其依旧证明了隐式神经表示法的可能性,未来会有更多的工作完善神经网络压缩的流程,更多神经网络压缩方法也有望应用于图像压缩工作上。

引用

[1] Emilien Dupont et al., 2021. COIN: COmpression with Implicit Neural representations. arXiv.org, pp.arXiv.org, 2021.

[2] Vincent Sitzmann, Julien N. P. Martel, Alexander W. Bergman, David B. Lindell, and Gordon Wetzstein. Implicit Neural Representations with Periodic Activation Functions. NeurIPS, 2020.

[3] Matthew Tancik, Pratul P. Srinivasan, Ben Mildenhall, Sara Fridovich-Keil, Nithin Raghavan,Utkarsh Singhal, Ravi Ramamoorthi, Jonathan T. Barron, and Ren Ng. Fourier Features LetNetworks Learn High Frequency Functions in Low Dimensional Domains. NeurIPS, 2020.

论文链接:https://arxiv.org/abs/2103.03123
作者:Emilien Dupont, Hao Chen 等
项目链接:https://github.com/EmilienDupont/coin
内容整理:何冰

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

发表回复

登录后才能评论