苹果发布 AI 图像压缩编解码器 PICO,同等画质下数据量可缩至三分之一

苹果公司发布了 PICO,一种利用机器学习的图像压缩编解码器。与 AV1、AV2、VVC、ECM 和 JPEG-AI 相比,PICO 能够以最多三分之一的数据量生成相同质量的图像。此外,据称与现有的主流机器学习编解码器相比,PICO 的比特率可降低 20% 到 40%。

实际应用中,机器学习图像压缩的关键是什么?

图像编解码器是一种将图像数据(例如照片和插图)压缩到更小尺寸或将其恢复到接近原始外观的机制。代表性的图像格式包括 JPEG 和 PNG,而 HEIC 则用于智能手机。近年来,除了基于学习的图像编码标准 JPEG AI 之外,还出现了使用 AV1 和 VVC 的静态图像压缩技术。

PICO 代表“感知图像编解码器”(Perceptual Image Codec)。它并非仅仅依赖传统的、手动设计的转换过程,而是一种“学习型编解码器”,利用神经网络来学习图像压缩和恢复。苹果的研究团队解释说,PICO 是第一个直接针对人眼视觉进行优化且实用的学习型编解码器。

以下是 PICO 的对比图像,可在项目页面上找到。 PICO 的平均每像素位深度 (bpp) 固定为 0.341,您可以使用滑块将其与 HiFiC、DCVC-RT、VVC 和 BPG 等编解码器进行比较。

苹果发布 AI 图像压缩编解码器 PICO,同等画质下数据量可缩至三分之一

传统的图像压缩方法通常强调原始图像和重建图像的像素相似度。然而,人类感知为“美观”的图像并不一定与像素级上与原始图像接近的图像完全一致。PICO 的模型训练不仅结合了像素匹配,还结合了评估感知质量的损失函数、基于 GAN 的损失函数以及抑制小字符和图块边界失真的损失函数。

PICO 训练中使用的“基于 GAN 的损失”是一种学习使重建图像看起来更逼真的机制。由于压缩图像无法完美保留细节,使用 GAN 可以使头发和织物等精细纹理看起来更自然,但也存在生成原始图像中不存在的图案的风险。苹果公司的论文描述了缓解诸如文本难以辨认和图块状颜色不均匀等问题的特殊措施。

关于处理速度,苹果公司表示,在 iPhone 17 Pro Max 上,PICO 编码一张 1200 万像素的图像最快只需 230 毫秒,解码仅需 150 毫秒。虽然 PICO 的处理时间仍然比 HEIC 等针对设备进行了广泛优化的传统编解码器要长,但苹果解释说,在 V100 GPU 上运行时,PICO 的速度比许多高性能学习型编解码器都要快。

下图展示了 PICO 与其他编解码器的对比表格。该表格总结了基于 PICO 的感知比特率、1200 万像素图像的编码和解码时间,以及速率控制和设备间兼容性等实际方面。比特率是达到相同画质所需比特率差异的平均指标;图中的“27%”和“169%”表示所需的比特率高于 PICO。

苹果发布 AI 图像压缩编解码器 PICO,同等画质下数据量可缩至三分之一

从实用性角度来看,重要的特性包括“码率控制”,它允许精确调整文件大小和图像质量级别;以及“设备间兼容性”,它确保编码后的图像能够在不同的设备或实现方案上正确解码。在学习型编解码器中,浮点运算的细微差别都可能导致解密失败,而 PICO 的设计旨在确保某些处理过程能够果断运行。

苹果公司解释说,其评估方法使用了 CLIC 2020 测试、Kodak 和 DIV2K 数据集,共收集了来自 610 位评估者的 74,925 个配对比较结果。评估者将参考图像与两幅重建图像进行比较,并选择他们更喜欢的一幅。人类的偏好被转换为贝叶斯 Elo 分数,并比较了每种编解码器的感知质量。

需要注意的是,PICO 并非万能灵药。苹果的论文解释说,“PICO 针对自然图像的感知质量进行了优化,对于卡通等非常简单的合成图像,它可能需要比传统编解码器更高的比特率才能达到相同的质量。”

苹果表示,为了同时优化感知质量和设备端处理时间,他们为 PICO 探索了数百万种模型配置。研究团队解释说,与传统编解码器和现有的机器学习编解码器相比,PICO 图像编解码器在压缩、视觉质量和易用性之间实现了显著更佳的平衡。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/66964.html

(0)

相关推荐