AI 会改变视频压缩格局吗？

Apple 上个月底出人意料地收购了位于加利福尼亚的初创公司WaveOne ，该公司开发用于视频压缩的内容感知 AI 算法，这表明视频信号流式传输到我们设备的方式发生了重大转变。短期内，Cuppertino 的收购可能会在 Apple 的视频创作产品和备受关注的增强现实耳机的开发中引入智能视频压缩工具。

然而，苹果公司并不孤单，AI 视频编解码器领域的初创公司很可能成为其他试图跟上步伐的公司的收购目标。

几十年来，视频压缩使用数学模型来减少模拟信号传输所需的带宽，重点关注帧与帧之间场景的变化部分。当 20 世纪 70 年代引入数字视频时，改进视频压缩成为主要研究重点，导致开发了许多称为编解码器的压缩算法，是“coder-decoder”的缩写，可以压缩和解压缩数字媒体文件，这些算法为视频在数字时代的当前主导地位铺平了道路。

静态图像的 AI 压缩已取得初步成功，视频仍然更具挑战性。

虽然大约每 10 年就会出现一个新的编解码器标准，但所有这些标准都是基于像素数学——操纵视频帧中各个像素的值，以删除对人类感知来说不重要的信息。其他数学运算减少了需要传输或存储的数据量。

AI 编解码器经过数十年的发展，使用机器学习算法来分析和理解视频的视觉内容，识别冗余和非功能数据，并以更有效的方式压缩视频。他们使用基于学习的技术而不是手动设计的编码工具，并且可以使用不同的方式来衡量编码质量，超越传统的失真测量。最近的进步，比如注意力机制，帮助他们更好地理解数据并优化视觉质量。

在 2010 年代上半叶，Netflix 和一家名为 Harmonic 的加利福尼亚公司引领了一场所谓的“内容感知”编码运动。Harmonic 称之为 CAE，它使用 AI 来分析和识别视频场景中最重要的部分，并为这些部分分配更多比特以获得更好的视觉质量，同时降低场景中不太重要部分的比特率。

内容感知视频压缩针对不同的编码分辨率调整编码器，根据内容调整比特率，并调整质量得分——压缩视频与原始未压缩视频相比的感知质量。所有这些事情也可以由神经编码器完成。

然而，尽管经过了长达十年的努力，使用深度学习的完全神经视频压缩在正常情况下并未击败传统编解码器标准的最佳配置。来自第三方的评论表明，当以传统的失真指标和人类意见得分为基准时，传统的视频编码器仍然优于神经网络压缩，尤其是当传统的编码器通过 AI 工具得到增强时。

WaveOne 在静态图像的神经网络压缩方面取得了成功。在一项比较中，一组独立用户选择 WaveOne 图像重建的可能性是传统编解码器的 5 到 10 倍。

但是视频中的时间相关性比图像中的空间相关性强得多，必须非常有效地对时间域进行编码才能击败现有技术。

“目前，神经视频编码器还不存在，”伦敦大学学院数据和信号处理教授、iSIZE Technologies 首席技术官 Yiannis Andreopoulos说。

WaveOne 可能会在 Apple 的支持下继续致力于全神经视频压缩。根据 WaveOne 的公开研究，其神经压缩技术与现有的编解码器标准不兼容，这符合 Apple 的政策，即构建可无缝协同工作但由 Apple 专有并严格控制的产品。

WaveOne 创始人 Lubomir Bourdev 拒绝就其技术现状置评，Apple 也没有回应置评请求。

AI 和传统编解码器现在将协同工作——部分原因是传统编码器可以调试。

尽管如此，该行业似乎正朝着将 AI 与传统编解码器相结合的方向发展，而不是依赖于完整的神经网络压缩。

例如， Vnova根据其网站使用标准化的预编码降频和解码后升频，使其编码器比编码器更高效、更快。但是用户需要编码器端和解码器端的软件组件。

总部位于伦敦的iSIZE公司还通过基于 AI 的预处理来增强传统视频编码器，以提高传统编码器的质量和比特率效率。iSIZE 用户不需要接收器端的组件。该技术只是在预处理中生成定制表示，使编码器更加高效。它可以添加一个后处理组件，但这是可选的。

“通过在编码器之前添加一个 AI 组件，无论您使用什么编码器，我们都在降低压缩每个视频帧的某些元素所需的比特率，”iSIZE 首席执行官Sergio Grce在 Zoom 电话中说。“我们的 AI 组件学会了减弱人类观众在观看以正常重播速率播放的视频时不会注意到的细节。”

因此，Grce 说，编码过程更快，延迟下降——这对于 VR 来说无疑是一个重要的优势，因为延迟可能会导致用户感到恶心。Grce 说，编码器吐出的文件要小得多，而不会改变最终用户设备上的任何内容。

理论上，视频中的所有内容都必须保留。理想的编解码器会将它接收到的所有内容编码到一段内容中——而不是改变它——这就是为什么传统编码器专注于所谓的失真指标的原因。此类测量包括信噪比(SNR)、结构相似性指数(SSIM) 和峰值信噪比(PSNR)，所有这些都提供了压缩视频在视觉质量方面与原始视频的匹配程度的定量测量。

然而，近年来，人们越来越关注感知质量指标，这些指标考虑了人类观众如何感知压缩视频。这些指标旨在根据人类感知视频的方式来衡量压缩视频的视觉质量，而不仅仅是数学测量。毕竟，有些失真在数学上可能微不足道，但在感知上仍然很明显。（例如，模糊一个人脸的一小部分可能并不代表整个图像或视频文件，但即使是对这些独特特征的微小变化仍然可以被注意到。）因此，正在开发新的视频压缩技术，考虑失真和感知质量指标。

最近，事情正在进一步转向更面向感知的编码，根据人类感知内容而不仅仅是数学测量来改变内容中的细微细节。使用神经编码器更容易做到这一点，因为它们可以看到整个帧，而传统编码器在宏块或切片级别运行，只能看到帧的一小部分。

目前，“AI 和传统技术将协同工作，”Andreopoulos 说，部分原因是因为传统编码器是可解释的并且可以调试。众所周知，神经网络是晦涩难懂的“黑匣子”。Andreopoulos 补充说，从长远来看，神经编码是否会击败传统编码仍然是一个悬而未决的问题。

Apple 可以使用 WaveOne 的技术来提高视频流效率、降低带宽成本，并在其Apple TV+平台上实现更高的分辨率和帧速率。该技术与硬件无关，可以在许多手机和笔记本电脑内置的人工智能加速器上运行。同时，虚拟宇宙一旦实现，将涉及大量的数据传输和存储。

还有几家公司致力于使用 AI 来优化标准视频编解码器，包括Bitmovin、Beamr和NGCodec ，后者现在是AMD的一部分。

编译自：https://spectrum.ieee.org/ai-video-codecs-waveone