AI 助力 InterDigital 在下一代编解码器开发竞赛中超越 VVC

研发实验室 InterDigital 宣布，超越 VVC 的新视频编解码器研发工作已正式启动，其压缩效率提升幅度至少达20%，最高可达50%。

H.267 的目标在于实现更优的压缩效率、更低的编码复杂度，并增强可扩展性、抗分组丢失能力等功能特性。

InterDigital 2D 编解码器高级总监 Edouard Francois 表示：“这既是巨大挑战，也是开发新理念、专利和算法的绝佳机遇。我们尤其在探索如何将人工智能与传统视频压缩技术协同应用。”

InterDigital 总部位于特拉华州威尔明顿市，在全球范围内持有超过 33,000 项无线通信、Wi-Fi、5G/6G 及视频领域的专利和应用，是全球最大的纯研发与专利授权公司之一。

StreamingMedia 媒体团队参观了该公司位于法国雷恩的视频实验室。科学家们透露，他们正探索将人工智能与传统压缩技术相结合，以争取在 2029 年 H.267 标准发布时锁定相关专利。

新的视频压缩项目

包括亚马逊在内的一些公司一直不愿正式启动新的视频压缩项目，因为这可能意味着需要彻底替换现有生态系统中的编码器。此外，许多科技巨头和流媒体公司都致力于采用 AOMedia 开发的 AV1 编解码器。

“各方都持谨慎态度，”Francois 表示，“这就是为什么国际电信联盟（ITU）和标准化组织（ISO）召开研讨会来确定市场需求的原因。关键问题是，我们能否以比 VVC 更高的效率压缩视频？”

在该研讨会上，隶属于 ITU-T VCEG 和 ISO/IEC MPEG 的联合视频专家组（JVET）发布了证据征集令。三星和亚马逊均出席会议。

“我们的目标是展示视频压缩的最新技术，任何人都可以提出疯狂的想法，” InterDigital France 视频实验室负责人兼总经理 Lionel Oisel表示。

诺基亚、爱立信、弗劳恩霍夫HHIm研究所及 InterDigital 响应号召，于本月初在日内瓦举行的 JVET 会议上展示了各自成果。

“这非常重要，因为人们明确表达了对新型视频编解码器的需求，”Francois 表示。“进一步提升压缩效率，降低比特率固然有益，但前提是编码器需具备易配置性，且编码器端的复杂度至少保持在合理水平。“

弗劳恩霍夫HHI研究所取得了成功。他们优化了大量软件，消除了 VVC 的部分限制，并添加了若干工具，最终在保持与 VCC 相同编码速度的前提下实现了 20% 的比特率降低。”

InterDigital 提出了双重解决方案：其一称为增强压缩模型（ECM），基于传统编解码方案；其二则是将 VVC 与 AI 工具融合的混合方案，命名为神经网络视频编码（NMVC）。

前者主要与高通公司合作开发，后者则与华为协同推进。

InterDigital 于 2021 年开始研发 ECM，当时 VVC 已经完成一年。ECM 的设计纯粹是为了研究，并未考虑编码器的复杂性。到 2024 年底，ECM 已经发展到版本 18，并且比 VVC 的编码效率提高了 28%。

在纯视觉测试中，该公司声称某些序列可以实现 50% 的增益。

“总体而言，超过三分之二的序列提升了 30%，”Francois 说道。“证据表明，使用复杂度合理的编码器，性能可以超越 VVC。NMVC 由 VVC 加上两到三个 ML/AI 工具组成，可以进一步提高效率。”

开发新的编解码器时，传统上需要在降低比特率和增加编码器复杂度之间进行权衡。如果降低比特率是唯一目标，那么可以不断引入更复杂的工具和算法，但这会使编码器的实现更加复杂。降低或至少保持编码器的复杂度是市场的关键诉求。

在十月的 CfE 会议上，大家一致认为，有确凿的证据表明，利用现有工具，新的编码方法可以在不增加复杂性的情况下显著改进 VVC。JVET 批准了征集提案的程序。

下一阶段的竞争参与者，包括 InterDigital，将工作至2027年1月，然后将结果提交给ISO/ITU进行评估。新标准预计将于2029年底完成。

“我们只使用公开可用的技术和公开披露的算法来回答 CfE，但我们拥有未公开的内部技术，这些技术在我们的实验室测试中已经比我们提交的 CfE 答案更好，”Francois 解释道。

现在，我们切换到隐藏模式，在内部开发工具和技术。未来18个月，许多其他公司也会这样做。我们的研究重点是保持较低的复杂性。我们不能让复杂性爆炸式增长。

关键研究方面包括优化比特率和视觉保真度之间的权衡，开发适合受限设备的快速编码方法，以及提高 HDR、8K、游戏和用户生成内容等新兴用例的性能。

标准化阶段将于 2027 年 1 月之后开始，并将由 JVET 牵头开展合作。

“每个人都在独立工作或与其他公司合作，试图提出最佳的潜在解决方案，并在2027年1月进行评估，但最终胜出的解决方案不会成为标准，”Oisel说道，“相反，它可能会作为2027年至2029年进一步发展的基准。 ”

他补充道：“这个标准化阶段将决定哪些工具会被采用（从而获得授权）。要做到这一点，你必须证明它能带来巨大的收益，而且复杂度不高。人工智能工具的问题在于，它们把复杂性放在了解码器端，而像博通这样的芯片制造商会对此进行抵制，因为他们不想增加硬件的复杂性。如果你的工具收益巨大，但复杂性也很高，那么它不会被选中。”

VVC 的采用情况

VVC 本身的推出速度一直很慢，因此有关不到四年内推出潜在更优越的编解码器的消息可能会完全阻碍其采用。

“大家都在等待一个触发点，”Oisel 说道。“触发点可能来自内容提供商，但要部署它，他们需要硬件、编码解决方案，以及设备上的解码解决方案。”

无论是否启用，许多电视都可能能够解码 VVC，一些手机制造商也开发了 VVC 解码器。目前也存在编码器解决方案，但尚未达到最佳效果，这意味着无法完全发挥 VVC 的比特率增益。在内容提供商方面，VVC 已被巴西采用为下一代电视的标准。想要在巴西播放 TV3.0 的内容提供商必须实施 VVC。编码器制造商必须遵守其客户（TV Globo）的要求，电视制造商也需要符合 TV3.0 标准。

ATSC 3.0 已推广至美国 75% 以上的市场，并引用 VVC 作为编解码器；欧洲的 DVB 也是如此，但人们仍在等待触发。

“它可能来自巴西，但目前 VCC 的主要市场是中国。腾讯正在大量使用 VVC，其中一个用例是更好地管理海量 UGC 社交视频。VVC 可能是他们缩减文件大小的绝佳目标，因为与 HEVC 相比，文件大小可以减少 45% 到 50%。通常情况下，美国会领先，但这次可能是中国领先，这很不寻常。”

3GPP 的移动参考编解码器是 AVC [H.264] 和 HEVC [H.265]，下一代编解码器的竞争尚未开始。竞争很可能在 AV1 (AOMedia) 和 VVC (MPEG) 之间展开。

“AOM 将于今年年底发布 AV2，而且它的解码器方面似乎也非常复杂，”Oisel 说。“他们能简化它吗？通常情况下，MPEG 比 AOM 更先进。AV2 使用了很多为 VVC 开发的工具。因此，这是两条平行的轨道，但 MPEG 和 AOM 标准之间的底层技术迄今为止并没有太大区别。”

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/62302.html