为 AI 时代升级 H.26x 视频编码功能

作者：Miska Hannuksela，Jill Boyce
译自：https://www.nokia.com/blog/upgrading-h26x-video-coding-features-for-the-ai-era/

当每个像素都能被伪造时，我们越来越难以相信屏幕上呈现的画面。利用人工智能（AI）生成和操控的视频，正引发关于真实性与创作控制权的新质疑。

正因如此，标准至关重要。诺基亚正引领潮流，推出多功能补充增强信息（VSEI）标准，该标准旨在帮助从内容创作者到观众的所有人，在人工智能时代验证、保护和增强视频。VSEI 标准是对 H.264（高级视频编码，AVC）、H.265（高效视频编码，HEVC）和 H.266（通用视频编码，VVC）等视频编码标准的补充。VSEI 标准的第四版已于近期完成，旨在满足人工智能、机器视觉以及创作意图保留等领域的新兴应用场景。本文将概述新版 VSEI 标准带来的新特性与增强功能。

多功能补充增强信息（VSEI）

VSEI 标准在增强 H.264、H.265 和 H.266 等视频编码标准（本文统称为 H.26x）方面发挥着至关重要的作用。尽管 H.26x 标准的核心解码算法多年来保持不变，但持续发展的 VSEI 标准确保了 H.26x 编解码器的实现能够不断发展，从而更好地满足特定应用场景的需求。

VSEI 版本 4 是一次重大更新，它提供了一系列新功能，并对早期版本标准中规定的功能进行了增强。VSEI 版本 4 的标准化工作历时两年，由十多家公司共同协作完成，诺基亚是其中最积极的贡献者之一。

VSEI 标准规定了可包含在编码视频比特流中的补充增强信息 (SEI) 消息。这些额外信息有助于设备更好地理解和处理视频。SEI 消息中包含的元数据与编码视频同步，可以帮助提高图像质量或提供有关视频本身的详细信息。得益于 VSEI 标准，不同设备和应用程序中的解码器可以以相同的方式读取和使用这些信息，从而使视频体验更加可靠和一致。

防范 AI 对视频内容的操纵

基于 AI 的视频生成与操纵技术日益普及且日益精进，使得检测 AI 生成或篡改的内容变得愈发困难。因此，验证视频内容的真实性已成为当务之急。

VSEI 版本 4 允许视频创作者使用编码视频的数字签名来证明其内容的真实性，并证明其内容自创建以来未被篡改。例如，新闻机构可以使用数字签名在其视频上添加特殊标记，以便观众验证视频是否确实来自该机构，且未经修改。

新规要求，如果内容是由 AI 创建或修改的，则必须显示清晰的标签，称为AI 标记。这一点尤为重要，例如，当生成式 AI 用于改变公众人物（如竞选期间的政治人物）的外貌时。VSEI 版本 4 允许在视频中添加这些 AI 标记标签，以便观众了解何时使用了 AI。

此外，VSEI 4 版本允许内容所有者设置 AI 使用限制，即关于 AI 如何使用其视频的规则。例如，他们可以选择阻止其视频被用于训练 AI 模型，从而帮助保护隐私并维护内容所有者的权利。

用于视频增强和压缩的生成式 AI

VSEI 标准的前一版本引入了对神经网络后滤波(NNPF) 的支持，这可以说是 AI 首次被集成到视频标准中。此后，诺基亚一直在探索 NNPF 技术的各个方面，最近的研究重点是将其用于消除视频中常见的瑕疵，例如轮廓（颜色不均匀的区域）和块状（可见的方块），这些问题通常是由于视频编码比特率有限造成的。NNPF 还允许内容创作者控制视频的后期处理，从而确保他们的创作意图不受损害。

现在，VSEI 版本 4 通过添加生成式 AI 功能，使 NNPF 更加智能。例如，可以在视频中添加文本提示来引导生成式滤波。除了传统的滤波用途（例如使视频更清晰）之外，生成式 NNPF 还可以用于空间扩展图像或创建未来图像。

生成式人脸视频编码是另一项新功能。它允许以低至每秒几千比特的比特率对人脸视频进行编码。这项技术的工作原理是：首先对一张主图像或基础图像以及一些附加细节进行编码，然后 AI 利用这些输入生成视频的其余部分。VSEI 标准包含信号，用于告知解码器应使用哪些神经网络模型和人脸参数才能正确播放视频。

创作者主导的后期处理

VSEI 版本 4 允许视频创作者指定后期处理操作的首选顺序，包括色彩变换、添加胶片颗粒和旋转画面以进行显示。他们还可以为不同的显示分辨率设置不同的处理流程。此外，H.26x 编解码器中已存在数十年的胶片颗粒支持功能现已得到增强，能够根据显示分辨率发送不同的胶片颗粒模型信号。这意味着无论是在手机上还是在大屏幕上观看，视频都能呈现最佳效果。

通过 VSEI 版本 4 的这些新增功能，内容创作者现在可以更好地控制视频在接收设备上的显示效果，并有助于保留其创作意图。

用于计算机视觉的视频

视频越来越多地被用于机器分析任务，而非供人观看。据报道，机器间视频每年产生数十泽字节的数据量。因此，如何在不影响机器任务准确性的前提下优化视频压缩变得愈发重要。VSEI 版本 4 新增了多项功能，旨在提升机器间视频的处理能力。

由于针对计算机视觉优化的视频可能无法为人类提供最佳观看体验，因此在描述编码器操作、后处理链和神经网络后滤波的信令中，已加入了防止显示机器目标视频的保护措施。更广泛地说，编码器优化的类型可以在编码器优化信息 (EOI) SEI 消息中详细说明，该消息允许接收系统对后处理和分析任务进行适当的调整。

许多机器任务，例如行人识别，在重要区域（称为感兴趣区域，ROI）以尽可能高的图像质量显示时效果最佳，而背景则相对不那么重要。视频编码系统可以利用 ROI 检测和预处理或编码优化来确保这些重要区域呈现最佳状态，即使这意味着降低其余区域的质量和比特率。例如，编码器可以对 ROI 使用更精细的量化步长，这可以通过 EOI SEI 消息进行描述。或者，编码器可以将前景区域以更高的空间分辨率打包，将背景区域以更低的分辨率打包到用于编码的源图像中。这可以通过打包区域信息 (PRI) SEI 消息进行描述，以便接收系统知道如何恢复区域的原始位置。

当使用语义分割或实例分割将视频分割成不同的对象时，每个对象都可以用其自身的纯色显示在对象掩码图中。VSEI 版本 4 允许描述对象掩码，因此这些掩码可以与原始源视频包含在同一个编码视频片段中。这一特性使 H.26x 成为分割视频的理想输出格式。

图片元数据扩展

有时视频的录制速度与播放速度不同。例如，视频可能以较高的帧速率（例如 240 Hz）录制，然后以慢动作播放，反之亦然。源图像时序信息 (SEI) 消息包含有关图像拍摄时间的元数据，有助于跟踪每张图像的拍摄时间。

某些图像传感器可以捕捉可见光以外的波长。模态信息SEI消息指示视频中的图像显示的是可见光、红外线还是紫外线，甚至可以包含有关确切波长的详细信息。

就像数码照片可以存储额外的细节（元数据）一样，VSEI 版本 4 允许视频包含图像格式元数据，因此有关视频的制作方式和时间的重要信息可以随文件一起传输。

诺基亚推进编码视频的新兴应用案例

随着 AI 不断重塑我们创作和体验视频的方式，对信任和真实性的需求也空前高涨。VSEI 4 版本为透明度、创作控制和智能机器视觉树立了新的标杆。这些最新增强功能使内容创作者、设备制造商和观众能够验证、保护和提升视频质量，确保创新与信任在数字世界中齐头并进。

VSEI 版本 4 中规定的新的和增强的 SEI 消息使 H.26x 编码标准更有能力应对编码视频最重要的新兴用例，包括人工智能和机器视觉，同时保障创作意图。

诺基亚很荣幸在VSEI标准的开发过程中发挥了引领作用。我们的团队为该标准贡献了关键技术，并在塑造其发展方向方面发挥了至关重要的编辑作用。如今，我们将继续为数字世界开拓安全、智能且富有启发性的视频体验。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/62705.html

为 AI 时代升级 H.26x 视频编码功能

多功能补充增强信息（VSEI）

防范 AI 对视频内容的操纵

用于视频增强和压缩的生成式 AI

创作者主导的后期处理

用于计算机视觉的视频

图片元数据扩展

诺基亚推进编码视频的新兴应用案例

相关推荐

ELECARD 视频压缩手册第一章：视频编码简述

视频编码测试平台CodecWar

RTC 场景下的视频编码优化与 AI 超分结合实践

活动 | 字节跳动多媒体实验室联合ISCAS 举办第三届神经网络视频编码竞赛

腾讯云媒体处理(MPS)视频编码内核再升级，研发神经网络压缩技术TNC

腾讯蝉联2025 MSU 4K 视频编码器大赛第一名，领跑 4K 编码赛道