压缩,不再只是音视频的问题
人们曾经习惯于将压缩视为一个音视频问题;如今,它关乎所有类型数据的压缩:基因组、点云、触觉数据、3D场景、神经网络和机器特征。
如今,每一种数据类型都必须经历某种形式的压缩,原因很简单:我们在每个领域,包括从娱乐到医疗,从自动驾驶汽车都在生成天文数字般的数据量。
自1947年晶体管发明以来,仅仅七十多年,人类就解锁了前所未有的计算能力、无线网络、互联网、人工智能、移动设备、高清显示器,以及在遗传学、医学和太空探索领域的惊人进步。
这一切都建立在一个基座之上:数字数据。
作为人类,我们热爱数据。食物和水或许滋养我们的身体,但数据一旦转化为知识,就滋养我们的心灵。
当我们在分享数据时,人类作为一个物种在进化。
我们在创新。
而我们似乎并未放慢脚步。
早在2020年,全球在一年内创建、捕获、复制和消费的数据约为59泽字节(相当于59万亿吉字节),而预测到2025年将增长至约175 ZB。一泽字节等于8,000,000,000,000,000,000,000比特。我们很擅长生成数据,但问题在于如何传输它、存储它、处理它……以及信任它。
你可能听过”数据是新的石油”这句话。它不是。石油是有限的。数据不是。
这正是压缩如今成为整个数字生态系统基础技术的根本原因。
媒体世界的支柱
ISO/IEC JTC 1/SC 29 并不是一个为大众所熟知的品牌,但其工作成果支撑着整个数字媒体和娱乐产业。该分技术委员会负责协调 JPEG(定义图像压缩标准的组织);以及MPEG附属小组,一个开发视频、音频和其他多媒体数据压缩与传输技术的机构。
SC 29输出的标准覆盖了完整价值链:内容创作、处理和存储;广播分发;基于IP的流媒体传输;以及在从智能手机到大屏电视等各种设备上的消费。如今发生变化的是,其范围正从”面向人类的媒体”扩展到”面向人类和机器的数据”,涵盖图像、视频、3D、AI及更广领域。
JPEG:从.jpg到AI、可信度、全光与DNA
三十多年来,JPEG(.jpg)一直是网页的默认视觉格式。但该委员会已大幅扩展了其技术版图。
JPEG AI:潜在张量,而非像素
JPEG AI 是首个基于学习的图像编码标准,它使用人工智能和潜在空间,而非手工设计的变换。
在JPEG AI的核心,编解码器将图像转换为一个潜在张量,然后对该张量进行压缩和传输。解码器从这个潜在表示中重建图像,但也可以直接在压缩域中操作,使得分析管道和计算机视觉任务无需完全解码像素即可完成。
一份压缩表示,同时服务于人类观看和机器分析。
JPEG AI还集成了”按需”复杂度的概念:标准定义了三种解码变体,具有不同的计算成本,让设备能够根据自身硬件能力选择最佳转换方案。这种自适应架构因此能够在从低功耗终端到高性能平台的各种设备上实现优化使用。
JPEG Trust:AI合成世界中的真实性
互联网上正在被大量合成图像、视频乃至新闻所淹没。所有这些都可以由强大的生成模型在几秒钟内生成。人类和算法已难以轻易辨别什么是真实的、什么是合成的,而这直接影响到搜索排名、品牌信任和用户对真实性的感知。
JPEG Trust 定义了一个框架,用于追踪数字图像的来源、真实性和所有权,包括AI生成的内容。这对于妥善管理那些被故意修改或创作出来操控公众舆论的媒体(深度伪造)的传播和使用至关重要。这是欧盟发布的《AI法案》中的一项目标。
JPEG Trust 定义了一个在数字媒体中建立信任的框架。
它建立在并扩展了内容出处和真实性联盟(C2PA)引擎之上,这是一种在网络上验证真实性的解决方案。它定义了一种标准方式,为媒体附加元数据,记录其来源及任何后续修改。
可以把它想象为一个随内容一同旅行的嵌入式数字签名。
JPEG Pleno:光场、点云、全息图
JPEG Pleno 是一个用于表示和压缩全光数据的国际框架:光场、点云和全息图。它超越了2D图像,捕获空间中光的方向和强度,而不仅仅是颜色和亮度。
这对于 VR/AR、医学成像和文化遗产应用至关重要,这些场景需要对复杂的体数据进行高压缩率、随机访问和交互能力。
JPEG Pleno 标准化了编码工具和文件格式,使下一代捕获设备如光场相机、LiDAR系统和体数据平台能够集成到可互操作的工作流中,而非定制的、孤立的数据管道。
JPEG XS:轻量级、低延迟视频
JPEG XS 与众不同。
这是因为它也面向视频,但关注点与MPEG截然不同。JPEG XS不追求将压缩推向极限,而是优先实现超低延迟和低复杂度。在许多专业工作流中,它作为未压缩视频的一种实用替代方案出现。
约为4:1的轻量压缩比,就足以在传统上承载1080p50 over 3G-SDI所需带宽内传输4K/50p/4:2:2/10比特信号。这意味着:同一条线缆,HD带宽,但传输的是4K内容。这不仅节省了带宽,还降低了能耗,只要压缩的成本低于传输的成本。
这正是电视学会(Television Academy)向弗劳恩霍夫研究所(Fraunhofer)和intoPIX授予2025年技术与工程艾美奖的原因之一。
JPEG DNA:在分子中存储图像
最具想象力的探索之一是JPEG DNA,其存储介质不是磁性的或光学的,而是生物的。DNA是大自然最初的数据存储介质,具有令人难以置信的长久保存能力,领先任何磁盘或磁带若干数量级。
问题在于:我们的数字数据产量呈指数增长,而传统存储介质的耐久性有限,往往在几十年内就变得不可读取(想想软盘和CD)。相比之下,DNA在适当条件下可以保存信息数百年甚至更久。
JPEG DNA 的目标是定义如何以高效且鲁棒的方式将数字图像编码为DNA序列,同时尊重生化约束并处理合成和测序过程中的高错误率。
这听起来像科幻小说,但它是一种尝试。当开始用世纪而非年来思考时,想象一种”面向未来”的存储解决方案会是什么样子。
MPEG:超越比特率,迈向AI原生和能感知能源的编解码器
为什么我们仍然需要新的视频编解码器
动态图像专家组(MPEG),在三十五年多的活动中发布了真正构建了媒体产业的编解码器:MPEG-2、MPEG-4、AVC、HEVC、VVC、AAC等等。
最新的视频标准叫做VVC(通用视频编码),于2020年发布。
为什么我们需要新的视频编解码器?
视频仍是当今我们分发的所有媒体中带宽消耗最大的;它充斥着IP网络、地面和卫星链路以及数据中心。
每一代新的编解码器都带来了比特率降低,直接转化为更低的分发成本和更广泛的覆盖范围(例如,在AVC/HEVC约束下无法获得UHD的用户现在可以获得)。这一逻辑仍然成立,但它不再是唯一的驱动力。
时代在变,虽然相同视觉质量下的比特率降低仍然很重要,但它已不再是创建新视频编解码器的唯一动机。下一代编解码器的评估标准将不再仅仅是压缩效率,还包括延迟、部署可行性、实施成本和用例相关性。
MPEG增强压缩模型(ECM)项目已达到第19版,在随机接入配置下相比VVC实现了约27%的比特率节省。ECM可能是未来H.267编解码器的基础,其目标是相比VVC(H.266)降低约40%的比特率。
该编解码器专为多样化应用设计,包括移动流媒体、直播、沉浸式VR/AR、云游戏和AI生成内容。它针对高效实时解码和可扩展的编码器复杂度进行了优化,支持高达8Kx4K的分辨率和高达240fps的帧率。它支持立体3D、多视角内容、宽色域和高动态范围。
H.267标准目前预计将在2028年完成,而有意义的部署可能要等到2034至2036年左右。
有趣的是,编解码器周期已缩短:AVC到HEVC约10年,HEVC到VVC约7年,而VVC到H.267预计约8年。原因之一是MPEG不再是唯一的”领头羊”:AOMedia正在推进AV1和AV2,AVS3在中国正在成长,专用或利基编解码器也在并行涌现。
拟议的时间表旨在维持适当的周期,使新标准在市场上保持竞争力,提供优越的压缩性能并满足行业需求。
提案征集预计在2026年7月进行。
2026年中至2027年初,将进行一系列主观视频质量评估,覆盖各类内容(SDR、HDR、游戏和用户生成内容)。独立实验室受邀参与(截止日期延至2026年4月15日),须遵守严格的技术、组织和利益冲突要求;结果将有助于对未来视频编码标准的评估。
能效与绿色元数据
随着编解码器变得越来越复杂,编码变得越发耗能。在这个世界正将可持续性列为高层级优先事项的背景下,这越来越难以接受。
ISO/IEC 23001-11(绿色元数据)通过定义允许设备和显示器减少功耗的元数据来解决媒体能效消费问题,例如根据内容特性调整背光级别。
生态系统正在开始将能源作为首要考量而非事后想法,将”每比特焦耳”与”每像素比特”放在同等重要的位置来对待。
“能效”正成为编解码器选择的正式标准,与BD-Rate并列,尤其在移动和大规模流媒体场景中。
视频编码中的人工智能:混合方法、超分辨率、端到端
将人工智能应用于视频编码又如何呢?
MPEG继续其超越传统二维变换加运动补偿框架约束的工作。
人工智能在2020年代已变得日益重要,毫无疑问将影响我们生活的许多方面。然而,它们对通信技术近中期演进的影响仍不确定。在视频编码领域,重要的是要认识到,部署广泛的大众视频系统必须实用、稳健、能效高且成本效益好,同时仍能提供最先进的压缩性能。
因此,任何基于人工智能的方法都必须解决整个视频处理链条的问题,从预处理和编码到存储、传输、解码、后处理、分析和内容再利用。此外,这些解决方案必须支持高分辨率、高帧率和高动态范围,同时实时运行。
这就是为什么JVET在多个运行点上评估神经工具:VLOP(极低复杂度)、LOP(低复杂度)和HOP(高复杂度),明确地在编码增益与计算预算之间取得平衡。
JVET小组正在沿三个主要方向探索神经网络视频编码(NNVC):
- 混合编解码器中的神经工具:神经组件被添加到传统变换加运动补偿框架中,替代或增强现有工具。例如:
- 深度参考帧(DRF inter),以更高的解码器复杂度为代价增强运动补偿的参考帧……
- 跨分量卷积模型(CCCM),通过学习跨分量结构来改善色度预测和去噪,提供了良好的权衡。
- 神经超分辨率和后滤镜:编解码器保持传统(例如VVC),但修改了管道:
- 在编码前降低输入分辨率,从而产生小得多的比特流。如果预处理阶段在水平和垂直方向上都将输入下采样两倍,进入编码器的数据量立即减少四倍。
- 解码后,用神经超分辨率将视频上采样回目标分辨率。关键在于用超分辨率恢复感知质量。
- 神经后滤镜(NNPF)在解码后运行以在保持比特流合规性的同时增强质量。
- 端到端神经编解码器:整个管道——分析变换、熵模型、合成变换——作为一个单一网络来学习。在MPEG中,端到端神经超分辨率、学习帧内编码和DRF inter(深度参考帧)也被视为端到端神经方法。
NNVC目前处于算法和软件规范的第15版,在Y-PSNR下相比VVC报告了约6–14%的BD-rate降低,在高复杂度运行点上有更高增益。
缺点是解码器复杂度:在极低复杂度下比VVC高出一个数量级,在最激进模式下高达两个数量级,这对移动设备构成挑战[参考VTM基准的14倍(VLOP)到118倍(HOP)]。
2026–2027年的路线图正在变得格外引人注目。从技术角度来看,减少计算复杂度和能耗的重视程度正在显著增强。复杂度报告已成为开发过程中标准化和不可或缺的组成部分,而非事后想法。权重剪枝、减小感受野、知识蒸馏和纯整数推理等技术正日益被视为基线要求,而非可选的优化。
在这个阶段,真正的差异化预计将来自深度、内核级别的优化,特别是针对SIMD架构(单条指令在多个数据元素上并行操作)和NPU后端(专门设计用于高效加速AI和机器学习工作负载的专用处理器)的优化。
最终,成功将属于那些能够在实际部署中提供最高性能的人——换句话说,那些能够交付最快、最高效解决方案的人。
可复现性是另一个重要主题。
明显转向比特精确推理和模型注册表的建立——官方仓库,委员会在这里托管用于实验和交叉验证的精确神经网络模型。这些注册表不仅捕获模型架构和权重,还包括版本控制、训练配方和相关元数据。
目标是确保每份提交都能被他人完全复用、审计和验证。生态系统正日益拥抱”信任但验证”的理念,工具也在相应地发展,以支持透明的验证和长期可复现性。
我们也看到了特定神经工具的早期整合。对于主流配置,神经网络环路滤镜(NNLF),包括LOP和VLOP,以及跨分量卷积模型(CCCM),看起来是早期的赢家。与此同时,DRF inter似乎注定在更高级别的编码器和解码器中更频繁地出现——尤其是在有NPU可用的环境中。
问题不再是”神经工具有帮助吗?”而是”在满足解码器功率和延迟预算的同时,我们能保持多少增益?”
接下来的两个JVET周期将验证这些想法,因为社区正在定义超越VVC的道路。从NNVC中汲取的经验教训预计将在塑造未来的测试条件和为可允许的复杂度设定预期方面发挥重要作用,帮助为下一代视频编码技术建立现实且有根据的基线。
面向机器的视频:VCM和FCM
大多数人仍然认为视频压缩是为了让人类观看的。但如今,大量视觉数据——尤其是来自摄像机的数据——被机器所消费:自动驾驶汽车、无人机、工业机器人、智慧城市传感器和监控系统。
然而,这些系统中的大多数仍然使用面向人类的编解码器流式传输基于像素的视频。这浪费了带宽,扩展性差,还会将原始视觉内容(包括人脸和敏感场景)暴露给第三方服务器。
MPEG-AI(ISO/IEC 23888)以此为响应,提供了一系列专为机器对机器(M2M)通信设计的标准,包含两个关键支柱:面向机器的视频编码和面向机器的特征编码。
面向机器的视频编码(VCM)
VCM围绕机器任务性能而非人类视觉质量,重新组织了经典视频编码管道。VCM不优化PSNR或SSIM,而是优化目标检测、跟踪、分割等任务,应用于智慧城市和自动驾驶等场景。
VCM代表着向以机器为中心的视频编码迈出了重要一步。
为此,VCM在几个关键方面偏离了传统的信号中心方法。它应用时间重采样,丢弃为目标任务不提供额外信息的帧。VCM不是传输全分辨率帧,而是根据任务相关性自适应地下采样空间分辨率。此外,它还能安全地降低亮度、色度精度,丢弃对机器推理性能没有影响的最低有效位。
重要的是,VCM仍然包裹着标准H.26x编解码器(AVC/HEVC/VVC),但在其周围添加了任务感知的前处理和后处理。缺点是它仍然传输可识别的帧,这引发了隐私问题。
VCM已达到DIS状态(国际标准草案)。
面向机器的特征编码(FCM)
FCM通过压缩中间神经特征而非像素来解决隐私和带宽问题。
如今,大多数机器对机器系统依赖远程推理,边缘设备向云端发送全视频帧进行处理。这种方法存在问题,因为像素视频数据带宽密集,而且原始图像通常包含敏感信息(如人脸、位置和场景上下文),不应必然暴露给第三方服务器。
与此同时,现代边缘设备越来越多地配备了能够在本地执行部分神经网络运算的NPU——即使它们无法端到端运行完整深度模型。这创造了一个将模型拆分的机会:在设备上执行早期层,然后仅传输压缩的中间特征,显著减少数据传输的同时保持任务性能。
这就是协作智能的理念。
这意味着在边缘设备上运行神经网络的第一部分,然后将中间特征张量传输到云端,由云端完成推理。
为此,FCM降低了中间特征张量的维度,消除了不必要的自由度。它剪枝了对任务没有有意义贡献的冗余特征通道,并量化了数值精度,将32位浮点值映射到10位(或类似)整数表示,在不损害任务性能的前提下显著减小数据大小和计算成本。
带宽节省可能非常可观,在某些场景下高达约97%,而特征保留了语义但未保留身份。即使被拦截,也不会直接暴露图像。实际上,使用HEVC作为这些特征的内层编解码器,性能几乎可以与VVC相媲美,使部署更加灵活。
FCM目前处于工作草案(WD)阶段,正在推进至委员会草案(CD)。
用于多媒体内容描述与分析的神经网络压缩
人工智能的讽刺之处在于,我们用来压缩和解读数据的模型本身就是庞大的数据块。将最先进的深度模型通过网络传输,或部署到内存紧张的设备上,带宽和存储成本都很高。
要理解压缩的需求,可以考虑这样一台相机:它基于由训练有素的神经网络执行的场景或物体识别来调整自动模式。这是一个快速发展的领域,新的、训练更好的模型随时间推移而变得可用是很常见的。
然而,开发这种”智能”需要大量时间和人力投入,所以一旦模型准备就绪,通常会从中央位置部署到数百万台用户设备上。现代神经网络现已达到数百兆字节的大小,这造成了一个可扩展性问题。数百万台设备同时下载具有增强功能的新模型,将对网络造成巨大且可能不可持续的负载。
虽然较简单的部署涉及训练一次神经网络,将其传输到设备上,然后在本地用于推理,但新兴的范式如联邦学习需要大量设备和中央服务器之间的持续双向通信。在这些场景中,高效的压缩和通信机制变得至关重要。
神经网络编码(NNC)挺身而出,提供了一种标准化、高效、模块化的方法来大幅缩减神经网络,同时不损害其准确性。
因此,NNC标准旨在通过结合多种互补技术,实现深度神经网络的高压缩效率。这些技术包括用于数据缩减的预处理方法,如稀疏化(例如将选定的权重设为零以使张量更易压缩)和结构性剪枝——移除对性能贡献甚微的整个神经元或滤波器。这些步骤之后是量化和上下文自适应算术二进制编码,特别是DeepCABAC,以高效编码剩余信息。
结果是:神经网络可以压缩高达约97%,同时保持其准确性。
这项技术看起来像是一块可以”安装”到其他MPEG标准上的乐高积木。这种模块化解释了为什么该小组正在推进NNC作为FCM的内层编解码器的工作,以及NNC在球谐函数(SH)系数上的应用——在高斯泼溅编码(GSC)中。
高斯泼溅与点云
MPEG继续探索高斯泼溅编码(GSC),这是用于3D场景捕获和渲染的高斯泼溅(GS)表示的压缩技术。
3D高斯泼溅从根本上改变了真实世界场景的捕获和可视化方式。与产生基于网格模型的传统摄影测量法,或依赖计算密集型光线追踪的神经辐射场(NeRF)不同,高斯泼溅将场景表示为数以百万计的模糊椭球体(泼溅),可以高效渲染。新视角只需从所需角度绘制这些泼溅即可生成。
结果是:在消费级硬件上以实时帧率实现逼真渲染,使高斯泼溅特别适合虚拟和增强现实、沉浸式视频、交互式网络体验和游戏开发。
高斯泼溅数据本质上由3D空间中的点集合组成,每个点关联着位置、方向、尺度、不透明度和颜色系数等属性。确定最有效的压缩和传输方式仍然是一个活跃的研究领域。
压缩后的高斯泼溅表示可以潜在地承载在现有视频基础设施上,利用熟悉的编码和分发管道;或者在基于几何的点云框架内处理。不同行业倾向于不同的方法,主要取决于它们已有哪些基础设施。
在点云方面,G-PCC系列标准持续扩展以覆盖更广泛的用例。这包括E-G-PCC:引入增强时间预测以改善动态和时变点云的压缩;GeS-PCC:针对密集实心对象和更像连续流形的表面类结构;以及L3C2:专为旋转LiDAR传感器设计的低延迟点云编解码器,用于自动驾驶和机器人技术的实时处理应用。
音频:沉浸感、个性化与对话清晰度
视频通常占据聚光灯,但没有出色的音频,沉浸式体验就会功亏一篑。MPEG-H Audio正因其从通道式向对象式方法的转变而获得越来越多的关注。
对象式音频允许用户个性化混音,提升解说声、降低人群噪音,或在广播商提供的不同视角之间切换。专家们正致力于实现完整的六自由度(6DoF)音频,用户可以在3D空间中定位声源,随着移动感知响度变化,体验逼真的混响和遮挡(当声源与用户之间有物理物体阻挡时)。
特别有影响力的功能是MPEG-H Dialog+,它将语音从音轨其余部分分离出来,允许选择性增强对话。这对听力障碍者以及对在不影响音乐和效果质量的前提下听清混音中语音的任何人,都是一个实用的解决方案。结果:在保持背景音乐高质量的同时,实现一致的增强对话。
结论
一个清晰的模式浮现出来:压缩不再仅仅是减小文件大小的技术,而已成为指导数字系统设计、可扩展性和可靠性的统一原则。
我们正在压缩一切:从图像和音频,到基因组、神经网络和高维世界模型。在这个过程中,重点正从以人为中心的表示转向以机器为中心的表示,在那里语义比像素更重要,意义优先于原始保真度。与此同时,信任、真实性、能源消耗和计算复杂度正走向前台,直接嵌入我们的媒体和数据管道之中。
在这个更广阔的视野中,压缩扮演着全球数据圈的”操作系统”角色:运作良好时鲜被注意,却是建立在其上一切事物的基石。它定义了我们能存储什么、能传输什么、能多高效地学习和迭代,而且越来越决定着什么是我们可以相信的。
作者:Roberto Iacoviello
原文出处:https://towardsdatascience.com/from-pixels-to-dna-why-the-future-of-compression-is-about-every-kind-of-data/
编译:小极狗
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/66285.html