体积视频如何将3D渲染视频变为现实

距具有里程碑意义的虚拟演唱会 ABBA Voyage 在伦敦首演已经过去了三年。这场演出以全数字化的方式呈现了标志性的 ABBA 阵容，带领观众回到过去，欣赏乐队在可容纳 3000 人的 3D 舞台上唱歌、跳舞，并仿佛进行互动。

类似的技术也深受其他艺术家的欢迎，为现场演唱会释放了无限的创意潜力。近年来，麦当娜曾与五个自己的全息投影一同演出，为她的现场表演增添了更多戏剧性；而惠特尼·休斯顿的沉浸式全息巡演则让歌迷有机会以数字形式缅怀这位音乐偶像。

立体内容捕捉技术，即从多个摄像机角度同步录制，已经带来了全新的实时娱乐可能性，例如上图所示的场景，从而创造了许多创新体验。但是，这项实时技术的下一阶段又将如何发展呢？它能否让人们在现实生活中与完全立体的物体进行交流或互动？

体积视频处理技术使这一切成为现实，它让观看者能够不受特定视角或位置的限制，探索远程或虚拟环境。这种新增的深度和视角为实时应用带来了更强的沉浸感和更有意义的互动——不仅在娱乐行业，而且在专业和个人领域也日益普及。

更妙的是，体积视频不需要对软件或硬件进行重大改造，因为它基于现有的标准和设备，支持低延迟端到端流媒体传输。

体积视频的工作原理是什么？

诺基亚开发了全球首个基于标准的实时体视频通信系统。该系统基于视觉体视频编码（V3C）和MPEG沉浸式视频（MIV）标准，并利用了现有的2D视频编码工具。这使其成为一种经济高效且可扩展的解决方案，避免了通常与体视频相关的比特率要求和缺乏标准化的问题。

这套方案非常简单：4 摄像头或 8 摄像头配置能够提供在头戴式显示器 (HMD) 上呈现完全沉浸式 3D 内容所需的细节。同时，2 摄像头配置（可集成到笔记本电脑和/或显示器设备中）则为在线培训和远程协作等日常应用场景开辟了新的可能性。

以往的实现方案依赖于预编码媒体的传输，但V3C有效载荷格式中实现的实时传输协议（RTP）定义了对实时体视频传输的协议级支持。利用飞行时间（TOF）技术进行深度感知，可以实现环境映射，无需绿幕摄影棚或色键抠像即可将人物或物体从周围环境中分割出来。该系统能够实现极低的端到端延迟，约为160毫秒（ms），完全符合对话交互的要求，并且低于传统远程会议服务的平均延迟。

体积视频的主要应用场景

任何需要更个性化、更具吸引力的远程交互的应用都可以通过体积视频进行增强。

过去五年，随着视频会议技术的显著进步，混合办公模式已成为常态。然而，二维视频图像（以及元宇宙环境中使用的卡通头像）在人际互动方面仍然存在局限性。借助立体视频，您可以获得潜在新员工或主题演讲嘉宾的完整形象，包括他们的所有非语言肢体语言和举止，从而实现更有意义的沟通。

借助立体视频技术，音乐、体育或喜剧爱好者可以（虚拟地）与偶像并肩而立，获得更具沉浸感的体验。高尔夫球迷将能够揭开世界冠军挥杆的秘密——通过各个角度的实时分析，他们可以近距离感受开球的刺激。

在线教育是另一个能够从视觉深度感知能力提升中获益匪浅的领域。例如，一位吉他老师可能想要观察学生在指板上的手部位置和手指摆放。这种全面的视角可以帮助老师远程识别并纠正任何可能影响学生演奏能力的细微之处。这显然是对当前二维视频会议工具局限性的重大改进。

在专业环境中，体素视频技术使一群人能够进入共享的扩展现实三维空间，并与三维CAD模型进行实时交互。这是因为体素视频技术能够实时捕捉物体，无需冗长的预处理步骤来创建三维模型。在这种渲染的现实环境中，工程师、建筑师或布景设计师可以从各个角度对模型进行动态检查，从而全面了解空间关系，并弥合虚拟规划与实际建造之间的鸿沟。

想象一下，在发动机维护培训中，发动机及其维护工作过程都被实时进行体积视频捕捉和共享。体积视频通信的实际应用前景十分广阔。