IBC 2022|8K VR冬奥会(2022)技术创新

4K 分辨率远不足以满足通常观看高清电视的观众的期望。在北京 2022 年冬奥会上,英特尔 VR 技术平台支持为奥林匹克广播服务 (OBS) 捕获和制作首个完整制作的 8K VR 视频直播,然后将其提供给全球范围内的权利持有广播公司 (RHB)。此次合作以 VR 方式直播了北京奥运会全程制作的 100 多个小时的赛事,并配有画面和解说。现场报道包括冰球、单板滑雪和花样滑冰等六项运动,采用了 VR180 和 VR360 开创性的 8K 分辨率。

来源:IBC2022
论文标题:TRAILBLAZING WITH 8K LIVE VR AT BEIJING 2022
论文作者:Rob Koenen 等
论文链接:https://www.ibc.org/technical-papers/ibc2022-tech-papers-trailblazing-with-8k-live-vr-at-beijing-2022/9286.article
内容整理:汪奕文

工作流程

我们将首先描述端到端的工作流程,然后放大 IBC 观众感兴趣的一些细节。

  • 捕获和传输:摄像机选择、摄像机放置和传输
  • 制作:接收信号、多摄像机制作编辑、添加图形和多通道音频混合、生成夹层信息
  • 贡献:发送用于用户转码的夹层信息
  • 云服务和转码:生成适合分发到用户设备的流
  • 分发:通过 CDN 分发到用户设备
  • 终端用户消费:用户播放器和交互环境
图片

捕获和传输

与过去的工作流程相比,最重要的技术变化是 8K 拍摄。以 7680 x 3840 分辨率的等量矩形投影 (ERP) 捕获 360° 视频信号。我们使用了两种不同类型的 8K 相机,一种是 30fps 的较小型号,另一种是 60fps 的较大相机,以获得最佳质量。较小的相机用于空间狭窄的地方,例如两条冰道之间;而较大的摄像机用于开幕式和闭幕式。

8K VR180 和 8K VR360 之间的差异是显著的。这是因为在 VR180 信号中,全 8K 分辨率用于(180°)半球而不是全球体(360°),像素密度比传统 8K VR360 视频高出一倍以上。对于 VR180 信号,变焦镜头设置为 13 毫米,它略高于 15K。这意味着在鱼眼图像的中心,分辨率约为每 360° 15,000 个像素。我们通过测量整个传感器的平均水平分辨率(以每度像素为单位)来计算这一点,其中镜头捕获的水平角度为 184°。这使得赤道上的 ERP 等效分辨率为 15026 像素。

如上所述,我们使用了五台 VR180 摄影机进行制作,一位导演通过在这些摄影机之间切换来制作单个 VR180 信号。摄像机被放置在尽可能靠近动作的地方,这样它们就可以共同覆盖所有的动作。

电视复合设置非常紧凑,由英特尔 Tofino 交换机驱动的 IP 设备组成,这些交换机将摄像机反馈发送回 IBC。自由式滑雪和单板滑雪比赛在距离北京 IBC 180 公里的张家口举行。这些比赛的信号通过 ZBC(张家口广播中心)的额外中继传输,然后通过 L2 连接到达北京 IBC。NDI 信号从 IBC 发送回场地以进行监测。

制作

制作支持

VR-Cast 是在北京 IBC 制作的。一名导演在技术总监 (TD) 的协助下,使用 8K 切换器将五个传入的 VR180 信号混合成单个输出流。VR180 场景的 3D 空间中还放置了一个虚拟大屏幕,包括了分数和时间等附加图形元素。包含电视节目源的虚拟超大屏幕作为高清源插入。它通常位于不显眼但可见的位置,通常位于动作上方。虚拟超大屏幕,就像它在体育场内的对应物一样,提供了观众无法从 VR 摄像机获得的特写镜头和回放。

实时图形

所有图形均在游戏渲染引擎中生成,以便将它们放置在 3D 空间中,由专门的操作员将图形实时添加到 8K 信号中。它们是在相机/镜头组合的原生投影中处理的。VR180 信号的图形处理发生在鱼眼域,以尽量减少信号中的重投影次数,因为所有这些投影都不可避免地以失去保真度为代价。英特尔还与第三方合作升级路由器的固件以支持 2SI 中的 8K。路由器使我们能够根据制作需要路由所有提要,并启用带有版权持有广播公司 (RHB) 评论的 OBS 音频的音频嵌入。为了允许将虚拟大屏幕(包含高清广播源)和其他图形元素(例如分数和时间)实时插入 8K p60 源,我们需要创建自己的渲染管道。它使用多个虚拟摄像机渲染静态视点 (PoV) 并将其投影到 2D 纹理缓冲区中。我们还创建了在 3D 环境渲染后应用的高级着色器语言 (HLSL) 自定义着色器。这使我们能够将图形与实时的鱼眼失真镜头相匹配。

生成社交媒体信号

我们为各种网站和移动设备创建了两个单独的输出信号。使用第三方解决方案,我们创建了一个模板,采用 180° 输入,将其投影到 360° 球体上,然后将虚拟套件和其他图形元素叠加在顶部,生成了用于社交媒体的 VR 360 ERP 视频。我们还插入了特有的音频频道:NBC 和 OBS 的英语频道,以及 CCTV 的中性音频。

贡献

VR180 和 VR360 信号在 HEVC 中以 120 Mbit/s 的速度编码,然后使用安全可靠传输 (SRT) 从北京 IBC 传输到东京的公共云数据中心。我们采用在英特尔处理器上运行的 8K 编码器进行实时夹层编码。传输是通过到东京的专用光纤连接完成的,这条线路在东京数据中心交叉连接。

云服务和转码

两个 VR 信号都被转码为分片式和非分片式的自适应比特率阶梯。非分片式 (HLS) 信号主要在中国使用,数百万的观众在 CCTV 网站和移动设备上访问实时 VR 内容;而分片式信号通常用于头戴式设备。在 VR 应用程序中,用户只能看到图像的一部分:360°信号大约是 1/8,而 VR180 是整个半球的 1/4。这意味着传统的非分片式流媒体系统传输的像素比观看者看到动作所需的像素多得多。同理,解码器也解码了用户无法看到的像素,限制了用户看到的视频的分辨率。分片式流通过将图像切割成许多tiles来克服这一限制,只传输用户当前视野中的tiles。由于客户端应用程序知道用户正在查看的位置,因此它可以确定需要哪些tile,并从 CDN 请求这些tiles。客户端应用程序将这些比特流片段重新组合成一个比特流,并将其发送到设备中的硬件 HEVC 解码器。解码后的帧看起来像一个滑动拼图,分片式视频播放器获取各个tile并将它们投影到用户视图中的正确位置。一些tile用于生成覆盖整个球体 (360°) 或半球 (180°) 的视频的低分辨率版本。这可以防止用户在移动头部时看到黑色斑块。如果网速足够快,这个背景几乎是不可忽视的。

图片
Tiled ERP

在分片之前,我们将 ERP 转换为立方体贴图。这对于球形视频的更有效表示,因为 ERP 在其最高点和最低点非常浪费。180 鱼眼图像被转换成半个立方体贴图。为了实现自适应比特率流,我们以不同的分辨率创建了三个立方体贴图,以提供 3 个自适应比特率流标准。北京 2022 标志着这种自适应比特率分片式流媒体首次用于直播和点播内容。为了获得最佳用户体验,我们不仅提供 3 个 ABR 级别,还为每个级别编码了三个不同的图片组 (GOP) 版本。这使用户端能够对头部运动立即响应(使用最短的 GOP)并尽可能高效(使用最长的 GOP)。我们的分片式转码器采取以下步骤。首先,它使用 GPU 将 VR 视频重新投影到立方体贴图中,同时创建不同的分辨率版本。在确定每个分辨率的最佳分片方案后,提取每个分辨率版本的 tiles ,其中 tiles 之间具有小的重叠以实现无缝重建。然后将所有 tiles 编码为三个不同的 GOP 版本。我们的系统使用一个管理任务,该任务调度许多并行编码以及打包作业。tiles 以优化 CDN 缓存命中的方式一起打包到 ISO 文件中。我们使用修改后的开源 SVT-HEVC 软件编码器,运行在数千个 CPU 内核上,为实时工作流程并行工作。编码器修正约束运动矢量以实现不失真的分片式解码。

分发

转码后,我们将信号输出到东京的专用源服务器。使用快速可靠的复制协议,该源站的内容被复制到其他源站服务器,依次返回中国以及美国西海岸、美国东海岸和欧洲。我们使用了两家 CDN 提供商,一家在中国,一家在世界其他地区。为分片流提供比特率比为常规流 (ABR) 提供比特率更难,其原因有三个。首先,分片流的比特率取决于用户行为。频繁的头部运动会导致更多的 tile 请求,并且平均而言,GOP 表示的效率较低。其次,分片流是“贪婪的”,它使用可用带宽快速下载 tiles ,导致比特率飙升。当带宽(暂时)受限时,系统在将 tiles 更新为高分辨率时响应会稍慢一些。最后,比特率可能取决于内容,尤其是其中的运动量。虽然在这种情况下提供比特率信息非常有用,但这意味着我们只能给出粗略估计的平均比特率。

终端用户消费

英特尔聘请 Cosm 开发了 VR 头戴设备 app ,该 app 是为版权控股广播公司 NBC Universal 和 CCTV 定制的。该 app 包含一个分片式视频播放器软件开发工具包 (SDK)。用户可以通过应用商店访问 VR 头戴设备 app。在赛事直播和回放期间,用户可以在 360 和 180 源之间进行选择。VR180 视频以一个虚拟套件呈现,并装饰有奥运会海报、图形和小工具。该套件有一个非常大的虚拟窗口,让用户感觉身临其境,而且通常非常接近运动员们。例如,在冰球比赛中,两个摄像头靠在每个球门后面的玻璃墙上,球员们经常会撞上那堵墙,看起来像似乎是要进入屏幕。在发生这种情况时,许多观众会跳回座位,这就是视频所带来的真实感。虚拟套件的设计使其覆盖了所有四个侧面的视频边缘,增强了存在感。图 4 给出了环境的印象;用户只能在他们的头戴设备中看到整个环境的一小部分,约为整个 ERP 的 12%。

图片
VR 头戴式设备APP使用体验

这款 app 为用户提供了在观看现场活动时与朋友实时交谈的选项。使用 webRTC 点对点语音通信模块,体育迷能够与多达 4 位朋友建立“观看派对”。虽然 VR 视频的端到端延迟约为 80 秒,但所有观众都有相同的延迟,并且语音通信是即时的。因此,球迷们仍然可以自由地谈论他们正在观看的赛事并为进球加油,而不会破坏其他观看派对参与者的体验。

未来展望

北京 2022 冬奥会是第一个拥有完整制作的 8K VR 的活动,功能包括了可在多个摄像机之间切换、动态图形插入和社交特征。这也是 8K VR360 和 VR180 首次向全球观众直播。无论是直播还是点播,这无疑是第一次使用 8K VR180 的体验,分辨率比 VR360 显著提高了。此外,这是一个帧率为 60fps 的工作流程,达到了观看体育运动视频所需的帧率。

我们相信,在这样的制作和发行质量下,实时 VR 视频终于跨越了体验的门槛,为广大观众提供了优质且吸引人的体验,我们希望更多这样的活动能够效仿北京 2022 冬奥会的例子。同时,这肯定不是 VR 视频之路的尽头。在未来,将出现更好的头戴式设备,拥有更轻的质量和更高的分辨率。本文中描述的制作和分发工作流程就可以进一步改善用户体验。在原生 8K 传感器分辨率下,VR180 信号的分辨率明显超过了头戴式设备的分辨率。这意味着现在头戴式设备制造商需要采取进一步的研究。

此外,VR360 摄像机将开始超越 8K,并已经被用于点播内容,很快也将会用于直播。VR360 可以媲美 8K VR180 的惊人画质。例如,11K 分辨率的 VR360 分块式将与北京 2022 使用的 11K ERP 等效 VR180 分布相同。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论