在 Meta 的各个平台上,视频消费呈爆炸式增长,从根本上改变了数十亿用户与数字内容互动的方式。根据 Meta 2024 年第一季度财报,视频在 Facebook 和 Instagram 上的观看时长占比超过60%,而且这一数字仍在以前所未有的速度增长。视频已成为推动 Meta 整个生态系统用户参与度和留存率的重要杠杆。
作为骨干基础设施提供商,Meta 媒体基础架构团队每天处理并分发数十亿个视频,这些视频分布在 Meta 旗下所有应用(FoA)中,包括 Facebook、Instagram、Meta AI、WhatsApp 以及其他新兴平台。我们的使命清晰明确:确保流经我们系统的每一段内容都能获得最佳的视频质量和用户体验,无论其原始质量如何,也无论用户使用何种设备观看。
过去几年,Meta 持续投资于尖端编码技术,以提升视频传输质量。这些投资包括部署 AV1 和 HDR 编码等新一代编解码器、利用 Meta 自主研发的 MSVP 硬件视频处理器、实施自适应比特率流媒体优化以及开发先进的质量测量系统。近期,Meta 已将关注点从传统的压缩技术扩展到 AI 辅助技术,以从源头提升视频质量。这包括利用生成式 AI 模型创建高质量内容,以及部署视频超分辨率(VSR)和增强技术来提升用户生成内容的质量。
本文将详细介绍 Meta 大规模部署视频超分辨率 (VSR) 技术以提升视频质量的端到端策略。概述不同平台上的各种 VSR 解决方案,包括用于降低处理延迟的优化技术以及用于管理多个增强视频版本的数据模型支持。通过这些用例,展示如何利用广泛的主观质量评估来确定可靠的客观质量指标以及能够从 VSR 中受益的视频类型。
挑战:低质量视频源
当我们调查低质量视频的来源时,我们发现生态系统中存在三个主要来源:
- 用户生成的内容,可能是使用低质量相机或在光线不足的条件下拍摄的,也可能是由于带宽较低而在上传过程中被严重压缩的。
- 从其他平台下载并上传到 Meta 平台的 交叉发布内容。
- 我们库存中的旧版内容,最初以较低分辨率创建。
对于这些视频,我们可以利用后端服务器和客户端设备上的视频超分辨率和增强技术来提高分辨率和质量。
Meta 全面的超分辨率策略
超分辨率 (SR) 是一种通过提升图像或视频的分辨率,使其超越原始分辨率来增强其质量的技术。如今,大多数先进的超分辨率技术都采用基于海量视频数据训练的复杂人工智能模型。先进的超分辨率技术可以将颗粒感强、模糊不清的视频和图像转换为更清晰、更锐利的图像,使低分辨率内容在现代高分辨率屏幕上呈现更佳的视觉效果。此外,它们还能有效消除高压缩视频中常见的伪影。
在 Meta,我们的方法从两个方面着手解决这个问题。图 1 展示了一个高级处理流程,并重点说明了超分辨率技术的应用场景。

- 服务器端增强:我们可以在视频采集过程中应用高级超分辨率技术,为下游 ABR 编码创建高分辨率、高质量的源视频。这种方法利用我们强大的服务器基础设施运行计算密集型模型,从而最大限度地提升视频质量。
- 客户端增强:在播放端,由于网络带宽的限制,用户可能只能接收到低分辨率、低质量的视频;在这种情况下,我们可以应用超分辨率技术来提升视频分辨率,从而改善播放质量。当在客户端播放端启用超分辨率技术后,用户无需高带宽网络连接即可享受高质量内容,因为它会在用户设备本地提升视频质量。然而,考虑到功耗和计算能力的限制,在典型的移动平台上实现先进的超分辨率技术仍然极具挑战性。部署在客户端的解决方案必须轻量级,并且不能消耗过多的电量。为了避免高功耗,我们通常会利用移动 SoC 厂商提供的内置解决方案。
与我们过去部署的任何其他技术类似,我们也实现了端到端的质量记录和监控,以衡量超分辨率带来的质量改进。
在服务器端提高源视频分辨率会增加下游 ABR 编码的比特率,从而增加传输带宽。相比之下,在客户端播放端进行超分辨率放大不会增加带宽。因此,问题在于超分辨率应该在服务器端 ABR 编码之前启用,还是在客户端播放端启用。为了解答这些问题,我们进行了广泛的研究,评估了服务器端和客户端同时启用超分辨率对端到端质量和压缩效率的影响。我们的研究结果可以概括如下:
- 服务器端的高级超分辨率算法即使在后续进行自适应比特率 (ABR) 编码后,也能显著提升主观画质和压缩效率。当客户端启用升频算法时,服务器端使用传统的升频算法(例如 Lanczos 算法)仍然可以带来额外的效率提升,但提升幅度低于使用高级超分辨率算法。
- 无论服务器端是否启用超分辨率,在客户端播放端使用更优的升频或超分辨率滤镜始终可以提升播放质量。启用服务器端超分辨率后,客户端使用更优升频算法带来的提升效果会相应降低。
从这项研究中我们可以看出,服务器端和客户端超分辨率技术是相辅相成的。
本文余下部分将主要关注服务器端在数据摄取和创建阶段部署的技术。作为基础设施提供商,我们希望支持一系列具有不同质量和复杂度权衡的超分辨率算法,以便产品团队能够选择最佳解决方案。
我们产品组合中对人工智能功能的需求日益增长,这意味着对GPU资源的需求也在增加,因此我们正在寻求替代的处理方案。与英特尔的合作使我们能够在标准的x86 CPU基础设施上部署先进的超分辨率技术。通过采用英特尔的iVSR SDK,我们利用了一个中间件堆栈,该堆栈抽象了基于人工智能的视频处理的复杂性,并通过FFmpeg插件实现了无缝集成。iVSR SDK支持多种视频增强滤镜,这些滤镜配备了多个高性能、预优化的超分辨率模型,包括EDSR、TSENet和BasicVSR等。利用英特尔的 OpenVINO 工具包在标准的x86 CPU上部署这些先进的 AI 模型,消除了我们对稀缺GPU资源的依赖。这提高了我们基础设施的运营可扩展性和成本效益。因此,与英特尔的合作使我们能够在所有环境中普及高质量视频放大功能,将 AI 驱动的超分辨率技术引入到以前受GPU资源限制的产品中。
另一方面,我们仍然可以部署可在 GPU 上运行的高级 VSR 模型,以满足需要与其他 GPU 模型紧密集成和降低端到端延迟的使用场景。
生产部署:实际影响
最近,我们在 Meta Restyle 功能中部署了视频超分辨率 (VSR) 技术。Meta Restyle 代表了人工智能驱动内容创作的前沿技术。它允许用户通过更换服装、背景、光线和艺术风格来转换照片和短视频片段,用户可以使用预设选项或自定义提示,这些选项可在Meta AI 应用、Instagram Edits 应用以及 AI 眼镜中使用。MovieGen模型用于从用户输入的原始视频生成重新设计的视频,该模型需要在专用 GPU 主机上运行。
图 2 展示了一个高级流程图。首先,输入视频将经过预处理阶段,在此阶段,视频将被转换为 MovieGen 模型推理所需的特定格式。MovieGen 模型生成新视频后,将进入后处理阶段,在此阶段,根据用户请求,我们可以应用帧率转换和超分辨率技术来提高生成视频的分辨率和质量。

从图 3 的并排比较中,我们可以观察到,经过超分辨率模型处理的视频更加清晰锐利。

在 Restyle 用例中,为了降低端到端处理延迟,我们需要在同一 GPU 主机上运行超分辨率模型和 MovieGen 模型。为了进一步降低延迟,我们可以将视频分割成多个片段,在多个 GPU 上并行处理,最后将它们合并在一起。(参见图 4。)

将超分辨率技术集成到该流程中,展示了增强技术如何增强生成式 AI 的能力。
规模化挑战与解决方案
支持多种 VSR 部署方式
对于用户创建的每个视频,我们在后端创建一个数据模型,用于管理视频的整个生命周期。当我们对视频应用超分辨率或视频增强技术时,我们创建的并非一个全新的视频,而是同一个视频的不同版本。为了控制不同版本的处理和交付,我们改进了现有的数据模型实现,使其支持多版本。借助这项新功能,我们可以对同一个视频应用不同的增强技术,从而创建多个版本作为新的源文件;然后,我们可以控制应该对哪个版本进行编码并交付给最终用户。(参见图 5)

规模化的主观评价
当我们需要在生产环境中大规模部署超分辨率技术时,会面临诸多挑战。从质量角度来看,我们需要选择合适的视频超分辨率(VSR)模型。目前市面上有很多超分辨率解决方案,因此我们需要评估它们的质量和复杂度,从而选择合适的方案进行部署。与视频压缩领域不同,视频压缩领域拥有成熟的质量指标和方法论,可用于对不同的编解码器进行基准测试,而对于VSR而言,目前尚无可靠的质量指标来衡量质量提升。此外,目前也没有机制来检测超分辨率可能引入的潜在伪影。许多生产应用场景都可以利用超分辨率技术,但它们对于如何应用这项技术有着不同的要求。随着我们启用人工智能驱动的增强功能,我们希望确保VSR能够在不从根本上改变原始内容的前提下,保留创作者的意图。
为了应对这些挑战,我们依靠大规模的主观评价来帮助我们回答以下问题:
- 我们能否利用主观评价来评价超分辨率技术的效果?不同的超分辨率算法在质量提升方面有何区别?
- 客观指标与超分辨率成像的主观质量评价之间有何关联?哪些客观指标可用于大规模超分辨率成像监测或超分辨率成像的智能部署?
- 我们能否利用大规模的主观评价来评估超分辨率技术的风险,例如极端情况下视频中的伪影?
如图 6 所示,为了进行主观评价,我们构建了一个自动化框架,将不同视频降噪算法处理后的视频并排显示;然后,我们请评分者为每个视频提供 MOS 分数,并指出他们的偏好。我们还请评分者标注他们在视频中观察到的任何伪影。收集所有原始评分结果后,我们利用最先进的 SUREAL MOS 恢复方法对数据进行分析。主观评价过程经过系统化平台化处理,以加速模型迭代。

经过多轮主观评估,我们找到了一种有效、客观的质量指标——UVQ,它由谷歌开发并开源,与人类主观评分具有极高的相关性。图7左侧展示了不同超分辨率算法的MOS改进分数,右侧展示了UVQ的增量分数。如图所示,UVQ增量分数所衡量的VSR质量提升顺序与主观评估的结果高度吻合。这意味着UVQ可用于预测哪个VSR模型具有更好的质量。

当我们进一步细分数据时,发现只有中高品质的视频才能从超分辨率技术中获益匪浅。如果输入视频的质量非常低,应用超分辨率技术则不会产生明显的质量提升,如图 8 所示。这一发现也有助于我们将超分辨率技术应用于特定的视频群体,从而降低整体计算成本。

根据人工标注所发现的物品,我们还可以使用不同的 VSR 解决方案分析风险,并迭代模型训练以提高质量,从而降低风险。
期待
在 Meta 这样的规模下部署视频超分辨率技术,需要克服诸多技术和运营方面的挑战。我们克服了重重障碍,为不同的应用场景找到了合适的视频超分辨率 (VSR) 解决方案,并构建了涵盖通用 CPU 和 GPU 的强大解决方案组合。为了确保持续为最终用户提供最佳视频质量,我们进行了广泛的主观评估,以确定可靠的质量指标,用于衡量和监控 VSR 带来的质量提升。此外,我们还从应用案例中获得了关键证据,证明 VSR 的有效性。
我们的收获:
- 结合两种方法效果最佳:结合服务器端和客户端超分辨率技术,可获得最佳效果。
- 质量指标很重要:可靠的客观指标对于大规模生产部署至关重要。
- 精准定位:重点增强中高质量源视频,以达到最大效果。
- 资源优化:基于 CPU 的解决方案可以有效地普及 AI 增强功能。
我们相信,对于任何希望在生产环境中部署先进超分辨率或视频增强技术的人来说,我们所面临的挑战都是普遍存在的。我们希望分享我们在此过程中积累的经验,以促进合作,并推动生产级视频增强技术领域的发展。
致谢
这项工作是媒体基金会团队、Instagram、Meta 的 Monetization GenAI 团队以及我们的合作伙伴英特尔共同努力的成果。作者衷心感谢 Sameeran Rao、Andrew Borba、Kevin Chang、Kaveh Hosseini、Runshen Zhu、Lu Chen、Russel Lu、John Liu、Nicolas Lepore 和 Mark Sim 的贡献,以及 Shankar Regunathan、Ioannis Katsavounidis、Denise Noyes、Srinath Reddy 和 Abhinav Kapoor 的支持和建议。
原文链接:https://atscaleconference.com/how-meta-deployed-super-resolution-at-scale-to-transform-video-quality/
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/yinshipin/64000.html