运动估计是计算机视觉任务中至关重要却计算密集的环节,研究人员一直在寻求提高其效率的方法。
来自都柏林圣三一学院的 Julien Zouein、Vibhoothi Vibhoothi 和 Anil Kokaram 通过研究视频压缩过程中生成的运动矢量的潜力,探索了一种新颖的方法。他们的研究表明,从 AV1 视频编解码器中提取的运动矢量为传统的流估计方法提供了一种出人意料的准确高效的替代方案。通过将 AV1 和 HEVC 运动矢量与已建立的真实数据进行严格比较,该团队验证了它们的保真度并确定了最佳编码器设置。更重要的是,他们证明,利用这些矢量作为 RAFT 等高级流算法的起点,可以在对精度影响最小的情况下将处理速度提高四倍,从而为实时运动感知应用开辟了新的可能性。
论文地址:https://arxiv.org/abs/2510.17427
本文提出的方法可以作为传统光流算法的高质量、高计算效率替代方案,而传统光流算法是许多计算机视觉流程中至关重要但通常资源消耗巨大的组件。本文通过与真实光流进行详细对比,验证了AV1和HEVC编解码器运动矢量的保真度,展示了编码器设置对运动估计精度的影响,并推荐了最优配置。此外,研究表明,将提取的AV1运动矢量作为RAFT(一种先进的基于深度学习的光流算法)的“热启动”参数,可以显著缩短收敛所需的时间。
运动矢量引导深度光流估计
本文探讨了如何利用从压缩视频(特别是AV1编码视频)中提取的运动矢量(MV)来提升光流估计的质量。其核心思想是,这些现成的运动矢量可以指导基于深度学习的光流算法,从而获得更快、更准确的结果,尤其是在细节丰富的区域。该研究针对复杂场景中光流估计计算量大且精度往往不高的难题,提出了一种利用压缩视频中现有信息的解决方案。研究人员使用高分辨率基准数据集SPRING来评估其方法,并研究了如何有效地将这些运动矢量集成到用于光流估计的深度学习模型中。
主要研究结果表明,运动矢量为光流估计提供了有价值的先验信息,尤其是在细节丰富的区域,从而能够加快处理速度并提高精度。SPRING 数据集被强调为评估光流算法的宝贵资源。本质上,本文证明了压缩视频中易于获取的信息可以有效地用于提升光流估计的性能,为实时、精确的视觉处理提供了一条很有前景的途径。潜在应用包括:提高自动驾驶的场景理解和障碍物检测能力;更精确地跟踪视频监控中的物体和事件;更逼真地估计视频编辑和特效中的运动;以及从视频序列中更精确地估计深度。
AV1 运动矢量加速光流估计
这项工作展示了一种利用压缩AV1视频流中已嵌入的运动矢量来加速运动估计的新方法。研究人员发现,这些运动矢量可以有效地替代传统计算的光流,而光流计算在许多计算机视觉应用中都是一个计算密集型步骤。该研究将AV1和HEVC编解码器中的运动矢量与真实光流数据进行了细致的比较,验证了它们的准确性,并确定了实现最高精度的最佳编码器设置。其核心成果在于利用提取的AV1运动矢量作为RAFT 的“热启动”数据。

实验表明,处理速度显著提升了四倍,而终点误差仅略有增加。这种加速是通过向 RAFT 提供预先存在的运动场实现的,使其收敛速度远快于从零开始计算。该过程首先从 AV1 比特流中提取稀疏运动矢量,并将其归一化到紧邻的前一帧。压缩视频中常见的运动数据缺失问题,通过双向运动矢量补全算法进行智能推断。为了创建全帧分辨率的密集运动场,稀疏矢量使用零阶保持法进行上采样。
然后使用 RAFT 对所得场进行细化。研究人员甚至扩展了 RAFT 的训练,专门纳入了这种“热启动”初始化,从而进一步提升了其在压缩视频数据下的性能。结果证实,AV1 中的运动矢量为加速运动感知视觉应用提供了一种实用且高效的方法,为实时处理和降低计算需求开辟了新的可能性。
总结
这项研究表明,从AV1编码的视频中提取的运动矢量可以作为传统流估计技术的高质量且计算高效的替代方案。研究团队严格比较了AV1和HEVC编码的运动矢量与真实流数据,验证了它们的保真度,并确定了实现精确运动表示的最佳编码器设置。结果表明,AV1运动矢量,尤其是在用于初始化最先进的深度学习方法RAFT时,能够显著缩短计算时间,速度提升四倍,而精度仅略有下降。这些发现凸显了从压缩视频中重用运动信息在各种需要运动感知的应用中的巨大潜力,例如像素增强和帧插值。该研究还强调,AV1 编码器 libaom 在提供与 HEVC 相当的运动精度的同时,还能提供更佳的感知视频质量。虽然该研究在各种视频序列中都展现了强大的性能,但作者也承认,性能会因视频中运动的复杂程度而异,更大、更复杂的运动会带来更大的挑战。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/62648.html