物理感知 AI 可从视频估算物体质量与速度，让视频音效更真实

音频技术 • 来源：21dB声学人 • 2026年5月29日上午11:37 • 技术文章

在电影《侏罗纪公园》中，当观众看到巨型恐龙朝自己走来时，会自然而然联想到低沉、轰鸣的脚步声，仿佛大地都在震颤。这是因为人类对声音的预判，不仅依据物体外形，还会结合尺寸、质量、运动速度等物理属性。

不过，现有的视频转音频生成 AI，主要基于视频中的物体类别与场景信息生成音效，似乎未能充分体现随质量、速度变化的物理规律。

韩国科学技术院（KAIST）、浦项科技大学（POSTECH）、索尼人工智能实验室（Sony AI）的研究团队合作，研发出一项名为PAVAS（Physics-Aware Video-to-Audio Synthesis，物理感知视频转音频合成）的人工智能技术，可理解视频中的物理场景并生成更逼真的音效。相关研究成果发布于 arXiv 预印本平台。

物理感知 AI 可从视频估算物体质量与速度，让视频音效更真实 — 图1 通过物理参数估计器（PPE）从输入视频中估算物理量（物体级质量与速度），并通过物理驱动音频适配器（Phy-Adapter）将这些物理量显式注入隐式扩散模型，从而生成物理上合理的音频。

该技术的核心创新在于：让 AI 自主推断视频中物体质量、速度等不可见物理参数。普通视频不会标注物体的精确重量与速度数值，研究团队通过分析物体所处环境与运动特征，让 AI 完成物理量估算，并将结果融入音效生成流程。

简言之，这款 AI 不再仅识别 “画面里有什么”，而是理解 “为何会发出这种声音” 的物理成因。

技术验证结果显示，在物体碰撞、撞击等物理交互场景中，该 AI 生成的音效高度贴近真实环境；尤其当物体质量与速度发生变化时，音效的响度、音色会随之自然变化，还原度显著提升。

物理感知 AI 可从视频估算物体质量与速度，让视频音效更真实 — 图 2 生成频谱图的定性对比。可视化现有视频转音频模型、本文方法与真实音频的频谱图。绿色虚线表示与视频中视觉事件时间对齐的频谱模式，图标表示音频中可听到的物体或交互。PAVAS 生成的频谱模式与这些事件更吻合，而其他方法常会生成与视觉动态匹配度不佳的分量。

近年来，音视频同步生成的 AI 技术发展迅猛，典型代表如谷歌 Veo 3、字节跳动 Seedance 2.0 等。但在影视、广告、游戏等实际制作场景中，为已有视频匹配并补充适配音效的后期制作需求，远高于全新音视频生成需求。

现有商用 AI 模型多聚焦音视频联合生成，而 PAVAS 的核心差异在于：精准分析视频中物体的运动与碰撞特性，生成与场景高度匹配的逼真音效。

物理感知 AI 可从视频估算物体质量与速度，让视频音效更真实 — 图3 所提物理感知视频转音频合成（PAVAS）的整体流程

迈向物理一致性生成式 AI

研究团队表示，该技术为物理一致性生成式 AI领域开辟了新可能。物理一致性生成式 AI，不再仅生成视觉上合理的结果，而是真正理解现实世界的物理规律与因果关系。

未来，这项技术有望广泛应用于内容音效制作自动化、增强现实（AR）/ 虚拟现实（VR）内容、元宇宙、机器人仿真等领域，为用户带来更具沉浸感的体验。

研究人员指出，现有生成式 AI 的发展多依赖数据与模型规模的提升，而本研究的价值在于，让 AI 直接理解物理量与因果关系。未来它可拓展为下一代多模态 AI 的核心基础技术，实现文本、视频、语音等多类型信息的统一理解与处理。

论文信息：Oh Hyun-Bin et al, PAVAS: Physics-Aware Video-to-Audio Synthesis, arXiv (2025). DOI: 10.48550/arxiv.2512.08282

信息源于：techxplore

版权声明：本文内容转自互联网，本文观点仅代表作者本人。本站仅提供信息存储空间服务，所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至1393616908@qq.com 举报，一经查实，本站将立刻删除。

赞 (0)

音频技术认证作者

0

技术文章

主机拥塞控制 | SIGCOMM2023

研究问题：系统和网络社区的传统观点是拥塞主要发生在网络结构内。然而，高带宽访问链路的采用和主机内资源相对停滞的技术趋势导致了主机拥塞的出现，即支持 NIC 和 CPU/内存之间数据…

RTE基础设施
2024年1月18日
技术文章

FFmpeg 中的 VMAF – Ubuntu 18.04安装和使用指南

在本教程中，我们将了解如何使用 libvmaf 编译和安装支持 VMAF 的 FFmpeg，然后我们将了解如何使用启用了 VMAF 支持的 FFmpeg 计算或计算两个视频之间的 …

视频技术
2022年12月17日
技术文章

从 0 到 1 拆解一个在线 pia 戏（语音配音戏）应用的 RTC 技术架构

从 0 到 1 拆解一个在线 pia 戏（语音配音戏）应用的技术架构：多人麦位、200ms 低延迟语音、BGM 混音、变声混响与房间信令，并给出可落地的基于 ZEGO RTC SD…

小及狗
2026年6月3日
技术文章

360度视频中的空间音频：它会影响视觉注意力吗?

高品质的空间音频为听众提供了全方位体验声音的机会。其中一种技术是 Ambisonics 或 3D 音频，可提供完整的 360° 音景。演讲主要报告了一项研究成果，该研究旨在了解空间…

音频技术
2022年7月11日
即时通讯

如何使用 Go Fiber 框架创建一个简单的聊天室

本文分享如何使用 Go Fiber 框架创建一个简单的聊天室，以展示 goroutines、channel、WebSockets 的使用以及如何将它们应用于聊天交互。简介首先，…

IM开发老王
2024年4月12日
技术文章

Smart Pointers：八年，SRS 内存泄露终于解决

本文转自“SRS开源服务器”官微。 8年后，我们使用自己实现的有限的简单Smart Pointers，解决了SRS的内存泄漏问题，保持项目的可维护性。 Introduction 每…

RTC观主
2024年6月15日