自然语言指令驱动的视频编辑是当前生成式 AI 的重要方向,但现有工作普遍只处理纯视觉维度——InsViE-1M、Ditto-1M、OpenVE-3M 等主流大规模数据集均不涉及音频编辑。少数尝试联合音视频编辑的工作(AVED、AVI-Edit)也依赖“source-target prompt”或“掩码 + 编辑后描述”等受限范式,与真实场景中用户直接给出自然语言指令的需求存在显著落差。
与此同时,评测体系同样缺位:视频编辑 benchmark 忽略音频维度,音频生成 benchmark 不评测指令一致性,两者间没有统一标准。
在技术层面,联合音视频编辑要求跨模态的时空与语义严格同步,通常需要将多个专用模型级联,但这带来跨阶段误差累积的问题;已有“human-in-the-loop”流水线虽可缓解,却难以在保证质量的前提下规模化扩展。
针对上述问题,浙江大学、腾讯团队及其合作者提出了 JAVEdit-100k 数据集、配套评测基准 JAVEditBench,以及基线模型 JAVEdit。

研究结果显示,JAVEdit 在 JAVEditBench 的 6 项指标中拿下 5 项第一,音视频同步性相较最强级联方案提升 26%。
论文链接:https://arxiv.org/pdf/2606.03168
代码:https://github.com/RyanChenYN/JAVEdit
数据集:https://huggingface.co/datasets/Coraxor/JAVEdit-100k
研究团队表示,该工作填补了「自然语言指令驱动 + 联合音视频编辑」这一任务形态在数据集与评测两个维度的空白,是该领域首个大规模高质量资源。
Agent-in-the-loop 质控框架可大幅减少人工介入(合格率从 36% 提升至 83%),为未来更大规模的多模态编辑数据构建提供可复用的自动化范式。
此外,实验结果揭示了音频基础模型是当前多模态生态的“木桶短板”,明确指出领域亟需一个统一支持多种参考-条件音频编辑能力的音频基础模型。
研究方法
1.数据构造流水线
据论文描述,源视频经过预处理 → 指令生成 → 类别专用编辑 → Agent-in-the-loop 质控四阶段,最终产出约 100K 高质量联合音视频编辑三元组。

1)预处理阶段:从 OpenHumanVid、VIDGEN-1M、VGGSound 三个开源源头汇聚原始素材,先用 LatentSync SyncNet 过滤口型与音轨错位片段、再用 Koala-36M VTSS 做视觉美学筛选,随后调用 Qwen3-Omni 生成视觉/声学/时序三类 dense caption,并通过 SAM-Audio 把每条音频拆解为人声、音乐、环境音三路独立流。
2)指令生成阶段:由 Qwen3-235B 先判定每条视频适合哪些编辑任务,再结合人工修订的 Topic Vocabulary Bank 以 least-frequently-used 采样避免主题失衡,最后同时产出语义自洽的视觉 + 音频成对指令,保证跨模态指令彼此呼应。
3)类别专用编辑阶段:针对 5 类任务设计了 4 条专用管线:Subject Editing 由 HunyuanImage-3.0 Instruct 接 Wan2.2-Animate 完成视觉换主体、DreamVoice 做声音克隆;Background Editing 走 HunyuanImage-3.0 Instruct + FFP-300K 路线、HunyuanVideo-Foley 配合 SAM-Audio 重建环境音;Subject Removal 双路并择优(MiniMax-Remover+SAM3 与 HunyuanImage+FFP-300K);Speech Editing 用 Qwen3-TTS 零样本克隆后交 LatentSync 对齐嘴型;Subject Addition 直接复用高质量 Subject Removal 的数据对并反转输入输出。
4)Agent-in-the-loop 质控阶段:对候选数据闭环运行「检测 → 记录 → 修复 → 复检」,把容易级联放大的局部失误就地拦截。
2.Agent-in-the-loop 质控框架
质控按三级分类处理:L1 系统级(模板/逻辑层面批量缺陷,改代码、并重跑全批)、L2 模块级(单个模块参数失当,仅调该模块重跑)、L3 实例级(偶发瑕疵,预算内重试或过滤)。经 3 轮迭代,1K 子集合格率从 36% → 83%。

3.评测基准 JAVEditBench
现有视频编辑 benchmark 均只评测视觉流,没有任何机制衡量音频轨道是否被正确修。
为此,研究团队构建了 JAVEditBench:人工精选 150 条多样性源视频,人工审核全部编辑指令,并设计跨 5 维的 6 项指标——以 VTSS、UTMOSv2、SyncNet 覆盖信号层面的视觉质量、音频质量与音视频同步,以 Qwen3-Omni 覆盖语义层面的 Instruction Compliance、Video Fidelity 与整体 AV Quality。
经 5 名专业标注员在 60 条视频上的两两偏好实验验证,6 项指标与人类偏好的 Spearman 相关系数均达 ρ ≥ 0.80。
4.基线模型 JAVEdit
JAVEdit 将 LTX-2.3 改造为参考条件去噪模型:参考视频、音频与目标在序列维拼接,参考位置赋 σ=0、目标位置赋 σ>0,二者在 RoPE 中共享坐标系以建立精确的时空对应;仅在目标位置计算 loss,并用 LoRA(rank=128)作用于注意力与 FFN,在 JAVEdit-100k 上微调。
研究结果
1.数据集规模
最终 JAVEdit-100k 包含 103K 条高质量编辑三元组,5 类任务分布均衡,Speech Editing 覆盖 32 个主题域,统一规格 1280×720、121 帧、25 FPS。


2.定量比较
JAVEdit 在 6 项指标中拿下 5 项第一:相对 AVED 与 AVI-Edit 在 Instruction Compliance 与 AV Quality 大幅领先;相对最强级联方案在 AV Sync 取得 26% 相对增益;AVI-Edit 仅在 Visual Quality 略胜,得益于显式分割掩膜对编辑区域的强约束。

3.定性比较
AVED 与 AVI-Edit 常出现过度平滑或语义错位;Sequential 视觉尚可但配音错位明显;JAVEdit 在视觉一致性、指令忠实度与跨模态时序同步性上整体最稳定。

4.消融实验
5K→15K→100K 性能持续提升;同规模下移除 Agent QC,6 项指标全面下滑,印证数量与质量不可互相替代。

不足与未来方向
当前工作仍存在三点局限值得后续深入。
第一,数据集聚焦人物中心场景,开放域泛化能力有待验证,未来需扩展至更广泛的环境音、场景与主体类别。
第二,复杂指令的成功率仍受底层基础模型能力上界限制,对接更强的视频与音频生成基础模型是提升上限的直接路径。
第三,当前模型主要由文本指令驱动,引入参考图作为额外条件将支持「以图指示外观/风格」的更直观编辑范式,进一步降低使用门槛并提升可控性。
实验同时揭示了一个更深层的生态问题:现有音频大模型对参考-条件下的生成与编辑支持相当有限,没有任何单一模型能同时胜任“保持节奏的仅音色编辑”与“保持音色的仅内容编辑”这两类相反需求,领域亟需一个统一支持多种参考-条件音频编辑能力的音频基础模型。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。