AI改了画面却没改声音？浙大团队首次将一句话编辑视频延伸到音频维度

自然语言指令驱动的视频编辑是当前生成式 AI 的重要方向，但现有工作普遍只处理纯视觉维度——InsViE-1M、Ditto-1M、OpenVE-3M 等主流大规模数据集均不涉及音频编辑。少数尝试联合音视频编辑的工作（AVED、AVI-Edit）也依赖“source-target prompt”或“掩码 + 编辑后描述”等受限范式，与真实场景中用户直接给出自然语言指令的需求存在显著落差。

与此同时，评测体系同样缺位：视频编辑 benchmark 忽略音频维度，音频生成 benchmark 不评测指令一致性，两者间没有统一标准。

在技术层面，联合音视频编辑要求跨模态的时空与语义严格同步，通常需要将多个专用模型级联，但这带来跨阶段误差累积的问题；已有“human-in-the-loop”流水线虽可缓解，却难以在保证质量的前提下规模化扩展。

针对上述问题，浙江大学、腾讯团队及其合作者提出了 JAVEdit-100k 数据集、配套评测基准 JAVEditBench，以及基线模型 JAVEdit。

AI改了画面却没改声音？浙大团队首次将一句话编辑视频延伸到音频维度 — 图｜JAVEdit 整体概览

研究结果显示，JAVEdit 在 JAVEditBench 的 6 项指标中拿下 5 项第一，音视频同步性相较最强级联方案提升 26%。

论文链接：https://arxiv.org/pdf/2606.03168

代码：https://github.com/RyanChenYN/JAVEdit

数据集：https://huggingface.co/datasets/Coraxor/JAVEdit-100k

研究团队表示，该工作填补了「自然语言指令驱动 + 联合音视频编辑」这一任务形态在数据集与评测两个维度的空白，是该领域首个大规模高质量资源。

Agent-in-the-loop 质控框架可大幅减少人工介入（合格率从 36% 提升至 83%），为未来更大规模的多模态编辑数据构建提供可复用的自动化范式。

此外，实验结果揭示了音频基础模型是当前多模态生态的“木桶短板”，明确指出领域亟需一个统一支持多种参考-条件音频编辑能力的音频基础模型。

研究方法

1.数据构造流水线

据论文描述，源视频经过预处理 → 指令生成 → 类别专用编辑 → Agent-in-the-loop 质控四阶段，最终产出约 100K 高质量联合音视频编辑三元组。

1）预处理阶段：从 OpenHumanVid、VIDGEN-1M、VGGSound 三个开源源头汇聚原始素材，先用 LatentSync SyncNet 过滤口型与音轨错位片段、再用 Koala-36M VTSS 做视觉美学筛选，随后调用 Qwen3-Omni 生成视觉/声学/时序三类 dense caption，并通过 SAM-Audio 把每条音频拆解为人声、音乐、环境音三路独立流。

2）指令生成阶段：由 Qwen3-235B 先判定每条视频适合哪些编辑任务，再结合人工修订的 Topic Vocabulary Bank 以 least-frequently-used 采样避免主题失衡，最后同时产出语义自洽的视觉 + 音频成对指令，保证跨模态指令彼此呼应。

3）类别专用编辑阶段：针对 5 类任务设计了 4 条专用管线：Subject Editing 由 HunyuanImage-3.0 Instruct 接 Wan2.2-Animate 完成视觉换主体、DreamVoice 做声音克隆；Background Editing 走 HunyuanImage-3.0 Instruct + FFP-300K 路线、HunyuanVideo-Foley 配合 SAM-Audio 重建环境音；Subject Removal 双路并择优（MiniMax-Remover+SAM3 与 HunyuanImage+FFP-300K）；Speech Editing 用 Qwen3-TTS 零样本克隆后交 LatentSync 对齐嘴型；Subject Addition 直接复用高质量 Subject Removal 的数据对并反转输入输出。

4）Agent-in-the-loop 质控阶段：对候选数据闭环运行「检测 → 记录 → 修复 → 复检」，把容易级联放大的局部失误就地拦截。

2.Agent-in-the-loop 质控框架

质控按三级分类处理：L1 系统级（模板/逻辑层面批量缺陷，改代码、并重跑全批）、L2 模块级（单个模块参数失当，仅调该模块重跑）、L3 实例级（偶发瑕疵，预算内重试或过滤）。经 3 轮迭代，1K 子集合格率从 36% → 83%。

3.评测基准 JAVEditBench

现有视频编辑 benchmark 均只评测视觉流，没有任何机制衡量音频轨道是否被正确修。

为此，研究团队构建了 JAVEditBench：人工精选 150 条多样性源视频，人工审核全部编辑指令，并设计跨 5 维的 6 项指标——以 VTSS、UTMOSv2、SyncNet 覆盖信号层面的视觉质量、音频质量与音视频同步，以 Qwen3-Omni 覆盖语义层面的 Instruction Compliance、Video Fidelity 与整体 AV Quality。

经 5 名专业标注员在 60 条视频上的两两偏好实验验证，6 项指标与人类偏好的 Spearman 相关系数均达 ρ ≥ 0.80。

4.基线模型 JAVEdit

JAVEdit 将 LTX-2.3 改造为参考条件去噪模型：参考视频、音频与目标在序列维拼接，参考位置赋 σ=0、目标位置赋 σ>0，二者在 RoPE 中共享坐标系以建立精确的时空对应；仅在目标位置计算 loss，并用 LoRA（rank=128）作用于注意力与 FFN，在 JAVEdit-100k 上微调。

研究结果

1.数据集规模

最终 JAVEdit-100k 包含 103K 条高质量编辑三元组，5 类任务分布均衡，Speech Editing 覆盖 32 个主题域，统一规格 1280×720、121 帧、25 FPS。

2.定量比较

JAVEdit 在 6 项指标中拿下 5 项第一：相对 AVED 与 AVI-Edit 在 Instruction Compliance 与 AV Quality 大幅领先；相对最强级联方案在 AV Sync 取得 26% 相对增益；AVI-Edit 仅在 Visual Quality 略胜，得益于显式分割掩膜对编辑区域的强约束。