本文提出了 D-FCGS,一种基于前馈压缩框架的动态高斯泼溅压缩方法,专为自由视角视频(FVV)设计。该方法通过标准化帧组(GoF)结构、双先验感知熵模型和控制点引导的运动补偿机制,解决了现有动态 3D 高斯压缩中重构与优化耦合、泛化能力弱、缺乏标准化方案的核心问题,在保持视图一致性保真度的同时实现超 40 倍压缩比,为沉浸式应用的可扩展传输和存储提供了高效解决方案。
文章来源:AAAI 2026
论文题目:D-FCGS: Feedforward Compression of Dynamic Gaussian Splatting for Free-Viewpoint Videos
论文链接:https://arxiv.org/abs/2507.05859
论文作者:Wenkang Zhang, Yan Zhao, Qiang Wang, Zhixin Xu, Li Song, Zhengxue Cheng (SJTU Medialab)
内容整理: 张文康
引言

Free-Viewpoint Video(FVV)为虚拟现实、远程教育等领域带来沉浸式 3D 体验,但动态 3D 表示的高效压缩仍是核心挑战。 3D 高斯泼溅(3DGS)技术的发展革新了 3D 场景表示,其动态扩展形式为 FVV 奠定了基础,但现有动态高斯压缩方法存在显著局限。 现有基于优化的压缩方法将重构与压缩耦合,依赖特定场景优化和定制化运动格式,不仅泛化能力差,还阻碍了标准化压缩方案的发展。这些方法在处理未见过的场景时表现不佳,且无法满足 FVV 大规模应用的需求。此外,动态高斯序列的高存储需求也限制了其在流式传输中的实际应用。
针对上述问题,D-FCGS 提出创新的前馈压缩框架,核心思路是通过帧组(GoF)表示建模高斯点云的时间相关性,以无场景依赖的方式实现帧间运动压缩。该方法采用标准 3DGS 格式作为输入,利用稀疏控制点高效提取运动张量,结合双先验感知熵模型提升压缩效率,并通过运动补偿和颜色优化确保重构质量。训练完成后,D-FCGS 可作为通用帧间压缩编解码器,无需场景特定优化即可实现零样本推理。
核心创新点:
- 提出标准化 GoF 结构与 I-P 编码,通过稀疏控制点提取帧间运动张量,兼顾压缩效率与计算性能。
- 设计双先验感知熵模型,融合超先验和时空先验,实现精准码率估计。
- 开发控制点引导的运动补偿机制与优化网络,提升视图一致性保真度。
- 实现零样本泛化能力,无需场景特定优化即可处理多样化动态场景。
方法

稀疏运动提取
基于高斯点云的局部运动一致性,采用最远点采样(FPS)从密集高斯中选择控制点,大幅降低存储需求和计算成本。通过频率编码和 MLP 投影,将当前帧与参考帧的控制点几何参数转换至特征域,进而提取运动张量,保留关键运动特征。
前馈运动压缩
运动张量经编码后,通过可微分量化模拟实现梯度反向传播,再经算术编码转换为紧凑比特流。双先验感知熵模型是核心亮点:一方面利用因子化模型学习超先验,捕捉全局依赖;另一方面通过多分辨率哈希网格编码提取参考帧的时空先验,建模局部相关性。两者融合后精准估计潜码分布,实现高效压缩。

运动补偿与优化
解码阶段,通过 KNN 搜索将控制点运动向量传播至所有高斯点,采用基于空间距离的指数衰减权重函数分配运动影响。颜色优化模块复用熵模型的时空先验,预测颜色残差并动态修正 SH 系数,在不增加额外存储的前提下减轻视觉伪影,提升重构质量。训练过程采用 GoF 范式,每个帧组包含 1 个 I 帧和多个 P 帧,损失函数兼顾渲染质量与码率平衡,确保压缩效率与视觉效果的最优权衡。
实验
实验基于 6 个多视图视频数据集构建高斯帧序列,从泛化性、鲁棒性、模块有效性三个维度进行全面评估,采用 PSNR、SSIM、压缩尺寸、渲染速度等核心指标。
定量结果



在 N3V 和 MeetRoom 基准数据集上,D-FCGS 实现每帧平均 0.18MB 和 0.088MB 的压缩尺寸,相比 3DGStream 实现超 40 倍压缩,P 帧压缩比更是超过 1000 倍。同时保持优异的渲染质量,PSNR 达 30.97dB,SSIM 达 0.950,与基于优化的压缩方法相当。编码解码总耗时不足 1.33 秒,渲染速度达 288 FPS,满足实时应用需求。 在 Google Immersive、Self-Cap 等多样化场景测试中,D-FCGS 仍保持稳定性能,仅出现微小 PSNR 下降,验证了其强鲁棒性。
定性结果
可视化结果显示,D-FCGS 在多样化的场景中,压缩后重构效果与 3DGStream 高度接近,细节纹理清晰,无明显伪影。即使在高动态场景中,也能有效保留场景结构和运动特征,压缩后仍维持沉浸式视觉体验。

消融实验
- 控制点的引入使编码解码速度提升 3.2 倍,显著降低存储需求,验证了稀疏运动表示的有效性。
- 移除时空先验分支导致率失真性能明显下降,证明其对精准码率估计的关键作用。



结论
D-FCGS 提出了一种创新的动态高斯泼溅前馈压缩框架,通过标准化编码结构、双先验感知熵模型和高效运动补偿机制,突破了现有方法的场景依赖限制。其超 40 倍的压缩效率、零样本泛化能力和优异的视觉保真度,为自由视角视频的高效传输与存储提供了新方案,将有力推动虚拟现实、远程交互等沉浸式应用的规模化落地。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。