谷歌 AI 团队(包括谷歌DeepMind的研究人员)刚刚发布了DiffusionGemma,这是一个用于文本生成的实验性开源模型。它使用文本扩散而非标准的自回归解码。该模型采用宽松的Apache 2.0许可证发布。谷歌将其定位为面向开发者和研究人员,用于探索对速度要求极高的交互式本地工作流程。例如,在线编辑、快速迭代和生成非线性文本结构。
目前大多数语言模型都是自回归的。它们从左到右逐个生成词元(token)。每个新生成的词元都依赖于前一个词元。DiffusionGemma 的工作方式不同。它可以并行地同时生成整个文本块。在专用 GPU 上,这种方式的生成速度最高可提升 4 倍。
什么是 DiffusionGemma
DiffusionGemma 是一个 260 亿混合专家 (MoE) 模型。它在推理过程中仅激活 38 亿个参数。它基于 Gemma 4 主干架构,具体来说是 26B-A4B 架构。谷歌在此基础上集成了一个扩散头。
该模型是多模态的,能够处理交错的文本、图像和视频输入,并根据这些输入生成文本输出。上下文窗口大小为 25.6 万个词元,支持 140 多种语言。
量化后的模型占用显存仅为 18GB,符合高端消费级 GPU 的显存限制。在单张 NVIDIA H100 显卡上,其运算速度可达每秒 1000 多个令牌;在 NVIDIA GeForce RTX 5090 显卡上,则可达每秒 700 多个令牌。
谷歌对这种权衡取舍的态度非常明确。DiffusionGemma 优先考虑速度和并行布局生成,但其整体输出质量低于标准的 Gemma 4。为了获得最高质量的生产成果,谷歌仍然推荐使用自回归 Gemma 4。
文本传播的工作原理
文本扩散的核心思想借鉴于 AI 图像生成器。这些模型从静态视觉图像开始,并通过迭代不断优化。DiffusionGemma 将同样的模式应用于文本生成。
该过程分为三个概念阶段。首先,模型从随机占位符标记的画布开始。其次,它对该画布进行多次遍历,锁定高置信度标记并将其用作上下文。最后,文本收敛为最终输出。
谷歌将这种核心机制称为均匀状态扩散。高置信度标记有助于在去噪过程中解析相邻位置。经过多次处理,整个序列就会逐渐清晰起来。
实际上,该模型并行处理一个包含 256 个 token 的画布进行去噪。每次前向传播大约处理 15-20 个 token。这种并行处理正是吞吐量提升的关键所在。
该模型在去噪过程中采用了双向注意力机制。画布上的每个标记都可以关注其他所有标记。这与自回归模型截然不同。自回归模型只能回顾之前的标记。
这种双向上下文实现了实时自校正。如果某个词元的置信度下降,采样器可以对其进行重新噪声处理。然后,模型会在后续迭代中替换该词元。自回归模型无法做到这一点,因为它们对每个词元只进行一次置信。
架构
此处的技术进步在于硬件利用率。对于本地GPU推理而言,主要瓶颈在于内存带宽。自回归模型需要反复从内存中加载每个令牌的权重。在单用户服务期间,GPU大部分时间都处于等待状态。
DiffusionGemma 将瓶颈从内存带宽转移到了计算能力。它并行地绘制和完善一个包含 256 个标记的画布。这使得闲置的张量核心能够承担大量的并行工作负载。
该模型在推理过程中交替使用两种注意力模式。预填充使用因果注意力来接收提示信息并写入键值缓存。去噪使用双向注意力来优化画布。
对于较长的输出,DiffusionGemma 使用块自回归扩散 (Block Autoregressive Diffusion)。一旦一个 256 个 token 的块被完全去噪,它就会被提交到键值缓存 (KV cache)。然后,模型会根据之前的历史数据重新开始一个新的画布。这既保证了并行块处理的速度,又兼顾了顺序自回归的稳定性。
该架构与 Gemma 4 26B A4B 共享相同的底层架构。开发人员主要需要实现一个去噪步骤。这使得集成到现有服务框架中更加容易。
谷歌开发者指南中的数独示例就是一个鲜明的例子。自回归模型在处理严格的多变量约束谜题时表现不佳。基础的 DiffusionGemma 模型几乎无法解决任何数独谜题。经过简单的 JAX 监督式微调后,正确率提升至 80%。微调后的模型也更早停止运行,减少了推理步骤。
应用
DiffusionGemma 针对特定工作负载,而非通用生产质量。谷歌及其生态系统合作伙伴重点介绍了其几个实际应用:
- 在线编辑和代码填充:双向注意力机制非常适合非线性文本结构。
- 快速迭代:低本地延迟支持交互式单用户开发循环。
- 长上下文文档分析: 256K 窗口支持大型输入处理。
- OCR 和文档解析:多模态输入可处理图像和扫描文档。
- 代码生成、工具调用和代理工作流: Unsloth 将这些列为支持的任务。
- 受限生成:数独、数学图和氨基酸序列受益于并行注意力机制。
所有这些方法都受到一个限制。这种加速是为本地、低并发推理设计的。在高 QPS 云服务中,自回归模型会高效地利用计算资源。在这种情况下,并行解码带来的收益递减,反而会增加服务成本。

DiffusionGemma 与 Standard Gemma 4 对比
| 属性 | DiffusionGemma (26B-A4B) | Standard Gemma 4 (26B A4B) |
|---|---|---|
| 生成方法 | 离散文本扩散(并行) | 自回归(逐个标记) |
| 解码瓶颈 | 计算边界 | 内存带宽限制 |
| 平行单元 | 每次遍历 256 个 token 的画布 | 每步一个token |
| 解码过程中的注意力 | 双向 | 因果关系(仅限后向) |
| 自我纠正 | 是的,通过重新噪声处理。 | 不,token只提交一次。 |
| 专用GPU上的速度 | 速度提升高达 4 倍 | 基线 |
| H100 吞吐量 | 每秒 1000+ 个token | 较低(基线) |
| RTX 5090 吞吐量 | 每秒 700+ 个token | 较低(基线) |
| 输出质量 | 低于 Gemma 4 | 较高;推荐用于生产 |
| 最佳匹配 | 本地、低并发、交互式 | 高质量、高QPS的云服务 |
| 执照 | Apache 2.0 | Gemma条款 |
要点总结
- DiffusionGemma 是一个 260 亿 MoE 开放模型(38 亿活跃模型),它通过并行扩散生成文本,而不是逐个标记生成文本。
- 在专用 GPU 上运行速度最高可达 4 倍:H100 上每秒 1000 多个令牌,RTX 5090 上每秒 700 多个令牌。
- 与自回归模型不同,在 256 个标记的画布上实现双向注意力可以实现实时自我纠正。
- 量化后,它可容纳 18GB VRAM,并在 vLLM、Transformers、MLX 和 Unsloth 中提供早期支持。
- 它处于实验阶段,质量低于标准的 Gemma 4;谷歌建议在生产环境中使用 Gemma 4。
参考资料:
https://huggingface.co/google/diffusiongemma-26B-A4B-it
https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/67650.html