Google AI 发布 DiffusionGemma：基于文本扩散的 260 亿 MoE 开放模型，生成速度可提升 4 倍

谷歌 AI 团队（包括谷歌DeepMind的研究人员）刚刚发布了DiffusionGemma，这是一个用于文本生成的实验性开源模型。它使用文本扩散而非标准的自回归解码。该模型采用宽松的Apache 2.0许可证发布。谷歌将其定位为面向开发者和研究人员，用于探索对速度要求极高的交互式本地工作流程。例如，在线编辑、快速迭代和生成非线性文本结构。

目前大多数语言模型都是自回归的。它们从左到右逐个生成词元（token）。每个新生成的词元都依赖于前一个词元。DiffusionGemma 的工作方式不同。它可以并行地同时生成整个文本块。在专用 GPU 上，这种方式的生成速度最高可提升 4 倍。

什么是 DiffusionGemma

DiffusionGemma 是一个 260 亿混合专家 (MoE) 模型。它在推理过程中仅激活 38 亿个参数。它基于 Gemma 4 主干架构，具体来说是 26B-A4B 架构。谷歌在此基础上集成了一个扩散头。

该模型是多模态的，能够处理交错的文本、图像和视频输入，并根据这些输入生成文本输出。上下文窗口大小为 25.6 万个词元，支持 140 多种语言。

量化后的模型占用显存仅为 18GB，符合高端消费级 GPU 的显存限制。在单张 NVIDIA H100 显卡上，其运算速度可达每秒 1000 多个令牌；在 NVIDIA GeForce RTX 5090 显卡上，则可达每秒 700 多个令牌。

谷歌对这种权衡取舍的态度非常明确。DiffusionGemma 优先考虑速度和并行布局生成，但其整体输出质量低于标准的 Gemma 4。为了获得最高质量的生产成果，谷歌仍然推荐使用自回归 Gemma 4。

文本传播的工作原理

文本扩散的核心思想借鉴于 AI 图像生成器。这些模型从静态视觉图像开始，并通过迭代不断优化。DiffusionGemma 将同样的模式应用于文本生成。

该过程分为三个概念阶段。首先，模型从随机占位符标记的画布开始。其次，它对该画布进行多次遍历，锁定高置信度标记并将其用作上下文。最后，文本收敛为最终输出。

谷歌将这种核心机制称为均匀状态扩散。高置信度标记有助于在去噪过程中解析相邻位置。经过多次处理，整个序列就会逐渐清晰起来。

实际上，该模型并行处理一个包含 256 个 token 的画布进行去噪。每次前向传播大约处理 15-20 个 token。这种并行处理正是吞吐量提升的关键所在。

该模型在去噪过程中采用了双向注意力机制。画布上的每个标记都可以关注其他所有标记。这与自回归模型截然不同。自回归模型只能回顾之前的标记。

这种双向上下文实现了实时自校正。如果某个词元的置信度下降，采样器可以对其进行重新噪声处理。然后，模型会在后续迭代中替换该词元。自回归模型无法做到这一点，因为它们对每个词元只进行一次置信。

架构

此处的技术进步在于硬件利用率。对于本地GPU推理而言，主要瓶颈在于内存带宽。自回归模型需要反复从内存中加载每个令牌的权重。在单用户服务期间，GPU大部分时间都处于等待状态。

DiffusionGemma 将瓶颈从内存带宽转移到了计算能力。它并行地绘制和完善一个包含 256 个标记的画布。这使得闲置的张量核心能够承担大量的并行工作负载。

该模型在推理过程中交替使用两种注意力模式。预填充使用因果注意力来接收提示信息并写入键值缓存。去噪使用双向注意力来优化画布。

对于较长的输出，DiffusionGemma 使用块自回归扩散 (Block Autoregressive Diffusion)。一旦一个 256 个 token 的块被完全去噪，它就会被提交到键值缓存 (KV cache)。然后，模型会根据之前的历史数据重新开始一个新的画布。这既保证了并行块处理的速度，又兼顾了顺序自回归的稳定性。

该架构与 Gemma 4 26B A4B 共享相同的底层架构。开发人员主要需要实现一个去噪步骤。这使得集成到现有服务框架中更加容易。

谷歌开发者指南中的数独示例就是一个鲜明的例子。自回归模型在处理严格的多变量约束谜题时表现不佳。基础的 DiffusionGemma 模型几乎无法解决任何数独谜题。经过简单的 JAX 监督式微调后，正确率提升至 80%。微调后的模型也更早停止运行，减少了推理步骤。

应用

DiffusionGemma 针对特定工作负载，而非通用生产质量。谷歌及其生态系统合作伙伴重点介绍了其几个实际应用：

在线编辑和代码填充：双向注意力机制非常适合非线性文本结构。
快速迭代：低本地延迟支持交互式单用户开发循环。
长上下文文档分析： 256K 窗口支持大型输入处理。
OCR 和文档解析：多模态输入可处理图像和扫描文档。
代码生成、工具调用和代理工作流： Unsloth 将这些列为支持的任务。
受限生成：数独、数学图和氨基酸序列受益于并行注意力机制。

所有这些方法都受到一个限制。这种加速是为本地、低并发推理设计的。在高 QPS 云服务中，自回归模型会高效地利用计算资源。在这种情况下，并行解码带来的收益递减，反而会增加服务成本。

Google AI 发布 DiffusionGemma：基于文本扩散的 260 亿 MoE 开放模型，生成速度可提升 4 倍 — 图片来自Google

DiffusionGemma 与 Standard Gemma 4 对比

属性	DiffusionGemma (26B-A4B)	Standard Gemma 4 (26B A4B)
生成方法	离散文本扩散（并行）	自回归（逐个标记）
解码瓶颈	计算边界	内存带宽限制
平行单元	每次遍历 256 个 token 的画布	每步一个token
解码过程中的注意力	双向	因果关系（仅限后向）
自我纠正	是的，通过重新噪声处理。	不，token只提交一次。
专用GPU上的速度	速度提升高达 4 倍	基线
H100 吞吐量	每秒 1000+ 个token	较低（基线）
RTX 5090 吞吐量	每秒 700+ 个token	较低（基线）
输出质量	低于 Gemma 4	较高；推荐用于生产
最佳匹配	本地、低并发、交互式	高质量、高QPS的云服务
执照	Apache 2.0	Gemma条款

要点总结

DiffusionGemma 是一个 260 亿 MoE 开放模型（38 亿活跃模型），它通过并行扩散生成文本，而不是逐个标记生成文本。
在专用 GPU 上运行速度最高可达 4 倍：H100 上每秒 1000 多个令牌，RTX 5090 上每秒 700 多个令牌。
与自回归模型不同，在 256 个标记的画布上实现双向注意力可以实现实时自我纠正。
量化后，它可容纳 18GB VRAM，并在 vLLM、Transformers、MLX 和 Unsloth 中提供早期支持。
它处于实验阶段，质量低于标准的 Gemma 4；谷歌建议在生产环境中使用 Gemma 4。

参考资料：
https://huggingface.co/google/diffusiongemma-26B-A4B-it
https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/67650.html