NVIDIA AI 发布 Jet-Nemotron:速度提升 53 倍的混合架构语言模型系列,可降低大规模推理成本 98%

NVIDIA 研究人员突破了大语言模型 (LLM) 推理领域长期存在的效率障碍,发布了Jet-Nemotron模型系列(2B 和 4B),其生成吞吐量比领先的全注意力机制 LLM 高出 53.6 倍,同时准确率与后者持平甚至超越。最重要的是,这一突破并非源于从零开始进行新的预训练,而是使用一种名为后神经架构搜索 (PostNAS)的新技术对现有预训练模型进行改造。这对于企业、从业者和研究人员都具有变革性的影响。

现代 LLM 对速度的要求

虽然当今最先进的 (SOTA) LLM,例如 Qwen3、Llama3.2 和 Gemma3,在准确性和灵活性方面树立了新的标杆,但它们的O(n²) 自注意力机制会产生高昂的计算和内存成本,尤其是在处理长上下文任务时。这使得它们的大规模部署成本高昂,并且几乎不可能在边缘或内存受限的设备上运行。迄今为止,人们一直在努力用更高效的架构(例如 Mamba2、GLA、RWKV 等)取代全注意力 Transformer,但一直难以缩小准确性差距。

NVIDIA AI 发布 Jet-Nemotron:速度提升 53 倍的混合架构语言模型系列,可降低大规模推理成本 98%

PostNAS:一场高效的重大改造

其核心创新在于PostNAS:一种专为高效改造预训练模型而设计的神经架构搜索管道。其工作原理如下:

  • 冻结知识:从 SOTA 全注意力模型(例如 Qwen2.5)开始。冻结其 MLP 层——这可以保留模型学习到的智能,并大大降低训练成本。
  • 精准替换:用 JetBlock 替代计算密集型全注意力机制(Transformers)。JetBlock是专为NVIDIA最新GPU设计的硬件高效线性注意力模块。
  • 混合硬件感知设计:使用超级网络训练和集束搜索,自动确定最佳位置和最小全注意力层集,以保持关键任务(检索、数学、MMLU、编码等)的准确性。此步骤针对特定任务并具有硬件感知能力:搜索会最大化目标硬件的吞吐量,而不仅仅是参数数量。
  • 扩展和部署:结果是一个混合架构LLM,它继承了原始模型的主干智能,但减少了延迟和内存占用。

JetBlock尤其值得关注:它引入了以输入为条件的动态因果卷积核(不同于之前线性注意力模块中的静态核),并消除了冗余卷积,从而简化了效率。借助硬件感知的超参数搜索,它不仅在吞吐量上与之前的线性注意力设计保持同步,而且实际上还提高了准确率

NVIDIA AI 发布 Jet-Nemotron:速度提升 53 倍的混合架构语言模型系列,可降低大规模推理成本 98%

Jet-Nemotron:性能数据

NVIDIA 技术论文中的关键指标令人震惊

模型MMLU-Pro Acc.生成吞吐量(tokens/秒,H100)KV 缓存大小(MB,64K 上下文)备注
Qwen3-1.7B-Base37.8617,168全注意力基线
Jet-Nemotron-2B39.02,885154吞吐量减少 47 倍,缓存减少 47 倍
Jet-Nemotron-4B44.21,27125821 倍吞吐量,仍为 SOTA acc。
Mamba2-2.7B8.62,50780全线性,精度低得多
RWKV7-1.5B13.43,05024全线性,精度低得多
DeepSeek-V3-Small(MoE)已激活 2.2B,总计 15B,降低 acc。

Jet-Nemotron-2B 在每个主要基准测试(数学、常识、编码、检索、长上下文)上都达到或超过 Qwen3-1.7B-Base,同时提供 47 倍更高的生成吞吐量。

这可不是个小数目:在 256K 上下文长度下,解码速度提升了 53.6 倍,这意味着相同数量的 token 的推理成本降低了 98% 。预填充速度提升也非常显著:在 256K 上下文长度下,解码速度提升了 6.14 倍。

内存占用减少了 47 倍(154MB 缓存 vs. Qwen3-1.7B-Base 的 7,168MB)。这对于边缘部署来说是一个颠覆性的变化:在 Jetson Orin 和 RTX 3090 上,Jet-Nemotron-2B 的速度分别比 Qwen2.5-1.5B 快8.84 倍6.5 倍

NVIDIA AI 发布 Jet-Nemotron:速度提升 53 倍的混合架构语言模型系列,可降低大规模推理成本 98%

应用

对于企业领导者:更好的投资回报率

  • 大规模推理现已经济实惠。53倍的吞吐量提升意味着,同等成本下,可以服务 53 倍以上的用户,或者将托管成本降低 98%
  • 运营效率大幅提升:延迟降低、批量增长、内存限制消失。云服务提供商可以以商品价格提供 SOTA AI
  • 人工智能商业模式重塑:曾经过于昂贵的任务(实时文档人工智能、长上下文代理、设备上的副驾驶)突然变得可行。

对于从业者来说:边缘上的 SOTA

  • 无需再为量化、提炼或剪枝妥协而烦恼。Jet -Nemotron 的微型 KV 缓存 (154MB) 和 2B 参数适用于 Jetson Orin、RTX 3090 甚至移动芯片——无需再将负载转移到云端。
  • 无需重新训练,无需更改数据管道:只需进行改造。您现有的 Qwen、Llama 或 Gemma 检查点可以升级,且不会降低准确性
  • 现实世界的人工智能服务(搜索、副驾驶、摘要、编码)现在是即时的和可扩展的

对于研究人员来说:更低的门槛,更高的创新

  • PostNAS 大幅降低了 LLM 架构创新的成本。与耗费数月和数百万美元进行预训练相比,架构搜索只需在冻结的主干模型上进行,耗时极短。
  • 硬件感知 NAS 是未来趋势:Jet-Nemotron 流程将键值缓存大小(而不仅仅是参数)视为影响实际速度的关键因素。这是我们衡量和优化效率的范式转变。
  • 社区可以更快地迭代PostNAS 是一个快速测试平台。如果一个新的注意力模块在这里有效,那么它值得进行预训练;如果无效,则在投入大量资金之前将其过滤掉。

总结

Jet-NemotronJetBlock (代码在 GitHub 上)的开源意味着更广泛的 AI 生态系统现在可以改进其模型,以实现前所未有的效率。PostNAS并非一次性技巧:它是一个通用框架,可以加速任何 Transformer,从而降低未来突破的成本。

参考资料:
https://arxiv.org/abs/2508.15884v1
https://github.com/NVlabs/Jet-Nemotron

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/61075.html

(0)

相关推荐

发表回复

登录后才能评论