国产芯片上跑出的万亿参数模型，美团 LongCat-2.0 正式发布

今天，美团正式发布新一代万亿参数大模型 LongCat-2.0，并将对外开源。

作为业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型（总参数 1.6 T，平均激活约 48 B，动态范围 33B~56B），LongCat-2.0 从零开始预训练，原生支持 1M 超长上下文，其架构设计自始至终围绕一个核心目标：让模型在真实的 Agentic Coding 任务中，更高效、更稳定地完成代码理解、生成与执行。

正式版发布前， LongCat-2.0 预览版本已通过 OpenRouter 平台和 longcat.ai 面向全球开发者开放调用—— 截至目前该模型已跻身 OpenRouter 全球大模型调用量前三，月调用量在 Hermes、Claude Code 和 OpenClaw 分列全球第一、第二和第三位，成为最受全球 Agent 开发者欢迎的模型之一。

01 国模国芯全栈协同：打通国产算力上的训练与推理闭环

LongCat 团队对国产算力的探索始于 2023 年，三年来，团队从千卡起步，逐步攻克算子适配、通信优化、分布式稳定性等基础难题，最终在五万卡集群上完成万亿参数模型的全流程训练与推理。

LongCat-2.0 预训练数据规模超过 30T tokens，覆盖中文、英文、多语言和代码等多类数据；面对万卡级训练中的硬件故障、通信异常、显存压力与数值波动，LongCat 团队从稳定性、正确性和效率三方面攻克国产算力训练难题。

在稳定性上，通过 HCCL 异常处理、弹性扩缩卡和自动故障恢复，将月均日故障率降低 70% 以上；

在正确性上，通过自研设计确定性算子、Bitwise 一致性验证和参数检测，保障训练结果的可靠，同时基于实践提升关键模块计算精度、优化 Reduce 逻辑；
在效率上，通过流水线调度、显存优化和算子级控核，训练 MFU 提升 1.5 倍。

最终，LongCat 实现稳态日吞吐超过 1T tokens/day，完成万亿参数 MoE 模型在国产算力上的稳定训练。

在推理阶段，LongCat-2.0 围绕模型、算子和框架进行协同优化：通过大规模专家并行聚合访存带宽，支撑万亿参数 MoE 模型的低延迟解码；将零计算专家机制融入专家并行通信流程，使路由到零专家的 token 真正避免不必要的传输与计算；并针对通信、Attention、GEMM 等核心算子优化调度，结合提前下发与权重预取等框架机制，进一步降低推理链路中的等待开销。

从稳定训练到低延迟推理，LongCat-2.0 验证了我们已具备在国产算力集群上进行大规模模型训练的能力。它不只是“能训出”万亿参数模型，还让万亿参数模型能够在真实任务中稳定运行。

02 高效的模型架构：为Agentic Coding而生

LongCat-2.0 的架构设计始终围绕一个核心目标：让模型在真实 Agentic Coding 任务中更高效、更稳定地完成代码理解、生成与执行。

1M超长上下文，让 Agent 看见整个项目。 传统模型在处理超过 100K 上下文后就开始“遗忘”前面的内容。LongCat-2.0 采用 LongCat Sparse Attention（LSA）稀疏注意力机制，在处理长文本时不再“逐字逐句地看”，而是智能筛选关键信息，将计算量从平方级降至线性级。这使得模型在 100 万 Token 的超长上下文中，依然保持精准的信息定位与理解能力。

零计算专家 + ScMoE，让算力用在刀刃上。 代码任务中不同 token 复杂度差异巨大——定义变量名和推导递归算法对算力的需求完全不同。LongCat-2.0 通过零计算专家实现 token 级动态激活（33B~56B），简单 token 不消耗算力，复杂 token 自动获得更多计算资源。

MOPD 多专家融合，一个模型同时擅长写代码、做推理、懂交互。 LongCat-2.0 通过 MOPD 架构融合 Agent、Reasoning、Interaction 三组专家能力——Agent Experts 专攻工具调用与自主纠错，Reasoning Experts 深耕数学与 STEM 推理，Interaction Experts 优化指令遵循与交互体验。推理时由门控网络根据任务类型动态调度最擅长的专家，而非简单合并参数。得益于此，模型在编程、推理、交互等维度均表现突出。

LongCat-2.0 通过精细的架构设计，让万亿参数模型在实际任务中更高效、更稳定地发挥能力。

03 评测表现优异：打造面向真实场景的万亿级模型

综合评测结果显示，LongCat-2.0 凭借卓越的综合性能与稳定的任务表现，在 Code 和 General Agent 场景表现优异。

在编程能力方面，LongCat-2.0 展现出扎实的综合实力：在考察深层工程能力的 SWE-bench Pro 中获得 59.5，领先Gemini 3.1 Pro（54.2）、 GPT-5.5（58.6）和 Claude Opus 4.6（57.3）；在 SWE-bench Multilingual 中取得 77.3 的成绩，与 Claude Opus 4.6（77.8）保持在同一水位；此外，在真实终端指令交互评测 Terminal-Bench 2.1 中取得 70.8，体现了其在真实运维与开发终端任务中的稳定执行与纠错能力。

在真实办公场景的复杂任务处理方面，LongCat-2.0 表现均衡：在搜索智能体评测集 RWSearch 中获得 78.8，在生产力场景评测集 FORTE 中获得 73.2 ，在 BrowseComp 中获得 79.9，均达到或接近前沿闭源模型水平，证明了其在多步骤任务规划、复杂工具调用及长程检索执行上的高可靠性，能够较好的契合企业级 Agent 的落地需求。

立即体验