智谱推出 GLM-5-Turbo，一个龙虾增强的基座模型

智谱官微今日宣布推出 GLM-5-Turbo——一个面向OpenClaw龙虾场景深度优化的基座模型。

体验过 OpenClaw 的用户都有一个共同感受：模型能聊好天，但未必能干好活。问题的根源不在框架，而在底层模型本身。通用大模型在进入真实复杂的 Agent 场景后，容易在长链路任务中失速。

Harness 再多，不如模型自身变强。GLM-5-Turbo 从训练阶段就针对龙虾任务的核心需求进行专项优化，增强如工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力。在自研基准测试ZClawBench中取得国产模型第一的成绩；多家互联网大厂在龙虾场景内测中给予高度评价。

智谱推出 Claw 龙虾套餐，及面向企业级场景的 Claw 安全管理体系。

龙虾原生模型

龙虾任务不是简单的一问一答，通常涉及多轮理解、任务拆解、工具调用、状态衔接、时间触发和持续执行的长链路工作流。通用模型即使在对话能力上表现优秀，一旦进入真实龙虾场景，仍然容易出现指令遵循偏差、工具调用不稳定、长任务中途失速等问题。

要从根本上解决这些难题，必须在基座模型层进行深度优化——这正是GLM-5-Turbo的出发点。

从训练数据构造到优化目标设计，我们构造真实Agent工作流使模型在龙虾任务中具备可执行性。重点增强以下核心能力：

Tool Calling——调用不掉链子。强化对外部工具与各类Skills的调用能力。
Instruction Following——复杂指令拆解更强。对复杂多层、长链路指令理解和拆解更准确，支持识别目标、规划步骤、多智能体协同。
定时与持续性任务——更懂时间维度，长任务不中断。针对定时触发、长时间运行等场景进行重点优化，能够更好理解时间维度上的要求。
高吞吐长链路——执行更稳。针对数据吞吐量大、链条长的任务进一步提升执行效率与稳定性，适合长程业务流程。

龙虾场景基准ZClawBench

随着龙虾OpenClaw的普及，如何评测模型在龙虾场景的能力成为全行业焦点。基于对OpenClaw大量真实用例的分析，我们发布龙虾场景端到端Agent评测基准ZClawBench。

当前OpenClaw的任务类型覆盖安装配置、代码开发、信息搜集、数据分析、内容创作等多元化任务，用户群体也从早期的开发者扩展到效率办公人群、金融从业者、运维工程师、内容创作者与研究分析人员等。同时，Skills的使用比例在短时间内从26%快速增长至45%，表明Agent能力正向模块化与技能化的生态方向演进。

基于该基准的评测结果显示，GLM-5-Turbo在OpenClaw场景中的表现相比GLM-5提升显著，在多项关键任务上整体领先于多家主流模型。

ZClawBench的题库与测试轨迹已全面公开，欢迎业界共同验证与完善。

用户真实体验是试金石。GLM-5-Turbo以Pony-Alpha-2为代号接入AutoClaw澳龙，在用户盲测中，90%的受访者认为GLM-5-Turbo的表现优于其他国产模型。

内测阶段，龙虾生态的互联网大厂对GLM-5-Turbo给予高度评价：

“精准的工具调用配合长程任务的稳定可靠，完美驱动了桌面级Agent上的跨应用数据流转与系统API操控。在攻克办公场景的‘幻觉’痛点上表现优秀！”——阿里QoderWork模型测评团队

“指令遵循力压群雄，面对长任务更精准不掉链子，极大提升了多智能体构建的成功率。”——扣子Coze测评团队

“定时与长链路任务稳健，对比同类模型展现出明显第一梯队的优势，非常靠谱。”——美团模型测评团队

“高吞吐执行极快且不失速，响应稳定性领跑同类模型，真正解决了Agent的执行难题。”——快手万擎测评团队

在编程场景，GLM-5-Turbo延续GLM模型Agentic Engineering的表现：