Mistral AI 发布 Mistral Small 4：一款拥有 1190 亿参数的 MoE 模型

Mistral AI 发布了 Mistral Small 4，这是 Mistral Small 系列的新模型，旨在将之前多个独立的功能整合到一个单一的部署目标中。Mistral 团队将 Small 4 描述为首个融合了Mistral Small（指令执行）、Magistral（推理）、Pixtral（多模态理解）和Devstral（智能体编码）等功能的组合模型。最终成果是一个可以作为通用助手、推理模型和多模态系统运行的单一模型，无需在不同工作流程中切换模型。

架构：128 位专家，稀疏激活

从架构上看，Mistral Small 4 是一个混合专家 (MoE)模型，包含128 位专家，每个 token有4 位活跃专家。该模型总共有 1190 亿个参数，每个 token 有 60 亿个活跃参数，若包含嵌入层和输出层则为 80 亿。

长上下文和多模态支持

该模型支持256k 的上下文窗口，这对于实际工程应用场景而言意义重大。长上下文容量的重要性不在于其市场宣传指标，而在于其对运维的简化作用：它减少了在长文档分析、代码库探索、多文件推理和智能体工作流等任务中对数据分块、检索编排和上下文剪枝的需求。Mistral 将该模型定位为适用于通用聊天、编码、智能体任务和复杂推理，支持文本和图像输入以及文本输出。这使得 Small 4 跻身于日益重要的通用模型行列，这类模型有望通过单一 API 接口处理语言密集型和视觉化的企业级任务。

推理时可配置的推理强度

比原始参数数量更重要的产品决策是引入了可配置的推理强度。Small 4 引入了按请求设置的 reasoning_effort 参数，允许开发者通过牺牲延迟来换取更深入的测试时推理。在官方文档中，reasoning_effort=“none” 被描述为能产生快速响应，其聊天风格相当于 Mistral Small 3.2；而 reasoning_effort="high" 则旨在实现更周密、循序渐进的推理，其详细程度可与早期的 Magistral 模型相媲美。这改变了部署模式。开发团队无需在快速模型与推理模型之间进行路由切换，而是可以保持单一模型在线，并在请求时动态调整推理行为。从系统架构角度来看，这种方式更为简洁，且在仅需对部分查询进行高成本推理的产品中更易于管理。

性能声明和吞吐量定位

Mistral 团队也强调推理效率。在延迟优化配置下， Small 4 的端到端完成时间缩短了 40% ；在吞吐量优化配置下，每秒请求数提高了 3 倍，这两项指标均与 Mistral Small 3 相比。Mistral 并非仅仅将 Small 4 视为一个更大的推理模型，而是将其定位为一个旨在提升实际服务负载下部署经济性的系统。

基准结果和产出效率

在推理基准测试方面，Mistral 的发布重点在于质量和输出效率。Mistral 研究团队报告称，Mistral Small 4在AA LCR、LiveCodeBench和AIME 2025测试中，其推理性能与GPT-OSS 120B持平或更优，同时输出更短。Mistral 公布的数据显示，Small 4 在AA LCR 测试中，使用 1.6K 个字符即可获得 0.72 的分数，而 Qwen 模型需要5.8K 到 6.1K 个字符才能达到类似的性能。Mistral 团队指出，在LiveCodeBench 测试中，Small 4 的性能优于 GPT-OSS 120B，同时输出量减少了 20%。这些是公司公布的结果，但它们强调了一个比单纯的基准测试分数更实用的指标：每个生成词元的性能。对于生产环境工作负载而言，更短的输出可以直接降低延迟、推理成本和下游解析开销。

Mistral AI 发布 Mistral Small 4：一款拥有 1190 亿参数的 MoE 模型 — 来自mistral-small-4

部署详情

对于自托管，Mistral 提供了具体的架构指导。该公司建议的最低部署目标是4 块 NVIDIA HGX H100、2块NVIDIA HGX H200或1 块 NVIDIA DGX B200，并建议使用更大的配置以获得最佳性能。HuggingFace 上的显卡型号支持vLLM、llama.cpp、SGLang和Transformers，但部分功能仍在开发中，vLLM是推荐选项。Mistral 团队还提供了一个自定义 Docker 镜像，并指出与工具调用和推理解析相关的修复仍在向上游提交。这对工程团队来说是一个有用的细节，因为它明确表明虽然支持已经存在，但某些组件仍在更广泛的开源服务堆栈中稳定运行。